两两比较示例

Keven-Lee 2017-07-06 05:50:32

假设我有50000个文档，需要两两比较其相似度，因为每个比较大概需要1-2秒，所以我想用hadoop进行分布式计算，但是不知道怎么写。各位见笑了。

假定比较相似度的函数为：float sim(String text1, String text2)

请问mapreduce要如何写？多谢。

...全文

295 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

Keven-Lee 2017-07-06

打赏
举报

回复

引用 2 楼 tom_fans 的回复:

这种方式好像没有用到分布式。

是的，而且我是五万，不是五千，单线程需要一亿两千五百万秒，所以一定要分布式的。

tom_fans 2017-07-06

打赏
举报

回复

这种方式好像没有用到分布式。

tom_fans 2017-07-06

打赏
举报

回复

map函数：文档一个一个读入，然后读入的内容保存为String，假设现在有5000个 String已经保存在一个LIST里面 cleanup阶段进行函数对比，应该通过2个for循环就解决了，把匹配的内容和结果输出，因为2个for 循环比较，一定会存在相同比较，也就是说a 比较 a，这种结果丢弃即可。或者不比较。 for( i = 0; i< list.size ; i++ ) { for( i = 0; i< list.size ; i++ ) { float sim(list.get(i), list.get(i)) } } 大概这个意思，我觉得应该么啥问题

多个样本的非参数检验的两两比较精.pdf多个样本的非参数检验的两两比较精.pdf多个样本的非参数检验的两两比较精.pdf多个样本的非参数检验的两两比较精.pdf多个样本的非参数检验的两两比较精.pdf

两两认识leetcode leetCode解决方案为 LeetCode Medium 解决方案编写示例 1138.字母板路径中等的图。1 目标：我们得到以下参数，板和目标。我们的 board 变量将始终保持不变，而 target 将是任何一系列小写字母。 board = [ 'abcde', 'fghij', 'klmno', 'pqrst', 'uvwxy', 'z' ] target = 'leet' Target 作为我们必须在字母板上找到的字母的参考。初始起点始终是“a”。我们的目标是在黑板上找到来自目标的每一个字母。当我们找到每个字母时，我们将记录沿途的方向，例如，向下、向下、向左、向右等。这将是我们以字符串格式返回的最终答案。示例 1：这是我们期望的输入和输出的示例。 Input: target = "leet" Output: "DDR!UURRR!!DDD!" 感叹号充当目标中每个字母之间的分隔符。一旦我们找到一个字母，我们还会添加一个感叹号。初始策略：接近我们的解决方案 board = [ 'abcde', 'fghij', 'klmno',

# 给定一个链表，两两交换其中相邻的节点，并返回交换后的链表 # 示例: # 给定 1->2->3->4, 你应该返回 2->1->4->3 # 说明: # 你的算法只能使用常数的额外空间。 # 你不能只是单纯的改变节点内部的值，而是需要实际的进行节点交换

给定一个链表，两两交换其中相邻的节点，并返回交换后的链表。示例:给定 1->2->3->4, 你应该返回 2->1->4->3.ListNode dummy =

PICT工具就是在微软公司内部使用的一款成对组合的命令行生成工具，已经对外提供 PICT 可以有效地按照两两测试的原理，进行测试用例设计·在使用PICT时，需要输入与测试用例相关的所有参数，以达到全面覆盖的效果·

Hadoop生态社区

20,847

社区成员

4,695

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章