两两比较示例

Keven-Lee 2017-07-06 05:50:32
假设我有50000个文档,需要两两比较其相似度,因为每个比较大概需要1-2秒,所以我想用hadoop进行分布式计算,但是不知道怎么写。各位见笑了。

假定比较相似度的函数为:float sim(String text1, String text2)

请问mapreduce要如何写?多谢。
...全文
288 3 打赏 收藏 转发到动态 举报
写回复
用AI写文章
3 条回复
切换为时间正序
请发表友善的回复…
发表回复
Keven-Lee 2017-07-06
  • 打赏
  • 举报
回复
引用 2 楼 tom_fans 的回复:
这种方式好像没有用到分布式。
是的,而且我是五万,不是五千,单线程需要一亿两千五百万秒,所以一定要分布式的。
tom_fans 2017-07-06
  • 打赏
  • 举报
回复
这种方式好像没有用到分布式。
tom_fans 2017-07-06
  • 打赏
  • 举报
回复
map函数: 文档一个一个读入,然后读入的内容保存为String, 假设现在有5000个 String已经保存在一个LIST里面 cleanup阶段进行函数对比,应该通过2个for循环就解决了,把匹配的内容和结果输出,因为2个for 循环比较,一定会存在相同比较,也就是说a 比较 a, 这种结果丢弃即可。或者不比较。 for( i = 0; i< list.size ; i++ ) { for( i = 0; i< list.size ; i++ ) { float sim(list.get(i), list.get(i)) } } 大概这个意思,我觉得应该么啥问题

20,811

社区成员

发帖
与我相关
我的任务
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
  • 分布式计算/Hadoop社区
  • 涤生大数据
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧