社区
Hadoop生态社区
帖子详情
两两比较示例
Keven-Lee
2017-07-06 05:50:32
假设我有50000个文档,需要两两比较其相似度,因为每个比较大概需要1-2秒,所以我想用hadoop进行分布式计算,但是不知道怎么写。各位见笑了。
假定比较相似度的函数为:float sim(String text1, String text2)
请问mapreduce要如何写?多谢。
...全文
288
3
打赏
收藏
两两比较示例
假设我有50000个文档,需要两两比较其相似度,因为每个比较大概需要1-2秒,所以我想用hadoop进行分布式计算,但是不知道怎么写。各位见笑了。 假定比较相似度的函数为:float sim(String text1, String text2) 请问mapreduce要如何写?多谢。
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
3 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
Keven-Lee
2017-07-06
打赏
举报
回复
引用 2 楼 tom_fans 的回复:
这种方式好像没有用到分布式。
是的,而且我是五万,不是五千,单线程需要一亿两千五百万秒,所以一定要分布式的。
tom_fans
2017-07-06
打赏
举报
回复
这种方式好像没有用到分布式。
tom_fans
2017-07-06
打赏
举报
回复
map函数: 文档一个一个读入,然后读入的内容保存为String, 假设现在有5000个 String已经保存在一个LIST里面 cleanup阶段进行函数对比,应该通过2个for循环就解决了,把匹配的内容和结果输出,因为2个for 循环比较,一定会存在相同比较,也就是说a 比较 a, 这种结果丢弃即可。或者不比较。 for( i = 0; i< list.size ; i++ ) { for( i = 0; i< list.size ; i++ ) { float sim(list.get(i), list.get(i)) } } 大概这个意思,我觉得应该么啥问题
两两
交换链表中的节点1
两两
交换链表中的节点给定一个链表,
两两
交换其中相邻的节点,并返回交换后的链表。
示例
1:输出:[2,1,4,3]
示例
2:输出:[]
示例
3:输出:[1]* D
两两
认识leetcode-leetCodeSolution:为LeetCodeMedium解决方案编写
示例
两两
认识leetcode leetCode解决方案 为 LeetCode Medium 解决方案编写
示例
1138.字母板路径 中等的 图。1 目标: 我们得到以下参数,板和目标。 我们的 board 变量将始终保持不变,而 target 将是任何一系列小写字母...
python 实现
两两
交换链表中的节点
# 给定一个链表,
两两
交换其中相邻的节点,并返回交换后的链表 #
示例
: # 给定 1->2->3->4, 你应该返回 2->1->4->3 # 说明: # 你的算法只能使用常数的额外空间。 # 你不能只是单纯的改变节点内部的值,而是需要实际...
wuyuejinxia#Leetcode#24.
两两
交换链表中的节点1
给定一个链表,
两两
交换其中相邻的节点,并返回交换后的链表。
示例
:给定 1->2->3->4, 你应该返回 2->1->4->3.ListNode dummy =
C#实现冒泡排序算法的代码
示例
1、原理:从数组的第一个位置开始
两两
比较
array[index]和array[index+1],如果array[index]大于array[index+1]则交换array[index]和array[index+1]的位置,止到数组结束; 从数组的第一个位置开始,重复上面的动作,...
Hadoop生态社区
20,811
社区成员
4,691
社区内容
发帖
与我相关
我的任务
Hadoop生态社区
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
复制链接
扫一扫
分享
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章