看到有篇文章,是对apriori算法在hadoop平台下对数据进行切分的

链接如下:
http://www.cstor.cn/textdetail_1023.html

主要步骤如下:
(1)把数据库分成规模相当的.. M个数据子集,把数据子集发送到M个站点;
(2)每个站点扫描它的数据子集,产生一个局部的候选k项集的集合,记作C2,每个候选项集的支持度计数为1;
(3)利用hash函数把M个站点的C2中相同的项集和它的支持度计数发送到R个站点;..
(4)R个站点中的每个站点把相同项集的计数累加起来,产生最后的实际支持度,与最小支持度计数rnsp比较确定局部频繁k项集的集合ai_u,;
(5)把R个站点的输出合并即产生全局频繁k项集的集合上咄。将以上思想运用于云计算的MapReduce框架中,由Map函数对输入的候选k项集进行扫描,产生中间.. key/value对,经过combiner函数处理之后交给Reduce函数,Reduce函数将相同候选k项集的支持度计数累加得到候选k项集在整个事务数据库中的实际支持度计数。K值从.. 1开始递增,经过数次计算之后,就能得到所有频繁项集。


不太明白这个要怎么做?首先第一条我就不清楚了,以前不都是直接默认64M分割的么?假如要程序中实现要如何做分割之后发送给M个站点?


对hadoop有点小白,只看了简单几个程序,网上也没找到类似的资料。。还请各位不吝赐教!
...全文
235 1 打赏 收藏 转发到动态 举报
写回复
用AI写文章
1 条回复
切换为时间正序
请发表友善的回复…
发表回复
  • 打赏
  • 举报
回复
这不就是用map里面分别处理,reduce里面在合并么

20,811

社区成员

发帖
与我相关
我的任务
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
  • 分布式计算/Hadoop社区
  • 涤生大数据
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧