看到有篇文章,是对apriori算法在hadoop平台下对数据进行切分的
链接如下:
http://www.cstor.cn/textdetail_1023.html
主要步骤如下:
(1)把数据库分成规模相当的.. M个数据子集,把数据子集发送到M个站点;
(2)每个站点扫描它的数据子集,产生一个局部的候选k项集的集合,记作C2,每个候选项集的支持度计数为1;
(3)利用hash函数把M个站点的C2中相同的项集和它的支持度计数发送到R个站点;..
(4)R个站点中的每个站点把相同项集的计数累加起来,产生最后的实际支持度,与最小支持度计数rnsp比较确定局部频繁k项集的集合ai_u,;
(5)把R个站点的输出合并即产生全局频繁k项集的集合上咄。将以上思想运用于云计算的MapReduce框架中,由Map函数对输入的候选k项集进行扫描,产生中间.. key/value对,经过combiner函数处理之后交给Reduce函数,Reduce函数将相同候选k项集的支持度计数累加得到候选k项集在整个事务数据库中的实际支持度计数。K值从.. 1开始递增,经过数次计算之后,就能得到所有频繁项集。
不太明白这个要怎么做?首先第一条我就不清楚了,以前不都是直接默认64M分割的么?假如要程序中实现要如何做分割之后发送给M个站点?
对hadoop有点小白,只看了简单几个程序,网上也没找到类似的资料。。还请各位不吝赐教!