看到有篇文章，是对apriori算法在hadoop平台下对数据进行切分的

每天看一遍，防止恋爱&&堕落 2016-03-16 03:02:01

链接如下：
http://www.cstor.cn/textdetail_1023.html

主要步骤如下：
(1)把数据库分成规模相当的.. M个数据子集，把数据子集发送到M个站点；
(2)每个站点扫描它的数据子集，产生一个局部的候选k项集的集合，记作C2，每个候选项集的支持度计数为1；
(3)利用hash函数把M个站点的C2中相同的项集和它的支持度计数发送到R个站点；..
(4)R个站点中的每个站点把相同项集的计数累加起来，产生最后的实际支持度，与最小支持度计数rnsp比较确定局部频繁k项集的集合ai_u，；
(5)把R个站点的输出合并即产生全局频繁k项集的集合上咄。将以上思想运用于云计算的MapReduce框架中，由Map函数对输入的候选k项集进行扫描，产生中间.. key／value对，经过combiner函数处理之后交给Reduce函数，Reduce函数将相同候选k项集的支持度计数累加得到候选k项集在整个事务数据库中的实际支持度计数。K值从.. 1开始递增，经过数次计算之后，就能得到所有频繁项集。

不太明白这个要怎么做？首先第一条我就不清楚了，以前不都是直接默认64M分割的么？假如要程序中实现要如何做分割之后发送给M个站点？

对hadoop有点小白，只看了简单几个程序，网上也没找到类似的资料。。还请各位不吝赐教！

...全文