谁亲自做过用mapreduce生成HFILE,再用BulkLoad入HBase表
网上资料也查了,现在用2个方法。
第一个:用MapReduce操作读取HDFS上的文件,然后Map任务调用Hbase的API(PUT),插入数据库表,我们大概6个节点机,入库速度大概在10万每秒。
第二个:用MapReduce读取HDFS上的文件生成HFile文件。如果不指定ROWKEY顺序。MAP生成文件。Reduce用KeyValueSortReducer类完成,能把数据入库HBase,但速度慢,大概在5万每秒(跟1是相同环境下)。
但改成测试在Reduce生成HFile文件,但一直不成功,因为我怎么设计ROWKEY都提示(顺序不对)不成功。因为我建表的时候,已经把表分成了多个REGION。如(split on ('AAAAA00000','AAAAA11111','AAAAA22222','AAAAA33333'......)等。
据我所知,有的公司能达到20多万条每秒。但不知道他们具体如何实现。只知道是用mapreduce实现的,具体细节就不清楚了。
期望做过的高手来指导,谢谢!我只有40分了,全送上。