问一个hadoop数据快速导入到cassandra的问题(sstable方式?)
我最近有一个hadoop中上百GB上亿数据快速导入caassandra的需求,
网上有些hadoop mapreduce写入cassandra的文章,但那都是用cassandra的trift(新增的cql方式连接写入)在线写入cassandra,这个速度快到哪里去呢/
调研了一下通过sstable应该是最快的。很多数据库加载格式化文件都是最快的。
问题是生成sstable能否很快,通过hadoop mapreduce之类生成sstable是否可行呢?casandra3.x的API里提供了CQLSSTableWriter,但这个单机用可以,在mapreduce中怎么用(从hadoop输入数据中mr处理后reduce写入到目标路径),我没琢磨出来。
有人用过我这种思路么?或者有其他更好的思路?希望执教一下,谢谢了。