问一个hadoop数据快速导入到cassandra的问题(sstable方式?)

officercat 2017-01-26 10:52:42
我最近有一个hadoop中上百GB上亿数据快速导入caassandra的需求,
网上有些hadoop mapreduce写入cassandra的文章,但那都是用cassandra的trift(新增的cql方式连接写入)在线写入cassandra,这个速度快到哪里去呢/
调研了一下通过sstable应该是最快的。很多数据库加载格式化文件都是最快的。
问题是生成sstable能否很快,通过hadoop mapreduce之类生成sstable是否可行呢?casandra3.x的API里提供了CQLSSTableWriter,但这个单机用可以,在mapreduce中怎么用(从hadoop输入数据中mr处理后reduce写入到目标路径),我没琢磨出来。

有人用过我这种思路么?或者有其他更好的思路?希望执教一下,谢谢了。
...全文
936 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

8,028

社区成员

发帖
与我相关
我的任务
社区描述
高性能数据库开发
社区管理员
  • 高性能数据库开发社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧