问一个hadoop数据快速导入到cassandra的问题（sstable方式？）

officercat 2017-01-26 10:52:42

我最近有一个hadoop中上百GB上亿数据快速导入caassandra的需求，
网上有些hadoop mapreduce写入cassandra的文章，但那都是用cassandra的trift（新增的cql方式连接写入）在线写入cassandra，这个速度快到哪里去呢/
调研了一下通过sstable应该是最快的。很多数据库加载格式化文件都是最快的。
问题是生成sstable能否很快，通过hadoop mapreduce之类生成sstable是否可行呢？casandra3.x的API里提供了CQLSSTableWriter，但这个单机用可以，在mapreduce中怎么用（从hadoop输入数据中mr处理后reduce写入到目标路径），我没琢磨出来。

有人用过我这种思路么？或者有其他更好的思路？希望执教一下，谢谢了。

...全文

938 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

Cassandra-Hadoop内存表通过Hadoop在Cassandra中使用Binary Memtable。概述Cassandra写入首先写入CommitLog，然后写入每个称为Memtable的基于ColumnFamily的结构。当内存表已满时，它将作为SSTable写入磁盘。 ...

简介：在 Cassandra 中，当达到一定条件触发 flush 的时候，表对应的 Memtable 中的数据会被写入到这张表对应的数据目录（通过 data_file_directories 参数配置）中，并生成一个新的 SSTable（Sorted Strings Table...

Hadoop入门和大数据应用视频教程，该课程主要分享Hadoop基础及大数据方面的基础知识。介绍大数据技术生态圈主流技术框架的应用与发展，介绍如何搭建Hadoop大数据分布式系统集群平台、大数据分布式文件系统HDFS ...

一个Cassandra集群需要投入时候，绝大多数时候都是会有初始化数据的，比如博客网站中所有的博客数据，数据分析网站中所有的网页信息，电子商务网站中所有的商品信息等等。这些初始化数据往往量的都非常大，不...

目录一、Hadoop相关的步骤与作业项二、连接Hadoop 1. 连接Hadoop集群（1）开始前准备（2）配置步骤 ...三、导入导出Hadoop集群数据 ...1. 向HDFS导入数据 ...2. 向Hive导入数据 ...3. 从HDFS抽取数据到...（2）建立一个

数据库开发

8,028

社区成员

1,361

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章