HDFS的工作问题

king_on 2013-03-07 04:13:41
接触MapReduce也有一段时间了,一直有个问题没想清楚。这里咨询一下。
MapReduce-job的执行是以HDFS的数据为基础的。假如一个公司业务每天都会产生大量的数据,这些数据需要使用MapReduce处理。那么首先一个问题就是如何把每天产生的数据导入HDFS中?
HDFS的一个缺陷是数据不能修改,这是不是意味着公司的数据不适合使用MapReduce那?
...全文
141 3 打赏 收藏 转发到动态 举报
写回复
用AI写文章
3 条回复
切换为时间正序
请发表友善的回复…
发表回复
撸大湿 2013-04-04
  • 打赏
  • 举报
回复
引用 楼主 king_on 的回复:
接触MapReduce也有一段时间了,一直有个问题没想清楚。这里咨询一下。 MapReduce-job的执行是以HDFS的数据为基础的。假如一个公司业务每天都会产生大量的数据,这些数据需要使用MapReduce处理。那么首先一个问题就是如何把每天产生的数据导入HDFS中? HDFS的一个缺陷是数据不能修改,这是不是意味着公司的数据不适合使用MapReduce那? ……
1、MapReduce-job的INPUT数据源不止HDFS,比如:MYSQL\MSSQL\GFS(MONGODB)\本地磁盘数据等等 2、数据导入方式有很多,如果数据源是RDBMS,可以使用SQOOP,如果是LOCAL FILE,可以使用HDFS API,或者HADOOP.FS.SHELL 3、HDFS可以当做数据仓库来使用,仓库数据往往不需要修改。平凡修改的数据是业务数据,使用RDBMS比较好。如果业务数据浪很大,可以考虑HDFS+HBASE或者MONGODB,比如微博、论坛、邮件系统。

20,808

社区成员

发帖
与我相关
我的任务
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
  • 分布式计算/Hadoop社区
  • 涤生大数据
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧