一个大文件1Tb左右的如何放到Hadoop上进行处理

winds_xp 2017-11-21 01:25:56
一个大文件1Tb左右的如何放到Hadoop上进行处理
...全文
1933 15 打赏 收藏 转发到动态 举报
写回复
用AI写文章
15 条回复
切换为时间正序
请发表友善的回复…
发表回复
angel725 2019-09-02
  • 打赏
  • 举报
回复
Hadoop fs -put
Only Love… 2019-08-28
  • 打赏
  • 举报
回复
引用 8 楼 <span style="color:#4788C7">zengjc</span>的回复:
楼上说的都挺对的。通过put、copyFromLocal 等方式将该文件从本地磁盘上传到hdfs中,然后通过spark、hive外部表等方式直接读这个json文件就行了,还可以直接将解析后的结果放入表中,利于写SQL进行分析。
<br />那如果是把1T的文件怎样存放在内存上限是256G,下限是64M的的机器里,而且还要从上亿行里找出两个重复行呢?
Mr.别离 2018-08-29
  • 打赏
  • 举报
回复
Hadoop fs -put
qq_39403536 2018-08-21
  • 打赏
  • 举报
回复
1T。。。。个人建议不要用hadoop fs -put命令,万一网络有问题,之前的就白传了,建议写代码,用数据流的方式往hdfs上写,做一下断点续传的改造
weitao1010 2018-08-20
  • 打赏
  • 举报
回复
hadoop fs -put localPath destPath
blueview 2018-08-18
  • 打赏
  • 举报
回复
Hadoop fs -put即可
zengjc 2018-08-10
  • 打赏
  • 举报
回复
楼上说的都挺对的。通过put、copyFromLocal 等方式将该文件从本地磁盘上传到hdfs中,然后通过spark、hive外部表等方式直接读这个json文件就行了,还可以直接将解析后的结果放入表中,利于写SQL进行分析。
五哥 2018-07-26
  • 打赏
  • 举报
回复
put , 分区存放
laolaolaoyu 2017-12-25
  • 打赏
  • 举报
回复
hadoop fs -copyFromLocal 把文件写入hdfs,再写一个mapreduce处理,这是hadoop的强项
曹宇飞丶 2017-12-01
  • 打赏
  • 举报
回复
调用程序put 上去,处理完成后写入HDFS
zjcxc 2017-12-01
  • 打赏
  • 举报
回复
put 上去呗,反正 Hadoop 自己会把它打散成n 多个小文件(block) 存储到不同的数据结点上
winds_xp 2017-11-29
  • 打赏
  • 举报
回复
文件格式为Json, 处理完要保存。
泪三国云无痕 2017-11-23
  • 打赏
  • 举报
回复
这么大,是存到oss上面去吗
tianfang 2017-11-22
  • 打赏
  • 举报
回复
文件里数据是什么样的格式? 数据处理的规则是什么? 数据保存还是一次性处理后丢弃?

20,808

社区成员

发帖
与我相关
我的任务
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
  • 分布式计算/Hadoop社区
  • 涤生大数据
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧