一个大文件1Tb左右的如何放到Hadoop上进行处理

winds_xp 2017-11-21 01:25:56

...全文

1933 15 打赏收藏转发到动态举报

写回复

用AI写文章

15 条回复

切换为时间正序

请发表友善的回复…

发表回复

angel725 2019-09-02

打赏
举报

Hadoop fs -put

Only Love… 2019-08-28

打赏
举报

引用 8 楼 <span style="color:#4788C7">zengjc</span>的回复:

楼上说的都挺对的。通过put、copyFromLocal 等方式将该文件从本地磁盘上传到hdfs中，然后通过spark、hive外部表等方式直接读这个json文件就行了，还可以直接将解析后的结果放入表中，利于写SQL进行分析。

<br />那如果是把1T的文件怎样存放在内存上限是256G，下限是64M的的机器里，而且还要从上亿行里找出两个重复行呢？

Mr.别离 2018-08-29

打赏
举报

Hadoop fs -put

qq_39403536 2018-08-21

打赏
举报

1T。。。。个人建议不要用hadoop fs -put命令，万一网络有问题，之前的就白传了，建议写代码，用数据流的方式往hdfs上写，做一下断点续传的改造

weitao1010 2018-08-20

打赏
举报

hadoop fs -put localPath destPath

blueview 2018-08-18

打赏
举报

Hadoop fs -put即可

zengjc 2018-08-10

打赏
举报

楼上说的都挺对的。通过put、copyFromLocal 等方式将该文件从本地磁盘上传到hdfs中，然后通过spark、hive外部表等方式直接读这个json文件就行了，还可以直接将解析后的结果放入表中，利于写SQL进行分析。

五哥 2018-07-26

打赏
举报

put ，分区存放

laolaolaoyu 2017-12-25

打赏
举报

hadoop fs -copyFromLocal 把文件写入hdfs，再写一个mapreduce处理，这是hadoop的强项

曹宇飞丶 2017-12-01

打赏
举报

调用程序put 上去，处理完成后写入HDFS

zjcxc 2017-12-01

打赏
举报

put 上去呗，反正 Hadoop 自己会把它打散成n 多个小文件(block) 存储到不同的数据结点上

winds_xp 2017-11-29

打赏
举报

文件格式为Json, 处理完要保存。

泪三国云无痕 2017-11-23

打赏
举报

这么大,是存到oss上面去吗

tianfang 2017-11-22

打赏
举报

文件里数据是什么样的格式？数据处理的规则是什么？数据保存还是一次性处理后丢弃？

HDFS全称是Hadoop Distributed System。HDFS是为以流的方式存取大文件而设计的。适用于几百MB，GB以及TB，并写一次读多次的场合。而对于低延时数据访问、大量小文件、同时写和任意的文件修改，则并不是十分适合。 hadoop提供了许多文件系统的接口，用户可使用URI方案选取合适的文件系统来实现交互。（1）接口 hadoop是使用Java编

文章目录一、小文件定义二、为什么会有小文件1.数据迁移过程中：2.处理源头文件：3.处理过程中产生：三、小文件给Hadoop集群带来的瓶颈问题四、如何解决小文件1.Hadoop中：一、小文件定义小文件是指文件大小明显小于 HDFS 上块（block）大小（Hadoop1.x中默认64MB，在Hadoop2.x中默认为128MB）的文件。二、为什么会有小文件 Hadoop中的目录、文件、block都会以元数据（MetaData）的方式存储下来的，他们每一个的元数据大小还是不一样的，如果感兴趣的话

实验一：Hadoop大数据平台安装 16281002 杜永坤 1、实验目的在大数据时代，存在很多开源的分布式数据采集、计算、存储技术，本实验将熟悉并搭建几种常用的大数据采集、处理分析技术环境。《大数据技术》实验一需要在笔记本上搭建 Hadoop 集群，实验报告根据教程对笔记本上创建虚拟机搭建 Hadoop 集群的步骤进行了说明。包含所有需要安装的软件与服务的版本，安装路径，安装方法等。主要流程...

Hadoop分布式文件系统（HDFS）的设计主旨，在于对超大规模数据集提供可靠的存储功能，并对用户应用程序提供高带宽的输入输出数据流。在大型的集群里，上千台服务器均可直接参与到数据存储和应用程序任务执行。通过多服务器，分布式的存储和计算，计算资源的规模能够按照需要增长，并兼顾在各种规模上经济适用性。本文主要描述了HDFS的架构，并以Yahoo!企业数据服务为例，介绍了如何使用HDFS系统管理高达

Hadoop生态社区

20,808

社区成员

4,690

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章