spark解压大量zip文件

weixin_42443454 2018-12-02 12:08:26
有8-10T左右的zip文件保存在hdfs,我需要解压出来,考虑使用MapReduce或者spark实现,但是我现在根本没有思路,求大神们支招
...全文
301 2 打赏 收藏 转发到动态 举报
写回复
用AI写文章
2 条回复
切换为时间正序
请发表友善的回复…
发表回复
  • 打赏
  • 举报
回复
数据源格式的改变在所难免。
由于zip压缩格式不支持split切分读取。mr不会尝试切分zip压缩文件,因为它知道输入的是zip压缩文件(通过ext)且zip不支持切分。所以我觉得你再map的时候应该会拿到整个文件(通过block的Index)。拿到之后将其转化为其他可以压缩并且支持split的压缩格式,如RCFile、Avro或者直接存储解压后的文件。然后再重新mr操作。
weixin_42443454 2018-12-03
  • 打赏
  • 举报
回复
引用 1 楼 L_ong211314 的回复:
数据源格式的改变在所难免。 由于zip压缩格式不支持split切分读取。mr不会尝试切分zip压缩文件,因为它知道输入的是zip压缩文件(通过ext)且zip不支持切分。所以我觉得你再map的时候应该会拿到整个文件(通过block的Index)。拿到之后将其转化为其他可以压缩并且支持split的压缩格式,如RCFile、Avro或者直接存储解压后的文件。然后再重新mr操作。
大佬....我看你写的有点懵,可以麻烦一下再解释一遍么....

20,808

社区成员

发帖
与我相关
我的任务
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
  • 分布式计算/Hadoop社区
  • 涤生大数据
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧