spark读取hdfs中lzo文件出现问题！！！！！lzo-hadoop-2.6

tianyu11221122 2017-09-13 07:47:47

各位大神跪求lzo-hadoop.jar支持hadoop-2.6版本的，或者是解决方法，本人想要用spark读取hdfs中*.lzo格式的压缩文件，
但是当前lzo-hadoop.jar包只支持hadoop-1.2.1，跪求解决办法!很急在线等！！！！
邮箱island_lonely@163.com

...全文

558 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

花小钱就能解决的事情，何必自己动手，嘻嘻编译好的hadoop-lzo-0.4.21-SNAPSHOT.jar 编译环境：ubuntu20，64位使用方法：将jar包放在/hadoop-x.x.x/share/hadoop/common下，即可指定lzo压缩方式进行压缩，亲测有效，在flume中使用hdfs sink，即可得到lzo压缩文件

hdfs默认不支持lzo压缩，需要通过将lzo源码融入hadoop源码，重新编译hadoop源码；或者编译lzo源码生成jar，作为插件使用

22、MapReduce使用Gzip压缩、Snappy压缩和Lzo压缩算法写文件和读取相应的文件网址：https://blog.csdn.net/chenwewi520feng/article/details/130456088 本文的前提是hadoop环境正常。本文最好和MapReduce操作常见的文件文章一起阅读，因为写文件与压缩往往是结合在一起的。相关压缩算法介绍参考文章：HDFS文件类型与压缩算法介绍。本文介绍写文件时使用的压缩算法，包括：Gzip压缩、Snappy压缩和Lzo压缩。本文分为3部分，即Gzip压缩文件的写与读、Snappy压缩文件的写与读和Lzo压缩文件的写与读。 ———————————————— 版权声明：本文为CSDN博主「一瓢一瓢的饮 alanchan」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。原文链接：https://blog.csdn.net/chenwewi520feng/article/details/130456088

hdfs-compress 压缩hdfs文件一般压缩hdfs指，数据文件的压缩和 mapred 中间结果压缩工程只做数据压缩，至于MR中间结果压缩减少网络IO，只需要配置 mapred-site.xml 即可，网上资料很多。工程只实现了lzo的压缩逻辑，需要前置条件：部署lzo环境更多参考工程不够强大，目前利用 hadoop api 按目录级压缩，已测试。还少其他压缩策略的实现及测试，或其他方式 MR 、streaming 等，欢迎提交 pull request ，thanks build mvn clean package run hadoop jar hdfs-compress-0.0.1.jar <input> input : 待压缩的文件或路径 output : 输出的路径,需要一个只有1级目录的文件夹 “e.g /home/yourname/w

hadoop-lzo-master.zip、lz4-1.7.5.tar.gz、lzo-2.06.tar.gz、nexus-2.9.0.war、hadoop2x-eclipse-plugin.zip、jdk-8u111.zip

1,261

社区成员

1,169

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章