社区
Spark
帖子详情
spark读取hdfs中lzo文件出现问题!!!!!lzo-hadoop-2.6
tianyu11221122
2017-09-13 07:47:47
各位大神跪求lzo-hadoop.jar支持hadoop-2.6版本的,或者是解决方法,本人想要用spark读取hdfs中*.lzo格式的压缩文件,
但是当前lzo-hadoop.jar包只支持hadoop-1.2.1,跪求解决办法!很急在线等!!!!
邮箱island_lonely@163.com
...全文
558
回复
打赏
收藏
spark读取hdfs中lzo文件出现问题!!!!!lzo-hadoop-2.6
各位大神跪求lzo-hadoop.jar支持hadoop-2.6版本的,或者是解决方法,本人想要用spark读取hdfs中*.lzo格式的压缩文件, 但是当前lzo-hadoop.jar包只支持hadoop-1.2.1,跪求解决办法!很急在线等!!!! 邮箱island_lonely@163.com
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
hadoop-
lzo
-0.4.21-SNAPSHOT.jar
花小钱就能解决的事情,何必自己动手,嘻嘻 编译好的hadoop-
lzo
-0.4.21-SNAPSHOT.jar 编译环境:ubuntu20,64位 使用方法:将jar包放在/hadoop-x.x.x/share/hadoop/common下,即可指定
lzo
压缩方式进行压缩,亲测有效,在flume
中
使用
hdfs
sink,即可得到
lzo
压缩
文件
2.Hadoop-
lzo
.7z
lzo
源码+包
hdfs
默认不支持
lzo
压缩,需要通过将
lzo
源码融入hadoop源码,重新编译hadoop源码;或者编译
lzo
源码生成jar,作为插件使用
22、MapReduce使用Gzip压缩、Snappy压缩和
Lzo
压缩算法写
文件
和
读取
相应的
文件
22、MapReduce使用Gzip压缩、Snappy压缩和
Lzo
压缩算法写
文件
和
读取
相应的
文件
网址:https://blog.csdn.net/chenwewi520feng/article/details/130456088 本文的前提是hadoop环境正常。 本文最好和MapReduce操作常见的
文件
文章一起阅读,因为写
文件
与压缩往往是结合在一起的。 相关压缩算法介绍参考文章:
HDFS
文件
类型与压缩算法介绍。 本文介绍写
文件
时使用的压缩算法,包括:Gzip压缩、Snappy压缩和
Lzo
压缩。 本文分为3部分,即Gzip压缩
文件
的写与读、Snappy压缩
文件
的写与读和
Lzo
压缩
文件
的写与读。 ———————————————— 版权声明:本文为CSDN博主「一瓢一瓢的饮 alanchan」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。 原文链接:https://blog.csdn.net/chenwewi520feng/article/details/130456088
hdfs
-compress:
hdfs
文件
压缩
hdfs
-compress 压缩
hdfs
文件
一般压缩
hdfs
指 ,数据
文件
的压缩 和 mapred
中
间结果压缩 工程只做数据压缩,至于MR
中
间结果压缩减少网络IO,只需要配置 mapred-site.xml 即可,网上资料很多。 工程只实现了
lzo
的压缩逻辑,需要前置条件:部署
lzo
环境 更多参考 工程不够强大,目前利用 hadoop api 按目录级压缩,已测试 。还少其他压缩策略的实现及测试,或其他方式 MR 、streaming 等,欢迎提交 pull request ,thanks build mvn clean package run hadoop jar
hdfs
-compress-0.0.1.jar <input>
input : 待压缩的
文件
或路径 output : 输出的路径,需要一个只有1级目录的
文件
夹 “e.g /home/yourname/w
HDFS
软件包.zip
hadoop-
lzo
-master.zip、lz4-1.7.5.tar.gz、
lzo
-2.06.tar.gz、nexus-2.9.0.war、hadoop2x-eclipse-plugin.zip、jdk-8u111.zip
Spark
1,261
社区成员
1,169
社区内容
发帖
与我相关
我的任务
Spark
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
复制链接
扫一扫
分享
社区描述
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章