sqoop1 导入数据保存成parquet spark dataframe无法使用

zhaochaoqi 2016-07-05 02:41:25

用sqoop1-1.4.5 -as-aprquet 将数据从MySQL 导入到hdfs 保存成parquet 但是spark 无法使用
保存 sqoop保存的文件不是parquet file

...全文

764 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

a95473004 2016-12-28

打赏
举报

回复

Spark的jdbcreader比sqoop好用多了。。。。放弃sqoop吧。。

zhaochaoqi 2016-11-16

打赏
举报

回复

sqoop import --connect "jdbc:oracle:thin:@host:nettele" --username admin -P admin --split-by CUSTOMER_ID --query 'select * from db.table where createdate is not null and $CONDITIONS ' --target-dir /user/tkonline/test-parquet/ --num-mappers 6 --as-parquetfile

LinkSe7en 2016-07-08

打赏
举报

回复

把sqoop命令贴上来看看

1.Sqoop系统概述 2.Sqoop的安装与配置 3.Sqoop数据导入 4.Sqoop数据导出 5.Sqoop高级导入导出 6.Sqoop生产环境优化

\n "）然而hive1.1.0中数据换行默认识别的也是\n，最坑的是还不能对它进行修改（目前我没有查出修改的方法，大家要是有办法欢迎在评论区讨论）那我只能对数据进行处理了，以前使用sqoop的时候也有这个问题，所幸...

Hadoop分布式文件系统HDFS作为Spark最常用的存储平台，使用普通硬件（廉价机）为非结构化数据或半结构化数据提供了低成本的存储。Spark并不局限于HDFS，可以用于任何Hadoop支持的存储。 Hadoop支持的存储是指可以...

当用Spark的DataFrame往HDFS里面写入csv的时候，会指定分隔符...之前曾尝试用DataFrame导出Parquet文件，并用sqoop命令来导出到oracle数据库，无奈总是报错parquet文件夹下缺乏.metadata文件，百度谷歌必应了半天...

1,258

社区成员

1,168

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章