Spark输出ORC格式的文件

weixin_38069146 2016-09-08 04:22:35

请问spark上RDD怎么输出到ORC文件里，我知道spark-sql可以做到，但是除了这种方法呢？我想知道用saveAsNewAPIHadoopFile 这个API可以做到么？我现在的代码是 ex.map(x => (NullWritable.get(), x)).repartition(partition.toInt).saveAsNewAPIHadoopFile("/user/tmp/orc", classOf[NullWritable], classOf[Model], classOf[OrcNewOutputFormat]) case class Model(uid: String, province: String, city: String) 里面的ex是RDD[Model] 运行报错 Model cannot be cast to org.apache.hadoop.hive.ql.io.orc.OrcSerde$OrcSerdeRow at org.apache.hadoop.hive.ql.io.orc.OrcNewOutputFormat$OrcRecordWriter.write(OrcNewOutputFormat.java:37) at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsNewAPIHadoopDataset$1$$anonfun$12$$anonfun$apply$4.apply$mcV$sp(PairRDDFunctions.scala:1113) at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsNewAPIHadoopDataset$1$$anonfun$12$$anonfun$apply$4.apply(PairRDDFunctions.scala:1111) at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsNewAPIHadoopDataset$1$$anonfun$12$$anonfun$apply$4.apply(PairRDDFunctions.scala:1111) at org.apache.spark.util.Utils$.tryWithSafeFinally(Utils.scala:1251) at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsNewAPIHadoopDataset$1$$anonfun$12.apply(PairRDDFunctions.scala:1119) at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsNewAPIHadoopDataset$1$$anonfun$12.apply(PairRDDFunctions.scala:1091) at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:66) at org.apache.spark.scheduler.Task.run(Task.scala:89) at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:214) at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615) at java.lang.Thread.run(Thread.java:744)

...全文

138 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

鳗鱼 Eel是用于在hadoop生态系统中处理数据的工具包。通过hadoop生态系统，我们指的是大数据世界通用的文件格式，例如HDFS或Hive表等位置中的镶木地板，兽人，csv。与诸如或分布式批处理或流引擎相比，Eel是旨在直接在过程中使用的SDK。与较高级别的引擎（例如Spark）相比，Eel是较低级别的API，适用于需要文件API之类的用例。用例范例从JDBC之类的源导入到Hive / HDFS之类的另一源将多个文件（例如spark的输出）合并为一个文件直接从您的过程中查询，流化或读取（相对）较小的数据集，而无需接触YARN或类似对象。移动或更改配置单元中的分区检索

一. ORC文件的格式 1. 什么是orc文件 ORC文件, 全称Optimized Row Columnar, 是一种高效存储数据的格式. 他能同时提高数据的read, write, process效率. ORC文件和parquet一样, 不是一个单纯的列式存储结构, 而是首先按照数据行切割整个文件, 单后在行组内部使用列式存储每个字段列式文件的好处: 提高查询效率: 当要查询某一列时, 不用全文见扫描, 可以只读取这一列的数据其次, 文件中会对列加入统计信息: 包括列的max, m

1.Hive系统概述2.Hive安装与配置3.Hive数据模型4.Hive HQL5.Hive 常见函数6.Hive 自定义函数7.Hive2.0存储过程：HPL/SQL实践8.Hive Index 原理及使用9.Hive Update,Delete 操作说明10.Hive ORCFile,Parquet文件格式实践11.Hive 数据压缩及解决数据倾斜问题

Spark -orc internal spark 基本概念介绍 RDD 直观上，RDD可理解为下图所示结构，即RDD包含多个Partition（分区），每个Partition代表一部分数据并位于一个计算节点 RDD本质上是Spark中的一个抽象类 RDD包含以下成员方法或属性： 1、compute方法提供在计算过程中Partition元素的获取与计算方式 2、partition的列表每一个partition代表一个并行的最小划分单元； 3、dependencies列表描述RDD依赖哪些父RDD生成

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC#:~:text=The%20Optimized%20Row%20Columnar%20(ORC,%2C%20writing%2C%20and%20processing%20data. https://orc.apache.org/docs/

其他技术讨论专区

434

社区成员

791,270

社区内容

发帖

与我相关

我的任务

其他技术论坛（原bbs）

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章