Spark以GenericRecord为元素创建列表转化为RDD报错

_北海岸的蔚蓝 2016-09-13 10:39:10

在使用scala编写spark程序时，用到avro格式数据，其中数据的类型用GenericRecord，在转化为RDD时，我想将GenericRecord做为元素存入列表，然后转化为RDD，结果在跑的时候报错，说GenericRecord没有序列化，希望各位能共同探讨下。
代码：
object sparktest {
//初始化Spark配置及上下文
val conf = new SparkConf().setAppName("local").setAppName("My App")
val sc = new SparkContext(conf)

//转化最后结果的输出结果格式，方便之后操作
//传入的参数是二元组，第一个元素是String类型，第二个元素为Int类型，配合处理结果，返回类型为String
def trans(line:Tuple2[String,Int]):String = {
//处理结果返回结构为 www.baidu.com 5
return line._1 + "\t" + line._2
}

def main(args:Array[String]): Unit ={
var beg = System.currentTimeMillis()
//创建数据读取，因为模式中的type为record，所以用GenericDatumReader，并指定数据类型为GenericRecord
val datumReader = new GenericDatumReader[GenericRecord]()
//创建文件读取，指定数据类型为GenericRecord，并指定文件路径，传入数据读取
val reader = new DataFileReader[GenericRecord](new File(args(0)),datumReader)
//定义记录变量，类型为GenericRecord
var dns = null:GenericRecord
//定义需要处理部分，类型为AnyRef，因为用从记录变量中取得待处理部分的类型为AnyRef，否则无法承接
var line=null:AnyRef
//定义ArrayBuffer，主要需要其append函数，并且其可以转化为RDD
val a = new ListBuffer[GenericRecord]()
//遍历读取数据，取出需要部分，动态添加到Buffer中
while(reader.hasNext){
dns = reader.next(dns)
a.append(dns)
}
//将ArrayBuffer转化为RDD，可以将其转化为任意集合类型再转化为RDD，也可以直接转化为RDD
val rdd = sc.parallelize(a)
//简单处理
val r1 = rdd.map(line => (line.get(args(1)).toString().split("\\|")(1),1)).reduceByKey((x,y) => (x+y)).map(line => trans(line))
//保存文件
r1.saveAsTextFile(args(2))
println((System.currentTimeMillis() - beg)/1000)
}
}

报错：

...全文

957 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

java8964 2016-11-02

打赏
举报

回复

Why not you use the spark-avro package to read your data? https://github.com/databricks/spark-avro

_明月 2016-09-13

打赏
举报

回复

我自己能力有限，帮不了你，抱歉。

bzip2-devel-1.0.6-13.el7.i686.rpm centos-release-scl-2-3.el7.centos.noarch.rpm centos-release-scl-rh-2-3.el7.centos.noarch.rpm cloog-ppl-0.15.7-1.2.el6.x86_64.rpm cpp-4.4.7-4.el6.x86_64.rpm cpp-4.8.5-44.el7.x86_64.rpm dejavu-fonts-common-2.33-6.el7.noarch.rpm dejavu-sans-fonts-2.33-6.el7.noarch.rpm fontconfig-2.13.0-4.3.el7.x86_64.rpm fontpackages-filesystem-1.44-8.el7.noarch.rpm freetype-2.8-14.el7.src.rpm freetype-2.8-14.el7.x86_64.rpm freetype-devel-2.8-14.el7.x86_64.rpm gcc-4.4.7-4.el6.x86_64.rpm gcc-4.8.5-44.el7.x86_64.rpm gcc-c++-4.4.7-4.el6.x86_64.rpm gcc-c++-4.8.5-44.el7.x86_64.rpm gcc-gfortran-4.8.5-44.el7.x86_64.rpm glibc-2.17-307.el7.1.x86_64.rpm glibc-2.17-317.el7.x86_64.rpm glibc-common-2.17-317.el7.x86_64.rpm glibc-devel-2.12-1.132.el6.x86_64.rpm glibc-devel-2.17-307.el7.1.x8

个人开发轻量级资产管理系统，python3+Django2+adminLTE，大佬请忽略。

这款文件加密器是一款基于 Python 开发的原创工具，旨在为用户提供便捷的文件加密与解密功能。用户可通过自行设置密码，对文件进行加密处理，有效保护文件隐私；解密时，输入正确密码即可恢复文件原貌，操作简单直观。工具特点如下：自主密码管理：加密和解密密码由用户自行输入，确保加密过程的安全性与私密性。源码与可执行文件兼备：提供 Python 源码及打包后的 EXE 文件，满足不同用户需求 —— 懂编程的用户可查看、修改源码，普通用户可直接运行 EXE 文件使用。安全性保障：经检测无毒，可放心使用（注：下载后建议再次通过安全软件扫描确认）。（包含源码和打包 EXE，文件大小 56.0M）此外，开发者还提供了多张屏幕截图（如操作界面展示等），可供用户提前了解工具的使用场景和界面样式，进一步降低使用门槛。

python初学者写的班级管理系统（单个.py文件）

1、压缩文件中包含：中文文档、jar包下载地址、Maven依赖、Gradle依赖、源代码下载地址。 2、使用方法：解压最外层zip，再解压其中的zip包，双击【index.html】文件，即可用浏览器打开、进行查看。 3、特殊说明：（1）本文档为人性化翻译，精心制作，请放心使用；（2）只翻译了该翻译的内容，如：注释、说明、描述、用法讲解等；（3）不该翻译的内容保持原样，如：类名、方法名、包名、类型、关键字、代码等。 4、温馨提示：（1）为了防止解压后路径太长导致浏览器无法打开，推荐在解压时选择“解压到当前文件夹”（放心，自带文件夹，文件不会散落一地）；（2）有时，一套Java组件会有多个jar，所以在下载前，请仔细阅读本篇描述，以确保这就是你需要的文件。 5、本文件关键字： jar中文文档.zip,java,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,中文API文档,手册,开发手册,使用手册,参考手册。

1,271

社区成员

1,170

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章