1.6Spark读取csv解析超多字段文件转DF问题求教

木水山岚 2017-08-24 08:32:25
现在有个CSV文件,1000多个字段,SPARK版本比较低只有1.6
要做数据分析,所以数字变量要归一化,字符变量暂时用hash值也可以,所以有 doubleType 和 很少一些 StringType
1000多个schema 我列成 字段名,字段类型拉到spark里生成了 schema = structType(Array[structField])
然后老版本API里获取数据方法
rdd= sc.textfile("sample.txt").split(",").map(attribute =>
Row(attribute(0).toDouble,attribute(1).toDouble,attribute(2).toDouble,attribute(3).toDouble,attribute(4).toDouble...........)
//这里要根据数组元素下标 选择attribute(i)是否转换成 double 类型或者 string类型
)
DF = spark.createDataFrame(rdd, schema)

然后我发现 Row 这个 API非常呆,只有这个构造函数以及 接受seq两种
我想把 attribute(i) 等j经过处理放在一个数组里 Row 貌似都接受不了

有什么正常方法组合成 DataFrame 吗,组合了DF我要放在SQL里算每个变量的最大值最小值最后归一化(mllib 里的归一化还得把元素 Vector.dense感觉更麻烦了)
跪求教

http://bbs.ngacn.cc/read.php?&tid=12301156
...全文
496 1 打赏 收藏 转发到动态 举报
写回复
用AI写文章
1 条回复
切换为时间正序
请发表友善的回复…
发表回复
Luis_yao 2017-08-30
  • 打赏
  • 举报
回复
试试这个: https://github.com/databricks/spark-csv

1,258

社区成员

发帖
与我相关
我的任务
社区描述
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
社区管理员
  • Spark
  • shiter
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧