请教“spark如何截取csv文件的前几列并保存”

diudiu2025 2016-12-15 10:14:04

我的代码是这样的
scala> val r1 = sc.textFile("D:/item.csv").map(x => x.split(",")).map(x => List(
x(0),x(1),x(2),x(3),x(4),x(5)).toArray).mapPartitions{x => val stringWriter = ne
w StringWriter(); val csvWriter = new CSVWriter(stringWriter); csvWriter.writeAl
l(x.toList); Iterator(stringWriter.toString)}.saveAsTextFile("D:/result/r1")

...全文

1615 5 打赏收藏转发到动态举报

写回复

5 条回复

切换为时间正序

请发表友善的回复…

发表回复

sandra_csdn 2017-09-28

打赏
举报

回复

我试了试，这样只能提取连续的前几列，能不能提取不连续的列呢？

a95473004 2016-12-28

打赏
举报

回复

val sspbidSchema = StructType(Array( StructField("req_id", StringType, true), StructField("creative_id", StringType, true), StructField("group_id", StringType, true), StructField("user_ip", StringType, true))) val df = spark.read.schema(sspbidSchema).csv("ddd").select("req_id").write.csv("ddd") 我用的是2.0

LinkSe7en 2016-12-23

打赏
举报

回复

你应该用SparkSQL的SQLContext（2.0+为SparkSession）读取csv，然后用SQL select你要的列，然后write.csv就可以了

diudiu2025 2016-12-20

打赏
举报

回复

自己再顶一下

diudiu2025 2016-12-15

打赏
举报

回复

补充： 1，这是Windows上的 2，请问可以直接保存成一个CSV文件吗？

前言：之所以写这个，是最近在用Scala语言写spark 通过RDD读取csv文件后，如何将一列成多列，最后写入Mysql中，在晚上找了很多一列转多列的博文，发现没一个适用我的，因为也是刚学spark，比较菜，这个问题前前后后花了我两天的时间才搞定。直接贴代码吧 //读取csv文件并最终将RDD转成DataFrame val rdd = spark.sparkContext.textFile("aaa.csv") val logDF = rdd.map(_.split(",")).map(

1. spark 读取CSV文件；可以直接使用DataBricks的第三方包来读取CSV文件，下载第三方包后放入指定路径 1.1 定义数据格式导入数据之前我们需要按照具体的数据格式定义数据格式采用StructType定义字段格式，与数据集中的各个字段一一对应。 // StructField 中的的三个参数分别为字段名称、字段数据类型和是否不允许为空。 val fie

Spark处理csv文件: csv数据如下: 首先是如何去除第一行: 将"header"设置为"true",意思是把csv文件的第一行不作为表头将"header"设置为"fasle"意思是把csv文件的第一行作为表头第二步将文件转为DataFrame: 创建数组接收,这样处理的好处是:需要哪几列数据根据数组下标提取即可之后toDF设置每列的表头,结果如下: ...

spark读csv文件乱码问题

spark读取csv参数

1,261

社区成员

1,169

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章