spark sql csv文件中字段值为\N的字段如何处理？？

hdyrz 2018-12-21 03:45:34

csv文件如下：

IP,Name,Port,Coding,Type,TotalInitCount

"10.44.161.194","297504M5616-109","0_1_0",\N,"interleavedOnly",\N

……

其中TotalInitCount字段部分数据为\N

数据文件已经被加载到

val df = spark.read.option("header", true).format("csv").csv("/tmp/data.csv")

df.createOrReplaceTempView("testtbl")

现在想用spark sql语句过查询出TotalInitCount为\N的字段

scala> spark.sql("select *  from testtbl where TotalInitCount='\\N'").show()

//查询结果为空

在不改变原有表结构的前提下，这个字段应该怎么处理，好像用简单的特殊字符转义无法正常处理

...全文

302 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

hdyrz 2018-12-21

打赏
举报

回复 1

最后采用了正则匹配的方式... rlike

Spark 读取 csv 时,当 csv 的字段值中有 JSON 串需求:统计 csv 中有 json 串的 key 个数 csv 数据: 代码: package com.rm1024.scala import com.alibaba.fastjson.JSON import org.apache.spark.sql.SparkSession import scala.collectio...

spark解析csv文件我发现自己经常使用大型CSV文件，并且意识到我现有的工具集不能让我快速浏览它们，我以为我会花一些时间在Spark上看看是否有帮助。我正在使用芝加哥市发布的犯罪数据集：它的大小为1GB，其中包含400万种犯罪的详细信息： $ ls -alh ~/Downloads/Crimes_-_2001_to_present.csv -rw-r--r--@ 1 markn...

1. spark 读取CSV文件；可以直接使用DataBricks的第三方包来读取CSV文件，下载第三方包后放入指定路径 1.1 定义数据格式导入数据之前我们需要按照具体的数据格式定义数据格式采用StructType定义字段格式，与数据集中的各个字段一一对应。 // StructField 中的的三个参数分别为字段名称、字段数据类型和是否不允许为空。 val fie

people.json文件内容 {"name":"Michael", "age":29} {"name":"Andy", "age":30} {"name":"Justin", "age":19} 测试代码 import org.apache.spark.sql.*; import org.apache.spark.sql.types.DataTypes; import org.apa...

Bug记录 (20201103) Q:Spark写入CSV文件，Null值却显示双引号 A: 添加优化参数 “emptyValue”

1,271

社区成员

1,170

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章