python – 当列表值与Pyspark数据帧中的列值的子字符串匹配时,填充新列

weixin_38061494 2019-09-12 02:14:28

...全文

78 1 打赏收藏转发到动态举报

写回复

用AI写文章

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

weixin_38066085 2019-09-12

打赏
举报

最好的方法是避免使用udf并使用pyspark.sql.Column.rlike().如果列与参数中包含的正则表达式匹配,则返回True. 在这种情况下,您可以使用“|”.join(list_of_terms)创建一个匹配列表中任何单词的正则表达式模式. (“|”是OR运算符) from pyspark.sql.functions import col, when df.select( "*", when(col("con").rlike("|".join(phone_list)), "phones").alias("cat"), when(col("con").rlike("|".join(pc_list)), "pc").alias("abc") ).show(truncate=False) #+---+---------------------+------+----+ #|id |con |cat |abc | #+---+---------------------+------+----+ #|3 |mac,mac pro |null |pc | #|1 |iphone5,iphone |phones|null| #|1 |android,android phone|phones|null| #|1 |windows,windows pc |null |pc | #|1 |spy camera,spy camera|null |null| #|2 |camera, |null |null| #|3 |cctv,cctv |null |null| #|2 |apple iphone,iphone |phones|null| #|3 |,spy camera |null |null| #+---+---------------------+------+----+ 我们还使用了如果没有指定otherwise()条件,pyspark.sql.functions.when()将返回null的事实.

# Python 47个字符串方法## 课程介绍同学们是否总是要搜资料、查官网后，才知道怎么操作字符串？如果是，来学学本课程吧，本课程以讲解官网文档的方式，讲解 Python 47个字符串方法，涉及替换、删除、连接、查找、...

文章目录1 pyspark.sql.functions.abs(col)2 pyspark.sql.functions.acos(col)3 pyspark.sql.functions.add_months(start, months)4 pyspark.sql.functions.approxCountDistinct(col, rsd=None)5 pyspark.sql.functions.array(*cols)6 pyspark.sql.functions.array_contains(col,.

以下内容基于Spark2.4.8的Python版API文档。由于pyspark只是调用JVM里的对应方法，所以函数对于scala也基本适用。

目录总览快速范例 Scala语言 Java语言 Python语言 R语言程式设计模型基本概念处理事件时间和延迟数据容错语义使用数据集和数据帧的API 创建流数据框架和流数据集流数据帧/数据集的模式推断和分区流式数据帧/数据集的操作基本操作-选择，投影，汇总事件时间窗口操作处理后期数据和加水印加盟运营流静态联接流流连接内部联接，带有可选水印流重复数据删除处理多个水印的政策任意状态作业不支持的操作全球水印的局限性开

新功能 ·[SPARK-3181] - 使用Huber估计器添加鲁棒回归算法 ·[SPARK-4131] - 支持“通过查询将数据写入文件系统” ·[SPARK-12139] - Hive查询的REGEX列规范 ·[SPARK-14516] - 聚类评估器 ·[SPARK-15689] -...