社区
Spark
帖子详情
请问各位大佬:如何为df或者rdd增加一个新的自增列
Lirsoon
2017-11-01 02:20:11
如题 假设目前有一个dataframe或者是转化的rdd
a,b,c
d,e,f
g,h,i
现在我想增加一个自增列
1,a,b,c
2,d,e,f
3,g,h,i
dataframe或者rdd形式的都可以
请问大佬们怎么实现?
...全文
888
3
打赏
收藏
请问各位大佬:如何为df或者rdd增加一个新的自增列
如题 假设目前有一个dataframe或者是转化的rdd a,b,c d,e,f g,h,i 现在我想增加一个自增列 1,a,b,c 2,d,e,f 3,g,h,i dataframe或者rdd形式的都可以 请问大佬们怎么实现?
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
3 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
ollydebug
2017-12-18
打赏
举报
回复
我也需要解决类似的问题,请问楼主解决没有
LinkSe7en
2017-11-01
打赏
举报
回复
另外最省事但容易爆内存的是repartition为1个分区。只有一个分区的话递增就是全局的。数据量大就会OOM了
LinkSe7en
2017-11-01
打赏
举报
回复
有两种方法。 一个是全局发号器(例如ZooKeeper有Sequence型节点,或者自己弄个发号器服务不断产生递增值作为发号),但是效率会比较低。 二个是mapPartition,获得当前分区的分区号。然后分区号x一个系数+当前分区本地递增值。系数是分区最大的数据条数+一定冗余。 最省事是前者,最快但容易出问题是后者。
AttributeError: ‘
RDD
‘ object has no attribute ‘to
DF
‘
AttributeError: ‘
RDD
‘ object has no attribute ‘to
DF
Spark随笔 ——
RDD
与 DataSet
前言 本篇文章进对
RDD
和 DataSet 进行对比和总结。 当然因为随笔,所以想到哪写到哪... 哎~,最近变懒了,都不想动脑子了!...
RDD
却是你绝对绕不过去的
一个
知识点, 而 DataSet 某种意义上来说其实是 RD...
Spark SQL 快速入门系
列
(4) |
RDD
、DataFrame、DataSet三者的共性和区别
但由于水平有限,博客中难免会有一些错误出现,有纰漏之处恳请各位
大佬
不吝赐教!暂时只有csdn这
一个
平台,博客主页:https://buwenbuhuo.blog.csdn.net/ 本片博文为大家带来的是
RDD
、DataFrame、DataSet.
spark初识-使用
rdd
与sparksql 分词
有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成
一个
适合你的
列
表创建
一个
表格设定内容居中、居左、居右SmartyPants创建
一个
自定义
列
表如何创建
一个
注脚注释也是必不可少的KaTeX数学...
pyspark入门---通过协同过滤算法推荐电影
数据集是Movielens官网的ml-100k数据,下载地址 ...用jupyter实现比较好 from pyspark.sql import SparkSession user_
df
=spark.read.text('data/u.user') user_
df
.show(10) ...user_
rdd
=user_
df
.
rdd
.map(lambda
Spark
1,258
社区成员
1,168
社区内容
发帖
与我相关
我的任务
Spark
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
复制链接
扫一扫
分享
社区描述
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章