请问各位大佬：如何为df或者rdd增加一个新的自增列

Lirsoon 2017-11-01 02:20:11

如题假设目前有一个dataframe或者是转化的rdd
a,b,c
d,e,f
g,h,i
现在我想增加一个自增列
1,a,b,c
2,d,e,f
3,g,h,i
dataframe或者rdd形式的都可以
请问大佬们怎么实现？

...全文

899 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

ollydebug 2017-12-18

打赏
举报

回复

我也需要解决类似的问题，请问楼主解决没有

LinkSe7en 2017-11-01

打赏
举报

回复

另外最省事但容易爆内存的是repartition为1个分区。只有一个分区的话递增就是全局的。数据量大就会OOM了

LinkSe7en 2017-11-01

打赏
举报

回复

有两种方法。一个是全局发号器（例如ZooKeeper有Sequence型节点，或者自己弄个发号器服务不断产生递增值作为发号），但是效率会比较低。二个是mapPartition，获得当前分区的分区号。然后分区号x一个系数+当前分区本地递增值。系数是分区最大的数据条数+一定冗余。最省事是前者，最快但容易出问题是后者。

本课重点讲解Spark 的灵魂RDD 和DataSet。讲解RDD 的定义、五大特性剖析及DataSet的定义和内部机制...通过一个WordCount 实例，解析Spark RDD内部机制；基于DataSet的代码，深入分析DataSet一步步转化成为RDD 的过程。

AttributeError: ‘RDD‘ object has no attribute ‘toDF‘

前言本篇文章进对 RDD 和 DataSet 进行对比和总结。当然因为随笔，所以想到哪写到哪... 哎~，最近变懒了，都不想动脑子了！！！ RDD 和 DataSet 有什么关系？随着 Spark 版本的不断迭代，已经在慢慢弱化 RDD的概念，但是其实作为一个Spark 开发的程序员， RDD却是你绝对绕不过去的一个知识点，而 DataSet 某种意义上来说其实是 RD...

大家好，我是不温卜火，是一名计算机学院大数据专业大二的学生，昵称来源于成语—不温不火，本意是希望自己性情温和。作为一名互联网行业的小白，博主写博客一方面是为了记录自己的学习过程，另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限，博客中难免会有一些错误出现，有纰漏之处恳请各位大佬不吝赐教！暂时只有csdn这一个平台，博客主页：https://buwenbuhuo.blog.csdn.net/ 本片博文为大家带来的是RDD、DataFrame、DataSet.

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Mar

1,261

社区成员

1,169

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章