DF如何转成RDD(labeledpoint)的格式？

zhx2595922 2017-04-05 04:42:50

我现在数据格式是：特征1，特征2。。。id，标签。貌似用mllib的包必须是labelepoint的格式啊求解。

...全文

649 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

LinkSe7en 2017-04-05

打赏
举报

回复


        df.javaRDD().map(new Function<Row, LabeledPoint>() {
            @Override
            public LabeledPoint call(Row row) throws Exception {
                List<Tuple2<Integer, Double>> features = new ArrayList<>(); // 维度->值
                
                features.add( /* dimension */ ,row.getAs("featureValue")); // 从df获取特征的维度与值
                ...

                return new LabeledPoint(row.getAs("label_column"), Vectors.sparse( /* numberOfDimension */ ,features)); // numberOfDimension 是总共有多少个维度
            }
        })

If I have a RDD with about 500 columns and 200 million rows, and RDD.columns.indexOf("target", 0) shows Int = 77 which tells me my targeted dependent variable is at column number 77. But I don't have ...

使用Pyspark将pandas.Dataframe转为LabeledPoint 本人刚刚开始学习pyspark，由于之前只在单机中进行过数据处理，习惯利用python中的pandas进行数据预处理，但是在pyspark中，模型训练时只支持LabeledPoint数据，所以使用pandas的Dataframe处理完数据以后需要将其转化为LabeledPoint，在此过程中查询了许多博文，看了sta...

数据集net.gz为网络流量数据，数据集每条记录展现每个连接的信息，最后一列为攻击的标签 (1) 请统计，出现的攻击类型对应的攻击次数 (2) 为了输入给算法，请将RDD 类型转换为RDD[Labelpoint] （ Labelpoint为Spark Vector） (1)不使用labelpoint： package homework.chapter2 import org.apac...

Spark ML里的核心API已经换成了DataFrame，为了使读取到的值成为DataFrame类型，我们可以直接使用读取CSV的方式来读取文本文件，可问题来了，当文本文件中每一行的各个数据被不定数目的空格所隔开时，我们无法将这些不定数目的空格当作CSV文件的分隔符，所以只能先将数据读取为rdd，然后用map方法构建元组，再用toDF方法转为DataFrame，但是如果列数很多的话，构建元组会很麻烦。本文将介绍spark读取多列txt文件后动态转成DataFrame的方法。

题目: 将数据的某个特征作为label, 其他特征(或其他某几个特征)作为Feature, 转为LabelPoint参考: http://www.it1352.com/220642.html 首先构造数据 import scala.util.Random.{setSeed, nextDouble} setSeed(1)case class Record(foo: Double, target: D

1,271

社区成员

1,170

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章