DF如何转成RDD(labeledpoint)的格式?

zhx2595922 2017-04-05 04:42:50
我现在数据格式是:特征1,特征2。。。id,标签。貌似用mllib的包必须是labelepoint的格式啊求解。
...全文
647 1 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
1 条回复
切换为时间正序
请发表友善的回复…
发表回复
LinkSe7en 2017-04-05
  • 打赏
  • 举报
回复

        df.javaRDD().map(new Function<Row, LabeledPoint>() {
            @Override
            public LabeledPoint call(Row row) throws Exception {
                List<Tuple2<Integer, Double>> features = new ArrayList<>(); // 维度->值
                
                features.add( /* dimension */ ,row.getAs("featureValue")); // 从df获取特征的维度与值
                ...

                return new LabeledPoint(row.getAs("label_column"), Vectors.sparse( /* numberOfDimension */ ,features)); // numberOfDimension 是总共有多少个维度
            }
        })

1,270

社区成员

发帖
与我相关
我的任务
社区描述
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
社区管理员
  • Spark
  • shiter
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧