使用pyspark 进行mlllib 中lda 算法训练时，跑了500多个stage 都没结束。

喵十八 2017-12-15 11:44:06

背景：
将基于spark 2.2 ml库，使用python 开发的LDA 程序移植到spark 1.6 mllib 运行（恩，因为spark 1.6 ml库的python api 不支持lda）

具体爬坑记录见
http://www.jianshu.com/p/31ddfacc67e2

遇到问题：
使用hvie 读取的df，转为rdd之后，进行lda 的train，跑了30多分钟，500多个stage 都么结束。（测试数据一共就10条）
但是，对这部分代码先collect之后，再parallelize 之后，就可以了。
原始代码如下：



    features = data.rdd.map(lambda x: (x[0], x[1:])).groupByKey().mapValues(list).map(

        lambda row: build_sparse_vector(row, tag_index_map_in)).map(lambda x: [x[0], x[1]]).cache()

    model = LDA.train(features, k=10, seed=long(time.time()), optimizer="em")

修改之后如下



    features = data.rdd.map(lambda x: (x[0], x[1:])).groupByKey().mapValues(list).map(

        lambda row: build_sparse_vector(row, tag_index_map_in)).map(lambda x: [x[0], x[1]]).cache()

    cc = features.collect()

    rdd = sc.parallelize(cc)

    model = LDA.train(rdd, k=10, seed=long(time.time()), optimizer="em")

...全文

418 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

线性模型分类和回归求解，多分类问题，LDA降维，对数几率回归

LDA class pyspark.ml.clustering.LDA(featuresCol=‘features’, maxIter=20, seed=None, checkpointInterval=10, k=10, optimizer=‘online’, learningOffset=1024.0, learningDecay=0.51, subsamplingRate=0.05, optimizeDocConcentration=True, docConcentration=None, topic

# encoding=utf-8 import os import pyspark from pyspark.sql import SparkSession import pyspark.sql.types as typ import pyspark.ml.feature as ft import pyspark.ml.clustering as clus from pyspark.ml imp...

文章目录一、LDA算法二、sklearn实现LDA三、结果如图四、总结五、参考一、LDA算法 1.线性判别分析（Linear Discriminant Analysis, LDA）方法常被用于数据预处理中的降维（dimensionality reduction）步骤。LDA在保证良好的类别区分度的前提下，将数据集向更低维空间投影，以求在避免过拟合（“维数灾难”）的同时，减小计算消耗。 2.计算步骤计算数据集中不同类别数据的 d 维均值向量。计算散布矩阵，包括类间、类内散布矩阵。计算散布矩阵的特征向

1. LDA算法简介 LDA（线性判别式分析 Linear Discriminant Analysis）属于机器学习中的监督学习算法，常用来做特征提取、数据降维和任务分类。在人脸识别、人脸检测等领域发挥重要作用。LDA算法与PCA算法都是常用的降维技术。二者的区别在于：LDA是一种监督学习的降维技术，也就是说它的每个样本是有类别输出的，而之前所学习的PCA算法是不考虑样本类别输出的无监督降维技术。 LDA算法的目标是使降维后的数据类内方差最小，类间方差最大（即使数据在低维度上进行投影，投影后希望每一种类

1,258

社区成员

1,168

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章