用MLib计算TF-IDF后如何从SparseVector获取idf-idf值对应的词？

Frank_hxc 2015-08-15 01:26:32

最近使用spark的MLIb来计算TF-IDF，按照官网的示例代码：

import org.apache.spark.rdd.RDD
import org.apache.spark.SparkContext
import org.apache.spark.mllib.feature.HashingTF
import org.apache.spark.mllib.linalg.Vector

val sc: SparkContext = ...

// Load documents (one per line).
val documents: RDD[Seq[String]] = sc.textFile("...").map(_.split(" ").toSeq)

val hashingTF = new HashingTF()
val tf: RDD[Vector] = hashingTF.transform(documents)

import org.apache.spark.mllib.feature.IDF

// ... continue from the previous example
tf.cache()
val idf = new IDF().fit(tf)
val tfidf: RDD[Vector] = idf.transform(tf)

最后得到是Vector的RDD，Vector是一个抽象类，在这里一般返回的是其子类SparseVector，包含了三个域：size,indices,values。 values是一个Double型的数组，就是文档中每个词的tf-idf值，可是，当我要取出这个值对应的词时，却发现无从下手，不知道找到对应的词汇。有没有大神知道呢？

...全文

1398 6 打赏收藏转发到动态举报

写回复

6 条回复

切换为时间正序

请发表友善的回复…

发表回复

賣逗逗 2017-12-07

打赏
举报

回复

JavaRDD<Vector> idfvector=idfModel.transform(tagVectorTF); idfvector.foreach(new VoidFunction<Vector>() { /** * */ private static final long serialVersionUID = 1L; @Override public void call(Vector t) throws Exception { SparseVector ss=(SparseVector) t; double[] aa=ss.values(); System.out.println("idf--"+t+"-st--"+aa[2]); } }); java写法强转下就成了

空中的鱼1987 2016-08-11

打赏
举报

回复

hello, http://stackoverflow.com/questions/35205865/what-is-the-difference-between-hashingtf-and-countvectorizer-in-spark HashingTF不可逆的,CountVectorizer我也没找到如何逆,不知道你解决了没有? rube.q

RandyChan1 2016-02-28

打赏
举报

回复

Hi ，楼主解决了吗？能否说一下解决方法呢？

不做懦夫 2015-09-17

打赏
举报

回复

您好，你的问题解决了吗？同问怎么解决对应到词上去啊

程序员鼓励师 2015-08-16

打赏
举报

回复

这里好少人，您可以 @cloud881001问问

基于Spark mlib 的垃圾邮件分类实现文档使用Scala实现

最后，在Spark1.0和spark1.1中，MLib接口相对较为低级，给你不同的函数去调用以实现不同的任务，而不像高级的工作流通常需要一个学校管道（如，将输入

TF-IDF 是文本分类、聚类、信息检索等任务中的一种常见特征提取方法。通过降低常见词汇的权重，TF-IDF 能够更有效地捕捉那些对文档区分度更高的词汇，从而提高模型的效果。IDF 是 TF-IDF 中的重要组成部分，用于调整词频，以减少常见词对文本分析任务的影响。在 Spark 中，可以结合 HashingTF 或 CountVectorizer 来计算 TF-IDF 特征，进而用于各种机器学习任务。

前言 TF-IDF是在文本挖掘和信息检索领域最常用（也是最简单）的加权统计方法，笔者曾经在大学选修过NLP和信息检索方面的课程，其中都讲到了TF-IDF，并且在工作中使用得很多，比如分析用户发帖、商品评论等。本文就来非常粗浅地介绍一下。 TF-IDF TF-IDF实际上是两个统计量的乘积，即词频（term frequency, TF）和逆向文档频率（inverse document...

1、定义在信息检索中，tf-idf（词频-逆文档频率）是一种统计方法，用以评估一个单词在一个文档集合或语料库中的重要程度。经常被用作信息检索、文本挖掘以及用户模型的权重因素。tf-idf的值会随着单词在文档中出现的次数的增加而增大，也会随着单词在语料库中出现的次数的增多而减小。tf-idf是如今最流行的词频加权方案之一。 tf-idf的各种改进版本经常被搜索引擎用作在给定用户查询时对文档的相...

1,270

社区成员

1,170

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章