Python-利用Python实现中文文本关键词抽取分别采用TFIDFTextRankWord2Vec词聚类三种方法下载

weixin_39821260 2019-12-28 03:30:13
利用Python实现中文文本关键词抽取,分别采用TF-IDF、TextRank、Word2Vec词聚类三种方法。
相关下载链接://download.csdn.net/download/weixin_39840650/11513225?utm_source=bbsseo
...全文
720 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
【资源说明】 1.项目代码均经过功能验证ok,确保稳定可靠运行。欢迎下载食用体验! 2.主要针对各个计算机相关专业,包括计算机科学、信息安全、数据科学与大数据技术、人工智能、通信、物联网等领域的在校学生、专业教师、企业员工。 3.项目具有丰富的拓展空间,不仅可作为入门进阶,也可直接作为毕设、课程设计、大作业、初期项目立项演示等用途。 4.当然也鼓励大家基于此进行二次开发。在使用过程中,如有问题或建议,请及时沟通。 5.期待你能在项目中找到乐趣和灵感,也欢迎你的分享和反馈! 【项目介绍】 基于Python的中文本关键抽取源码(分别使用TF-IDF、TextRankWord2Vec聚类三种方法)+数据集和说明.zip 一篇文档的关键等同于最能表达文档主旨的N个语,即对于文档来说最重要的,因此,可以将文本关键抽取问题转化为语重要性排序问题,选取排名前TopN个语作为文本关键。目前,主流的文本关键抽取方法主要有以下两大类: (1)基于统计的关键提取方法方法根据统计信息,如频,来计算得到文档中语的权重,按权重值排序提取关键。TF-IDF和TextRank均属于此类方法,其中TF-IDF方法通过计算单文本频(Term Frequency, TF)和逆文本频率指数(Inverse Document Frequency, IDF)得到语权重;TextRank方法基于PageRank的思想,通过语共现窗口构建共现网络,计算语得分。此类方法简单易行,适用性较强,然而未考虑序问题。 (2)基于机器学习的关键提取方法方法包括了SVM、朴素贝叶斯等有监督学习方法,以及K-means、层次聚类等无监督学习方法。在此类方法中,模型的好坏取决于特征提取,而深度学习正是特征提取的一种有效方式。由Google推出的Word2Vec向量模型,是自然语言领域中具有代表性的学习工具。它在训练语言模型的过程中将典映射到一个更抽象的向量空间中,每一个语通过高维向量表示,该向量空间中两点之间的距离就对应两个语的相似程度。 基于以上研究,本文分别采用**TF-IDF方法TextRank方法Word2Vec聚类方法**,利用Python语言进行开发,实现文本关键抽取。 总结了三种常用的抽取文本关键方法:TF-IDF、TextRankWord2Vec向量聚类,并做了原理、流程以及代码的详细描述。因本文使用的测试语料较为特殊且数量较少,未做相应的结果分析,根据观察可以发现,得到的十个文本关键都包含有文本的主旨信息,其中TF-IDF和TextRank方法的结果较好,Word2Vec向量聚类方法的效果不佳,这与文献[8]中的结论是一致的。文献[8]中提到,对单文档直接应用Word2Vec向量聚类方法时,选择聚类中心作为文本关键本身就是不准确的,因此与其距离最近的N个语也不一定是关键,因此用这种方法得到的结果效果不佳;而TextRank方法是基于图模型的排序算法,在单文档关键抽取方面有较为稳定的效果,因此较多的论文是在TextRank方法上进行改进而提升关键抽取的准确率。 另外,本文的实验目的主要在于讲解三种方法的思路和流程,实验过程中的某些细节仍然可以改进。例如Word2Vec模型训练的原始语料可加入相应的专业性文本语料;标题文本往往包含文档的重要信息,可对标题文本包含的语给予一定的初始权重;测试数据集可采集多个分类的长文本,与之对应的聚类算法KMeans()函数中的n_clusters参数就应当设置成分类的个数;根据文档的分结果,去除掉所有文档中都包含某一出现频次超过指定阈值的语;等等。各位可根据自己的实际情况或者参考论文资料进行参数的优化以及细节的调整

12,796

社区成员

发帖
与我相关
我的任务
社区描述
CSDN 下载资源悬赏专区
其他 技术论坛(原bbs)
社区管理员
  • 下载资源悬赏专区社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧