社区
其它技术问题
帖子详情
抽取关键词
mengxiaodan
2015-03-23 11:06:58
请问有大神知道怎么抽取一篇文章的关键词吗?看了论文知道了几种方法,大师真正做起来就不知道怎么弄了
...全文
116
1
打赏
收藏
抽取关键词
请问有大神知道怎么抽取一篇文章的关键词吗?看了论文知道了几种方法,大师真正做起来就不知道怎么弄了
复制链接
扫一扫
分享
举报
写回复
配置赞助广告
1 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
Heart09
2015-03-23
打赏
举报
回复
大致原理: 名词、动词、介词等等 每类词都有一定的权重。 根据在文章中出现的次数,再乘以权重,得到该词的的一个值。 最终算出值最大的前几个作为该篇文章的关键词。 当然还要有一个词库。 ictclas有c源码的。可以查查。
相关推荐
关键词
提取
本文主要研究考虑文档主题结构的
关键词
抽取
方法。本文针对文档主题结构在
关键词
抽取
中的重要作用,从四个方面提出考虑文档主题结构的
关键词
抽取
方法:基于文档内部信息构建主题的
关键词
抽取
, 基于隐含主题模型构建主题的
关键词
抽取
, 综合利用隐含主题模型和文档结构的
关键词
抽取
, 以及基于文档与
关键词
主题一致性的
关键词
抽取
。
关键词
抽取
一般分为两步:选取候选
关键词
和从候选集合中推荐
关键词
。
几种常见的提取
关键词
的算法(4)
有监督的文本
关键词
提取算法需要高昂的人工成本,因此现有的文本
关键词
提取主要采用适用性较强的无监督
关键词
抽取
。其文本
关键词
抽取
流程如下: 图 1 无监督文本
关键词
抽取
流程图 无监督
关键词
抽取
算法可以分为三大类,基于统计特征的
关键词
抽取
、基于词图模型的
关键词
抽取
和基于主题模型的
关键词
抽取
。 NO.1、文本
关键词
提取算法 基于统计特征的
关键词
提取算法 基于于统计特征的
关键词
抽取
算法的思想是利用文档中词语的统计信息
抽取
文档的
关键词
。通常将文本经过预处理得到候选词语的集合,然后采用特征值量化的方式从候选集合中得到.
TF-IDF和TextRank算法
抽取
关键词
源码分析
TF-IDF和TextRank算法
抽取
关键词
源码分析 jieba分词的
关键词
抽取
功能,是在jieba/analyse目录下实现的。 其中, __ init__.py主要用于封装jieba分词的
关键词
抽取
接口; tfidf.py实现了基于TF-IDF算法
抽取
关键词
; textrank.py实现了基于TextRank算法
抽取
关键词
。 1.TF-IDF算法 基于TF-IDF算法
抽取
关键词
的主调函数...
关键词
抽取
方法
1、
关键词
提取 为了方便用户快速了解文章的中心主题,会
抽取
文章的一些中心词来表达文章的中心思想。
关键词
抽取
就是通过一定的方法
抽取
出能表达文章的中心主题的一系列方法。 2、
关键词
抽取
方法分类 2.1、有监督无监督
抽取
方法 无监督
关键词
提取方法主要有三类:基于统计特征的
关键词
提取(TF,TF-IDF);基于词图模型的
关键词
提取(PageRank,TextRank);基于主题模型的
关键词
提取(LDA) 基于统计特征的
关键词
提取算法的思想是利用文档中词语的统计信息
抽取
文档的
关键词
; 基于词图模型的
关键词
结巴分词5--
关键词
抽取
作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明。谢谢! 从算法的角度来看,
关键词
抽取
算法主要有两类: 有监督学习算法,将
关键词
抽取
过程视为二分类问题,先
抽取
出候选词,然后对于每个候选词划定标签,要么是
关键词
,要么不是
关键词
,然后训练
关键词
抽取
分类器。当新来一篇文档时,
抽取
出所有的候选词,然后利用训练好的
关键词
抽取
分类...
发帖
其它技术问题
其它技术问题
C/C++ 其它技术问题
复制链接
扫一扫
3880
社区成员
9064
社区内容
C/C++ 其它技术问题
社区管理员
加入社区
获取链接或二维码
帖子事件
创建了帖子
2015-03-23 11:06
社区公告
暂无公告