社区
语言基础/算法/系统设计
帖子详情
提取主题词
VeryOldMan
2005-02-27 11:33:58
给定一个文件的标题,需要根据该标题提取出主题词。比如文件标题为:
《关于建设银行上海分行50亿呆坏帐剥离请示的回复》——中国人民银行总行。
提取的主题词应至少含有一下文字:
上海分行 坏帐处理 回复
因为涉及的行业非常多,甚至包含单位名称,不太可能预先设置一个主题词库,然后逐一搜索提取,况且该方也效率较低。
大家多提提方案吧,先谢啦!
...全文
501
19
打赏
收藏
提取主题词
给定一个文件的标题,需要根据该标题提取出主题词。比如文件标题为: 《关于建设银行上海分行50亿呆坏帐剥离请示的回复》——中国人民银行总行。 提取的主题词应至少含有一下文字: 上海分行 坏帐处理 回复 因为涉及的行业非常多,甚至包含单位名称,不太可能预先设置一个主题词库,然后逐一搜索提取,况且该方也效率较低。 大家多提提方案吧,先谢啦!
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
19 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
VeryOldMan
2005-03-02
打赏
举报
回复
caiso(十年磨一剑)说得对,金山的汉译英应该是最佳参照者!
多多向民族软件的旗帜学习、靠拢才是正道。
caiso
2005-03-02
打赏
举报
回复
这里有没有金山公司的高手呀,
caiso
2005-03-02
打赏
举报
回复
这应该是智能的了,不然不通呀
lyguo
2005-03-02
打赏
举报
回复
语法分析吧,如:关于后的,的后的以及数字后的词
gavin8895
2005-03-02
打赏
举报
回复
真得很有难度
pclion
2005-03-02
打赏
举报
回复
微软的中文分词技术也只是前几年才在中国微软研究院搞出来的,搞了好几年。自己决不可能搞
neo40
2005-03-01
打赏
举报
回复
大部分的提取引擎都需要汉语的词法分析。就像“摩托罗拉”和“摩托”是两个词一样,程序必须对词组的下一个字进行分析,以我的能力来看这个引擎即使不用词库也得预先知道什么是动词什么是副词。因为名词特别多,所以可以不考虑。
引擎要对副词和动词的语法进行分析,而且要把动作的发起者和目标进行分离。副词可以修饰形容词,形容词和名词一样是很多的,无法例举,主要判断助词就可以了,如:“的”后面的词大都为名词,前面的大都为形容词。然后把特殊的用法写到引擎当中,就可以把大部分的词给分离出来。
不过要想准确的分析中文的语法结构还是很困难的,呵呵。
程序小童的爸爸
2005-03-01
打赏
举报
回复
真得很有难度
晨池
2005-03-01
打赏
举报
回复
要是做人工智能的分析,那样不是和图灵机差不多的难度吗?就用一个事先存储了词汇数据库,再查找。稍加点分析也可以吧——我不懂,瞎说两句。
VeryOldMan
2005-02-28
打赏
举报
回复
我用过珠海泰坦公司的文档管理系统使用版,记得那里边就有一个简单的主题词提取功能。
具体如何实现不得而知,但估计是我前面提到的先预制一定的主题词库,而后进行搜索。因为该软件才买6~7千元每套,不太可能是化大价钱研发出来的人工智能系统。
aiirii
2005-02-28
打赏
举报
回复
应很多朋友的要求,现在提供分词的Web Service 服务
Web服务地址:
http://www.domolo.com/chinesesegment/sentencesegment.asmx
aiirii
2005-02-28
打赏
举报
回复
語法分析的, 個人做, 可能難度很大, 找找現成的庫, 可能好點
todouwang
2005-02-28
打赏
举报
回复
期待
zzlazio
2005-02-27
打赏
举报
回复
这都行啊??
hsmserver
2005-02-27
打赏
举报
回复
虽然语文学的特别好
但还真不知道通过程序来实现
哪位高手弄出来
俺也学学
hsmserver
2005-02-27
打赏
举报
回复
虽然语文学的特别好
但还真不知道通过程序来实现
哪位高手弄出来
俺也学学
siemems
2005-02-27
打赏
举报
回复
和具体的语法相关的吧
比如 "的" 后面的应该是名词,算一个
"关于" 后面的算一个,设置一个常用的谓词词库来剥离
只是初步的想法,关注ing
redmoon_line
2005-02-27
打赏
举报
回复
3楼
kuki84
2005-02-27
打赏
举报
回复
我看到这个帖子,强烈震撼!并且实在想不同怎么让机器来实现它.
gensim实现LDA(Latent Dirichlet Allocation)算法
提取
主题词
(topic)
使用python::gensim包实现LDA主题模型,从文本中
提取
主题词
(topic),使用了相关的nltk包来进行预处理
机器学习入门-
提取
文章的
主题词
1.jieba.analyse.extract_tags(
提取
主题词
)
1.jieba.analyse.extract_tags(text) text必须是一连串的字符串才可以 ...第四步:选取一段文本分词列表,串接成字符串,使用jieba.analyse.extract_tags
提取
主题词
import pandas as pd import nu...
提取
文章
主题词
https://blog.csdn.net/weixin_34032827/article/details/93458214
主题词
获取
最近工作中需要
提取
文本数据的
主题词
,所以就整理了一下相关的方法 tf-idf 首先是wiki的定义 tf-idf(英语:term frequency–inverse document frequency)是一种用于信息检索与文本挖掘的常用加权技术。tf-idf是一种...
文本主题
提取
主题关键词:能够体现文本内容主题的关键词 一、TF-IDF模型 词频(TF)= 某个词在文本中出现的次数/该文本中总词数 或者一种变种的计算方法 词频(TF)= 某个词在文本中出现的次数/该文本中出现次数最多的词其...
语言基础/算法/系统设计
16,749
社区成员
33,245
社区内容
发帖
与我相关
我的任务
语言基础/算法/系统设计
Delphi 语言基础/算法/系统设计
复制链接
扫一扫
分享
社区描述
Delphi 语言基础/算法/系统设计
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章