提取主题词

VeryOldMan 2005-02-27 11:33:58
给定一个文件的标题,需要根据该标题提取出主题词。比如文件标题为:
《关于建设银行上海分行50亿呆坏帐剥离请示的回复》——中国人民银行总行。
提取的主题词应至少含有一下文字:
上海分行 坏帐处理 回复

因为涉及的行业非常多,甚至包含单位名称,不太可能预先设置一个主题词库,然后逐一搜索提取,况且该方也效率较低。

大家多提提方案吧,先谢啦!
...全文
501 19 打赏 收藏 转发到动态 举报
写回复
用AI写文章
19 条回复
切换为时间正序
请发表友善的回复…
发表回复
VeryOldMan 2005-03-02
  • 打赏
  • 举报
回复
caiso(十年磨一剑)说得对,金山的汉译英应该是最佳参照者!

多多向民族软件的旗帜学习、靠拢才是正道。
caiso 2005-03-02
  • 打赏
  • 举报
回复
这里有没有金山公司的高手呀,
caiso 2005-03-02
  • 打赏
  • 举报
回复
这应该是智能的了,不然不通呀
lyguo 2005-03-02
  • 打赏
  • 举报
回复
语法分析吧,如:关于后的,的后的以及数字后的词
gavin8895 2005-03-02
  • 打赏
  • 举报
回复
真得很有难度
pclion 2005-03-02
  • 打赏
  • 举报
回复
微软的中文分词技术也只是前几年才在中国微软研究院搞出来的,搞了好几年。自己决不可能搞
neo40 2005-03-01
  • 打赏
  • 举报
回复
大部分的提取引擎都需要汉语的词法分析。就像“摩托罗拉”和“摩托”是两个词一样,程序必须对词组的下一个字进行分析,以我的能力来看这个引擎即使不用词库也得预先知道什么是动词什么是副词。因为名词特别多,所以可以不考虑。

引擎要对副词和动词的语法进行分析,而且要把动作的发起者和目标进行分离。副词可以修饰形容词,形容词和名词一样是很多的,无法例举,主要判断助词就可以了,如:“的”后面的词大都为名词,前面的大都为形容词。然后把特殊的用法写到引擎当中,就可以把大部分的词给分离出来。

不过要想准确的分析中文的语法结构还是很困难的,呵呵。
  • 打赏
  • 举报
回复
真得很有难度
晨池 2005-03-01
  • 打赏
  • 举报
回复
要是做人工智能的分析,那样不是和图灵机差不多的难度吗?就用一个事先存储了词汇数据库,再查找。稍加点分析也可以吧——我不懂,瞎说两句。
VeryOldMan 2005-02-28
  • 打赏
  • 举报
回复
我用过珠海泰坦公司的文档管理系统使用版,记得那里边就有一个简单的主题词提取功能。

具体如何实现不得而知,但估计是我前面提到的先预制一定的主题词库,而后进行搜索。因为该软件才买6~7千元每套,不太可能是化大价钱研发出来的人工智能系统。
aiirii 2005-02-28
  • 打赏
  • 举报
回复
应很多朋友的要求,现在提供分词的Web Service 服务
Web服务地址:
http://www.domolo.com/chinesesegment/sentencesegment.asmx
aiirii 2005-02-28
  • 打赏
  • 举报
回复
語法分析的, 個人做, 可能難度很大, 找找現成的庫, 可能好點
todouwang 2005-02-28
  • 打赏
  • 举报
回复
期待
zzlazio 2005-02-27
  • 打赏
  • 举报
回复
这都行啊??
hsmserver 2005-02-27
  • 打赏
  • 举报
回复
虽然语文学的特别好
但还真不知道通过程序来实现
哪位高手弄出来
俺也学学
hsmserver 2005-02-27
  • 打赏
  • 举报
回复
虽然语文学的特别好
但还真不知道通过程序来实现
哪位高手弄出来
俺也学学
siemems 2005-02-27
  • 打赏
  • 举报
回复
和具体的语法相关的吧
比如 "的" 后面的应该是名词,算一个
"关于" 后面的算一个,设置一个常用的谓词词库来剥离
只是初步的想法,关注ing
redmoon_line 2005-02-27
  • 打赏
  • 举报
回复
3楼
kuki84 2005-02-27
  • 打赏
  • 举报
回复
我看到这个帖子,强烈震撼!并且实在想不同怎么让机器来实现它.

16,749

社区成员

发帖
与我相关
我的任务
社区描述
Delphi 语言基础/算法/系统设计
社区管理员
  • 语言基础/算法/系统设计社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧