如何比较两篇文章的大体内容是否一样?

Keri 2000-07-09 09:49:00
我的想法是统计两篇文章中出现较多的字和词,然后两篇文章作比较.但是如何知道两个字或者多个字是一个词?是否非要建一个词库?如果比较出现频率较高的字的话效果如何?大家有没有谁作过?或者还有什么更好的方法?请大虾多多指教.
谢谢.
...全文
966 18 打赏 收藏 转发到动态 举报
写回复
用AI写文章
18 条回复
切换为时间正序
请发表友善的回复…
发表回复
ychener 2001-04-29
  • 打赏
  • 举报
回复
做一把DEF的抽样摘要,比较一下
一块石头123456 2001-03-14
  • 打赏
  • 举报
回复
我也想知道哪有源程序?
bitfarmer 2001-01-09
  • 打赏
  • 举报
回复
1、必须要有一个包含词语详细信息的词库。
2、然后你可以设定一些事实框架。例如:
名词+判断动词+形容词
动词+名词
……
这些框架要求必须包含名词,这样就能比较简单而且能把握文章的描述对象。框架的完善程度直接关系到对文章大意进行提取的准确性。
3、将文章内容按某个框架的格式进行填写,在这个过程中需要忽略不关心的词语。(可参考DCG语法表达式)。
4、比较从两篇文章中提出的事实。

使用这种方法,你可以做得很简单,也可以做得很完善,关键就在于框架能否覆盖大多数语法规则,词库有没有近义、反义、同义等字段。祝你好运。
Pany 2001-01-07
  • 打赏
  • 举报
回复
思想与UserReg基本相同,
分成几个属性
动词、名词、代词、无关词(数量词、形容词、副词、感叹词等)
只要使用约束算法建立词库就是了。(不记名字了。:-))
将无关词去掉,剩下的就是主体,对主体进行你认为可以的评估。
比如:你认为只要动词相同就可以了,那么,就对结构相同的动词进行计算。得出个数,再除于总数。你认为只要结构相同就可以了,OK,就对结构相同的句子进行计算,得出句数,再除于总句数。其他依此类推。
临时想出来的算法,希望专家指点。
mutant 2000-11-28
  • 打赏
  • 举报
回复
MSDN上有Sample,WinDiff的源代码,自己找一下
lenyu 2000-11-27
  • 打赏
  • 举报
回复
UserReg果然厉害.希望能与你交流
freeboy 2000-11-21
  • 打赏
  • 举报
回复
关注
Putao 2000-09-30
  • 打赏
  • 举报
回复
关注
dragonex 2000-09-30
  • 打赏
  • 举报
回复
期待有好的答案。

请大家讲讲转移概率的做法吧。
dragonex 2000-09-30
  • 打赏
  • 举报
回复
是啊,这个东西其实我也一直在寻找。等待好消息。

但请TOCTORY能把N阶转移概率再讲清楚一点。
w102272 2000-08-06
  • 打赏
  • 举报
回复
精彩,鼓掌。
这个东东搞出来能做很多应用的。
UserReg 2000-07-25
  • 打赏
  • 举报
回复
将文章分成基本元素,每一个元素是一个对象,每一个对象具有下列属性:
内容,词性,感情色彩等
如:
爱情,抽象名次,褒义词
鞭笞,动词,褒义词
的,地,得,结构祝词
由一个一个基本元素组成上一级元素:短语,句子
短语分成各种结构,句子进行成分划分。
再有短语和句子组成段落,
由段落构成文章
两篇文章的近似程度,肯定有基本元素,到句子,到段落的近似以一定的关系得到。

由此,进行词法分析,句法分析,语法分析,到语言理解
词法分析分析两篇文章的相同的词汇,用词近似程度:
toctory 2000-07-20
  • 打赏
  • 举报
回复
其它消息:
我手头上的关于英文的统计分析资料的结论是英语的6-7阶转移矩阵可以判断两篇相同文风的文章。
而且中文的词组库可以自己造,统计字符的转移概率就行了。
toctory 2000-07-20
  • 打赏
  • 举报
回复
文章较短的话,可以算出字符的二阶或三阶转移概率,用稀疏矩阵(练表)存储;
文章较长的话,直接统计每个字的出现概率;
xdpan 2000-07-19
  • 打赏
  • 举报
回复
从语言统计学的观点出发,通过统计字并不能实现比较两篇文章内容的比较,简单一点的做法可单纯地统计词来比较,但误差较大。可设计一种语意分析算法,提取关键词和短语进行比对,效果会大大提高。
yoursoft 2000-07-15
  • 打赏
  • 举报
回复
请参考MS Word2000中文版.文档是汉字时,当按Ctrl+左键或Ctrl+右键,按词移动,word可以按照微软的中文输入法提供的词组移动,而非空格分割.
Eric_Hu 2000-07-13
  • 打赏
  • 举报
回复
统计字是很方便的,但是说到“词”难度就会提高很多,涉及到汉语分词的问题,除非你有一个非常大的词汇库以及一套非常完备的分词算法,否则 ...
(这些不是一两个人能做的)
King 2000-07-10
  • 打赏
  • 举报
回复
不实际吧,汉语的组合太多,内容并不能通过比较两篇文章的词出现概率来比较是否相同。

33,008

社区成员

发帖
与我相关
我的任务
社区描述
数据结构与算法相关内容讨论专区
社区管理员
  • 数据结构与算法社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧