如何比较两篇文章的大体内容是否一样?

Keri 2000-07-09 09:49:00

我的想法是统计两篇文章中出现较多的字和词,然后两篇文章作比较.但是如何知道两个字或者多个字是一个词?是否非要建一个词库?如果比较出现频率较高的字的话效果如何?大家有没有谁作过?或者还有什么更好的方法?请大虾多多指教.
谢谢.

...全文

970 18 打赏收藏转发到动态举报

写回复

用AI写文章

18 条回复

切换为时间正序

请发表友善的回复…

发表回复

ychener 2001-04-29

打赏
举报

做一把DEF的抽样摘要，比较一下

一块石头123456 2001-03-14

打赏
举报

我也想知道哪有源程序？

bitfarmer 2001-01-09

打赏
举报

1、必须要有一个包含词语详细信息的词库。
2、然后你可以设定一些事实框架。例如：
名词+判断动词+形容词
动词+名词
……
这些框架要求必须包含名词，这样就能比较简单而且能把握文章的描述对象。框架的完善程度直接关系到对文章大意进行提取的准确性。
3、将文章内容按某个框架的格式进行填写，在这个过程中需要忽略不关心的词语。（可参考DCG语法表达式）。
4、比较从两篇文章中提出的事实。

使用这种方法，你可以做得很简单，也可以做得很完善，关键就在于框架能否覆盖大多数语法规则，词库有没有近义、反义、同义等字段。祝你好运。

Pany 2001-01-07

打赏
举报

思想与UserReg基本相同，
分成几个属性
动词、名词、代词、无关词（数量词、形容词、副词、感叹词等）
只要使用约束算法建立词库就是了。（不记名字了。：-））
将无关词去掉，剩下的就是主体，对主体进行你认为可以的评估。
比如：你认为只要动词相同就可以了，那么，就对结构相同的动词进行计算。得出个数，再除于总数。你认为只要结构相同就可以了，OK，就对结构相同的句子进行计算，得出句数，再除于总句数。其他依此类推。
临时想出来的算法，希望专家指点。

mutant 2000-11-28

打赏
举报

MSDN上有Sample,WinDiff的源代码,自己找一下

lenyu 2000-11-27

打赏
举报

UserReg果然厉害.希望能与你交流

freeboy 2000-11-21

打赏
举报

关注

Putao 2000-09-30

打赏
举报

关注

dragonex 2000-09-30

打赏
举报

期待有好的答案。

请大家讲讲转移概率的做法吧。

dragonex 2000-09-30

打赏
举报

是啊，这个东西其实我也一直在寻找。等待好消息。

但请TOCTORY能把N阶转移概率再讲清楚一点。

w102272 2000-08-06

打赏
举报

精彩，鼓掌。
这个东东搞出来能做很多应用的。

UserReg 2000-07-25

打赏
举报

将文章分成基本元素，每一个元素是一个对象，每一个对象具有下列属性：
内容，词性，感情色彩等
如:
爱情，抽象名次，褒义词
鞭笞，动词，褒义词
的，地，得，结构祝词
由一个一个基本元素组成上一级元素：短语，句子
短语分成各种结构，句子进行成分划分。
再有短语和句子组成段落，
由段落构成文章
两篇文章的近似程度，肯定有基本元素，到句子，到段落的近似以一定的关系得到。

由此，进行词法分析，句法分析，语法分析，到语言理解
词法分析分析两篇文章的相同的词汇，用词近似程度：

toctory 2000-07-20