如何比较两篇文章的大体内容是否一样?

Keri 2000-07-09 09:49:00
我的想法是统计两篇文章中出现较多的字和词,然后两篇文章作比较.但是如何知道两个字或者多个字是一个词?是否非要建一个词库?如果比较出现频率较高的字的话效果如何?大家有没有谁作过?或者还有什么更好的方法?请大虾多多指教.
谢谢.
...全文
970 18 打赏 收藏 转发到动态 举报
写回复
用AI写文章
18 条回复
切换为时间正序
请发表友善的回复…
发表回复
ychener 2001-04-29
  • 打赏
  • 举报
回复
做一把DEF的抽样摘要,比较一下
一块石头123456 2001-03-14
  • 打赏
  • 举报
回复
我也想知道哪有源程序?
bitfarmer 2001-01-09
  • 打赏
  • 举报
回复
1、必须要有一个包含词语详细信息的词库。
2、然后你可以设定一些事实框架。例如:
名词+判断动词+形容词
动词+名词
……
这些框架要求必须包含名词,这样就能比较简单而且能把握文章的描述对象。框架的完善程度直接关系到对文章大意进行提取的准确性。
3、将文章内容按某个框架的格式进行填写,在这个过程中需要忽略不关心的词语。(可参考DCG语法表达式)。
4、比较从两篇文章中提出的事实。

使用这种方法,你可以做得很简单,也可以做得很完善,关键就在于框架能否覆盖大多数语法规则,词库有没有近义、反义、同义等字段。祝你好运。
Pany 2001-01-07
  • 打赏
  • 举报
回复
思想与UserReg基本相同,
分成几个属性
动词、名词、代词、无关词(数量词、形容词、副词、感叹词等)
只要使用约束算法建立词库就是了。(不记名字了。:-))
将无关词去掉,剩下的就是主体,对主体进行你认为可以的评估。
比如:你认为只要动词相同就可以了,那么,就对结构相同的动词进行计算。得出个数,再除于总数。你认为只要结构相同就可以了,OK,就对结构相同的句子进行计算,得出句数,再除于总句数。其他依此类推。
临时想出来的算法,希望专家指点。
mutant 2000-11-28
  • 打赏
  • 举报
回复
MSDN上有Sample,WinDiff的源代码,自己找一下
lenyu 2000-11-27
  • 打赏
  • 举报
回复
UserReg果然厉害.希望能与你交流
freeboy 2000-11-21
  • 打赏
  • 举报
回复
关注
Putao 2000-09-30
  • 打赏
  • 举报
回复
关注
dragonex 2000-09-30
  • 打赏
  • 举报
回复
期待有好的答案。

请大家讲讲转移概率的做法吧。
dragonex 2000-09-30
  • 打赏
  • 举报
回复
是啊,这个东西其实我也一直在寻找。等待好消息。

但请TOCTORY能把N阶转移概率再讲清楚一点。
w102272 2000-08-06
  • 打赏
  • 举报
回复
精彩,鼓掌。
这个东东搞出来能做很多应用的。
UserReg 2000-07-25
  • 打赏
  • 举报
回复
将文章分成基本元素,每一个元素是一个对象,每一个对象具有下列属性:
内容,词性,感情色彩等
如:
爱情,抽象名次,褒义词
鞭笞,动词,褒义词
的,地,得,结构祝词
由一个一个基本元素组成上一级元素:短语,句子
短语分成各种结构,句子进行成分划分。
再有短语和句子组成段落,
由段落构成文章
两篇文章的近似程度,肯定有基本元素,到句子,到段落的近似以一定的关系得到。

由此,进行词法分析,句法分析,语法分析,到语言理解
词法分析分析两篇文章的相同的词汇,用词近似程度:
toctory 2000-07-20
  • 打赏
  • 举报
回复
其它消息:
我手头上的关于英文的统计分析资料的结论是英语的6-7阶转移矩阵可以判断两篇相同文风的文章。
而且中文的词组库可以自己造,统计字符的转移概率就行了。
toctory 2000-07-20
  • 打赏
  • 举报
回复
文章较短的话,可以算出字符的二阶或三阶转移概率,用稀疏矩阵(练表)存储;
文章较长的话,直接统计每个字的出现概率;
xdpan 2000-07-19
  • 打赏
  • 举报
回复
从语言统计学的观点出发,通过统计字并不能实现比较两篇文章内容的比较,简单一点的做法可单纯地统计词来比较,但误差较大。可设计一种语意分析算法,提取关键词和短语进行比对,效果会大大提高。
yoursoft 2000-07-15
  • 打赏
  • 举报
回复
请参考MS Word2000中文版.文档是汉字时,当按Ctrl+左键或Ctrl+右键,按词移动,word可以按照微软的中文输入法提供的词组移动,而非空格分割.
Eric_Hu 2000-07-13
  • 打赏
  • 举报
回复
统计字是很方便的,但是说到“词”难度就会提高很多,涉及到汉语分词的问题,除非你有一个非常大的词汇库以及一套非常完备的分词算法,否则 ...
(这些不是一两个人能做的)
King 2000-07-10
  • 打赏
  • 举报
回复
不实际吧,汉语的组合太多,内容并不能通过比较两篇文章的词出现概率来比较是否相同。
内容介绍在成像领域,我们有很多手段。比如你可以通过照相机的光学元件,也可以通过像电脑游戏中的那样,通过GPU的一套渲染管线来实现成像。当然除此之外是不是就没有其他的成像方式了呢?当然答案是否定的。 在我们不去使用计算机图形学那套去成像的时候,最土鳖和最容易理解的成像方式就是光线追踪了。这里同学们应该理解到的有一个点,第一光线追踪不是唯一的成像方式,第二它与传统的GPU成像或者说 计算机图形学里说的那些光栅化之类的从思路上就有区别,第三光线追踪是最简单的成像方式之一,大概你学完高中数学就可以实现光线追踪,写完两三个C++类足以做成非常优质的画面。所以同学们要对光线追踪有一个 清晰的认识,不要认为你学完这一套就无敌了,其实你学完了才会发现,这比OpenGL那些一套一套的规则简单多了。 大部分情况下,由于光线追踪不是按照图形学那边的那些管线来做的,所以它不讲究效率,而是遵循物理意义上的画质最佳。所以基本上你学会光线追踪,且不从事电影行业或者不学习引擎内核去研发高端引擎,那么这块知识估计你会带进坟墓。适合人群光线追踪适合于那些探究画质的同学,你可以轻松的把你的思维应用到你的算法中,但大概率无法转化成为实时算法,也就是无法转化成传统渲染管线这边的一套一套的东西。因为仿真从算法出发点上就是不考虑效率的。 你可以用光线追踪去渲染一些精致的画面,如果你是学习了游戏引擎了的话,你可以尝试自己写一个光线追踪的渲染器,来执行烘焙场景的操作。大部分情况下,通用引擎会使用AutoDesk的Beast SDK,比如Unity3D 里面就有beast.exe。如果你是游戏引擎的内核程序员,那么你有可能将你光线追踪和离线渲染学来的知识通过烘焙场景的方式来应用到你的实际工作中。光线追踪的地位在实时渲染领域中使用光线追踪的算法的探索当然也有人在做,这其中最厉害的当然就是Unreal,值得我们学习。如果你在你的引擎内核里使用了像vulkan这样的高级别渲染器,兼容性会差一点,但是你此时 就可以学习Unreal做光线追踪的思路,在实时渲染中,去或多或少加一点光线追踪。我们可以来思考这样的一个问题,实时渲染追求的是速度与性能,离线渲染追求的是极限画质。于是乎那些大神,或许未来你 就是这些大神中的某一个,你们做的操作莫过于把离线渲染算法中的某一部分比较烧性能的环节,比如通过IBL的方式事先通过离线渲染把所有渲染数据存储到一张图像里去,然后在实时渲染的时候把这张图片 中的数据取出来直接运算,就可以得到比实时渲染好,但是比离线渲染差那么一点点画质。这里之所以无法让实时渲染和离线渲染的画质完全一致是因为我们的3D世界就如同我们的眼球一样精度是很高的。如果你的 图片的分辨率不够大,离线渲染的时候存储的数据都是比较粗糙的采样数据,无法描绘出一个精致的世界。课程安排在我们的课程中,我们来通过最简单的方式,依然是最简单的方式来理解光线追踪是怎么玩出来的。画面或许很好看,但都是简单的高中几何数学,即便我们认为你没写过程序都能看懂意思。我们课程里面不涉及 物理渲染,我们使用的依然是经典的lambert这样的光照模型。物理渲染的方式既可以在实时渲染里实现,也可以在离线渲染里实现。大体的框架不会变,只是计算光的时候算法会变,那部分估计也不是美术可以听懂的了。

33,008

社区成员

发帖
与我相关
我的任务
社区描述
数据结构与算法相关内容讨论专区
社区管理员
  • 数据结构与算法社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧