社区
数据结构与算法
帖子详情
如何比较两篇文章的大体内容是否一样?
Keri
2000-07-09 09:49:00
我的想法是统计两篇文章中出现较多的字和词,然后两篇文章作比较.但是如何知道两个字或者多个字是一个词?是否非要建一个词库?如果比较出现频率较高的字的话效果如何?大家有没有谁作过?或者还有什么更好的方法?请大虾多多指教.
谢谢.
...全文
977
18
打赏
收藏
如何比较两篇文章的大体内容是否一样?
我的想法是统计两篇文章中出现较多的字和词,然后两篇文章作比较.但是如何知道两个字或者多个字是一个词?是否非要建一个词库?如果比较出现频率较高的字的话效果如何?大家有没有谁作过?或者还有什么更好的方法?请大虾多多指教. 谢谢.
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
18 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
ychener
2001-04-29
打赏
举报
回复
做一把DEF的抽样摘要,比较一下
一块石头123456
2001-03-14
打赏
举报
回复
我也想知道哪有源程序?
bitfarmer
2001-01-09
打赏
举报
回复
1、必须要有一个包含词语详细信息的词库。
2、然后你可以设定一些事实框架。例如:
名词+判断动词+形容词
动词+名词
……
这些框架要求必须包含名词,这样就能比较简单而且能把握文章的描述对象。框架的完善程度直接关系到对文章大意进行提取的准确性。
3、将文章内容按某个框架的格式进行填写,在这个过程中需要忽略不关心的词语。(可参考DCG语法表达式)。
4、比较从两篇文章中提出的事实。
使用这种方法,你可以做得很简单,也可以做得很完善,关键就在于框架能否覆盖大多数语法规则,词库有没有近义、反义、同义等字段。祝你好运。
Pany
2001-01-07
打赏
举报
回复
思想与UserReg基本相同,
分成几个属性
动词、名词、代词、无关词(数量词、形容词、副词、感叹词等)
只要使用约束算法建立词库就是了。(不记名字了。:-))
将无关词去掉,剩下的就是主体,对主体进行你认为可以的评估。
比如:你认为只要动词相同就可以了,那么,就对结构相同的动词进行计算。得出个数,再除于总数。你认为只要结构相同就可以了,OK,就对结构相同的句子进行计算,得出句数,再除于总句数。其他依此类推。
临时想出来的算法,希望专家指点。
mutant
2000-11-28
打赏
举报
回复
MSDN上有Sample,WinDiff的源代码,自己找一下
lenyu
2000-11-27
打赏
举报
回复
UserReg果然厉害.希望能与你交流
freeboy
2000-11-21
打赏
举报
回复
关注
Putao
2000-09-30
打赏
举报
回复
关注
dragonex
2000-09-30
打赏
举报
回复
期待有好的答案。
请大家讲讲转移概率的做法吧。
dragonex
2000-09-30
打赏
举报
回复
是啊,这个东西其实我也一直在寻找。等待好消息。
但请TOCTORY能把N阶转移概率再讲清楚一点。
w102272
2000-08-06
打赏
举报
回复
精彩,鼓掌。
这个东东搞出来能做很多应用的。
UserReg
2000-07-25
打赏
举报
回复
将文章分成基本元素,每一个元素是一个对象,每一个对象具有下列属性:
内容,词性,感情色彩等
如:
爱情,抽象名次,褒义词
鞭笞,动词,褒义词
的,地,得,结构祝词
由一个一个基本元素组成上一级元素:短语,句子
短语分成各种结构,句子进行成分划分。
再有短语和句子组成段落,
由段落构成文章
两篇文章的近似程度,肯定有基本元素,到句子,到段落的近似以一定的关系得到。
由此,进行词法分析,句法分析,语法分析,到语言理解
词法分析分析两篇文章的相同的词汇,用词近似程度:
toctory
2000-07-20
打赏
举报
回复
其它消息:
我手头上的关于英文的统计分析资料的结论是英语的6-7阶转移矩阵可以判断两篇相同文风的文章。
而且中文的词组库可以自己造,统计字符的转移概率就行了。
toctory
2000-07-20
打赏
举报
回复
文章较短的话,可以算出字符的二阶或三阶转移概率,用稀疏矩阵(练表)存储;
文章较长的话,直接统计每个字的出现概率;
xdpan
2000-07-19
打赏
举报
回复
从语言统计学的观点出发,通过统计字并不能实现比较两篇文章内容的比较,简单一点的做法可单纯地统计词来比较,但误差较大。可设计一种语意分析算法,提取关键词和短语进行比对,效果会大大提高。
yoursoft
2000-07-15
打赏
举报
回复
请参考MS Word2000中文版.文档是汉字时,当按Ctrl+左键或Ctrl+右键,按词移动,word可以按照微软的中文输入法提供的词组移动,而非空格分割.
Eric_Hu
2000-07-13
打赏
举报
回复
统计字是很方便的,但是说到“词”难度就会提高很多,涉及到汉语分词的问题,除非你有一个非常大的词汇库以及一套非常完备的分词算法,否则 ...
(这些不是一两个人能做的)
King
2000-07-10
打赏
举报
回复
不实际吧,汉语的组合太多,内容并不能通过比较两篇文章的词出现概率来比较是否相同。
光线追踪入门
内容
介绍 在成像领域,我们有很多手段。比如你可以通过照相机的光学元件,也可以通过像电脑游戏中的那样,通过GPU的一套渲染管线来实现成像。当然除此之外是不是就没有其他的成像方式了呢?当然答案
是否
定的。 在...
Java面试不通过?这篇
文章
你看了吗?
此文是前段时间本人根据部分
文章
汇总压在草稿箱(由于时间关系,忘了加上对应的原创链接,如有侵权,请联系本人删除,本人单纯秉着知识乐于分享的精神),今天发现在草稿箱,特发出来给大家,仅供参考。 注:本人才...
鸟哥linux基础篇学完到什么程度,学完了《鸟哥Linux私房菜》
大体
回顾以及感悟。...
今天来写这篇
文章
时,其实我已经把鸟哥的私房菜基础篇看完一个多星期了,但是却一直觉得没法开始写这篇
文章
。究其原因,确实是第四章与第五章中学到的东西太少,加上许多
内容
由于内核版本的升级出现了改变,没能在...
写RPA的第二篇
文章
,RPA要避坑
疫情前写的第一篇
文章
非常感谢一些朋友的抬举,给了我小小的肯定。 这次想和大家分享的
内容
是,RPA你在设计的时候应该关注的点 莫以为RPA是傻瓜软件 在RPA企业做宣传的时候,多数会说,这个RPA有多简单,对于业务...
Unsupervised Attention-guided Image-to-Image Translation 解读
两篇
文章
的工作
大体
是相似的,但是这篇
文章
的代码开源了。 这篇
文章
和上篇
文章
一样都是做图像域转换,并且在转换时都想要只关注图像中的前景,达到前景转换而背景不变的效果。 在上一篇blog中已经介绍过了图像...
数据结构与算法
33,010
社区成员
35,327
社区内容
发帖
与我相关
我的任务
数据结构与算法
数据结构与算法相关内容讨论专区
复制链接
扫一扫
分享
社区描述
数据结构与算法相关内容讨论专区
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章