社区
数据结构与算法
帖子详情
如何比较两篇文章的大体内容是否一样?
Keri
2000-07-09 09:49:00
我的想法是统计两篇文章中出现较多的字和词,然后两篇文章作比较.但是如何知道两个字或者多个字是一个词?是否非要建一个词库?如果比较出现频率较高的字的话效果如何?大家有没有谁作过?或者还有什么更好的方法?请大虾多多指教.
谢谢.
...全文
971
18
打赏
收藏
如何比较两篇文章的大体内容是否一样?
我的想法是统计两篇文章中出现较多的字和词,然后两篇文章作比较.但是如何知道两个字或者多个字是一个词?是否非要建一个词库?如果比较出现频率较高的字的话效果如何?大家有没有谁作过?或者还有什么更好的方法?请大虾多多指教. 谢谢.
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
18 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
ychener
2001-04-29
打赏
举报
回复
做一把DEF的抽样摘要,比较一下
一块石头123456
2001-03-14
打赏
举报
回复
我也想知道哪有源程序?
bitfarmer
2001-01-09
打赏
举报
回复
1、必须要有一个包含词语详细信息的词库。
2、然后你可以设定一些事实框架。例如:
名词+判断动词+形容词
动词+名词
……
这些框架要求必须包含名词,这样就能比较简单而且能把握文章的描述对象。框架的完善程度直接关系到对文章大意进行提取的准确性。
3、将文章内容按某个框架的格式进行填写,在这个过程中需要忽略不关心的词语。(可参考DCG语法表达式)。
4、比较从两篇文章中提出的事实。
使用这种方法,你可以做得很简单,也可以做得很完善,关键就在于框架能否覆盖大多数语法规则,词库有没有近义、反义、同义等字段。祝你好运。
Pany
2001-01-07
打赏
举报
回复
思想与UserReg基本相同,
分成几个属性
动词、名词、代词、无关词(数量词、形容词、副词、感叹词等)
只要使用约束算法建立词库就是了。(不记名字了。:-))
将无关词去掉,剩下的就是主体,对主体进行你认为可以的评估。
比如:你认为只要动词相同就可以了,那么,就对结构相同的动词进行计算。得出个数,再除于总数。你认为只要结构相同就可以了,OK,就对结构相同的句子进行计算,得出句数,再除于总句数。其他依此类推。
临时想出来的算法,希望专家指点。
mutant
2000-11-28
打赏
举报
回复
MSDN上有Sample,WinDiff的源代码,自己找一下
lenyu
2000-11-27
打赏
举报
回复
UserReg果然厉害.希望能与你交流
freeboy
2000-11-21
打赏
举报
回复
关注
Putao
2000-09-30
打赏
举报
回复
关注
dragonex
2000-09-30
打赏
举报
回复
期待有好的答案。
请大家讲讲转移概率的做法吧。
dragonex
2000-09-30
打赏
举报
回复
是啊,这个东西其实我也一直在寻找。等待好消息。
但请TOCTORY能把N阶转移概率再讲清楚一点。
w102272
2000-08-06
打赏
举报
回复
精彩,鼓掌。
这个东东搞出来能做很多应用的。
UserReg
2000-07-25
打赏
举报
回复
将文章分成基本元素,每一个元素是一个对象,每一个对象具有下列属性:
内容,词性,感情色彩等
如:
爱情,抽象名次,褒义词
鞭笞,动词,褒义词
的,地,得,结构祝词
由一个一个基本元素组成上一级元素:短语,句子
短语分成各种结构,句子进行成分划分。
再有短语和句子组成段落,
由段落构成文章
两篇文章的近似程度,肯定有基本元素,到句子,到段落的近似以一定的关系得到。
由此,进行词法分析,句法分析,语法分析,到语言理解
词法分析分析两篇文章的相同的词汇,用词近似程度:
toctory
2000-07-20
打赏
举报
回复
其它消息:
我手头上的关于英文的统计分析资料的结论是英语的6-7阶转移矩阵可以判断两篇相同文风的文章。
而且中文的词组库可以自己造,统计字符的转移概率就行了。
toctory
2000-07-20
打赏
举报
回复
文章较短的话,可以算出字符的二阶或三阶转移概率,用稀疏矩阵(练表)存储;
文章较长的话,直接统计每个字的出现概率;
xdpan
2000-07-19
打赏
举报
回复
从语言统计学的观点出发,通过统计字并不能实现比较两篇文章内容的比较,简单一点的做法可单纯地统计词来比较,但误差较大。可设计一种语意分析算法,提取关键词和短语进行比对,效果会大大提高。
yoursoft
2000-07-15
打赏
举报
回复
请参考MS Word2000中文版.文档是汉字时,当按Ctrl+左键或Ctrl+右键,按词移动,word可以按照微软的中文输入法提供的词组移动,而非空格分割.
Eric_Hu
2000-07-13
打赏
举报
回复
统计字是很方便的,但是说到“词”难度就会提高很多,涉及到汉语分词的问题,除非你有一个非常大的词汇库以及一套非常完备的分词算法,否则 ...
(这些不是一两个人能做的)
King
2000-07-10
打赏
举报
回复
不实际吧,汉语的组合太多,内容并不能通过比较两篇文章的词出现概率来比较是否相同。
Java面试不通过?这篇
文章
你看了吗?
此文是前段时间本人根据部分
文章
汇总压在草稿箱(由于时间关系,忘了加上对应的原创链接,如有侵权,请联系本人删除,本人单纯秉着知识乐于分享的精神),今天发现在草稿箱,特发出来给大家,仅供参考。 注:本人才...
鸟哥linux基础篇学完到什么程度,学完了《鸟哥Linux私房菜》
大体
回顾以及感悟。...
今天来写这篇
文章
时,其实我已经把鸟哥的私房菜基础篇看完一个多星期了,但是却一直觉得没法开始写这篇
文章
。究其原因,确实是第四章与第五章中学到的东西太少,加上许多
内容
由于内核版本的升级出现了改变,没能在...
写RPA的第二篇
文章
,RPA要避坑
疫情前写的第一篇
文章
非常感谢一些朋友的抬举,给了我小小的肯定。 这次想和大家分享的
内容
是,RPA你在设计的时候应该关注的点 莫以为RPA是傻瓜软件 在RPA企业做宣传的时候,多数会说,这个RPA有多简单,对于业务...
Unsupervised Attention-guided Image-to-Image Translation 解读
两篇
文章
的工作
大体
是相似的,但是这篇
文章
的代码开源了。 这篇
文章
和上篇
文章
一样都是做图像域转换,并且在转换时都想要只关注图像中的前景,达到前景转换而背景不变的效果。 在上一篇blog中已经介绍过了图像...
15篇
文章
贯通4级词汇
与当时许多婚姻情况一样,莱斯利和杰夫之间出现了许多问题,但并未影响到扎克。他是个好孩子,刚刚上幼儿园。他们达成了一个依法监护的协议,协议规定双亲每两个周末轮换照顾孩子,这是她独处的周末。 Jeff was an ...
数据结构与算法
33,008
社区成员
35,326
社区内容
发帖
与我相关
我的任务
数据结构与算法
数据结构与算法相关内容讨论专区
复制链接
扫一扫
分享
社区描述
数据结构与算法相关内容讨论专区
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章