社区
数据结构与算法
帖子详情
如何比较两篇文章的大体内容是否一样?
Keri
2000-07-09 09:49:00
我的想法是统计两篇文章中出现较多的字和词,然后两篇文章作比较.但是如何知道两个字或者多个字是一个词?是否非要建一个词库?如果比较出现频率较高的字的话效果如何?大家有没有谁作过?或者还有什么更好的方法?请大虾多多指教.
谢谢.
...全文
970
18
打赏
收藏
如何比较两篇文章的大体内容是否一样?
我的想法是统计两篇文章中出现较多的字和词,然后两篇文章作比较.但是如何知道两个字或者多个字是一个词?是否非要建一个词库?如果比较出现频率较高的字的话效果如何?大家有没有谁作过?或者还有什么更好的方法?请大虾多多指教. 谢谢.
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
18 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
ychener
2001-04-29
打赏
举报
回复
做一把DEF的抽样摘要,比较一下
一块石头123456
2001-03-14
打赏
举报
回复
我也想知道哪有源程序?
bitfarmer
2001-01-09
打赏
举报
回复
1、必须要有一个包含词语详细信息的词库。
2、然后你可以设定一些事实框架。例如:
名词+判断动词+形容词
动词+名词
……
这些框架要求必须包含名词,这样就能比较简单而且能把握文章的描述对象。框架的完善程度直接关系到对文章大意进行提取的准确性。
3、将文章内容按某个框架的格式进行填写,在这个过程中需要忽略不关心的词语。(可参考DCG语法表达式)。
4、比较从两篇文章中提出的事实。
使用这种方法,你可以做得很简单,也可以做得很完善,关键就在于框架能否覆盖大多数语法规则,词库有没有近义、反义、同义等字段。祝你好运。
Pany
2001-01-07
打赏
举报
回复
思想与UserReg基本相同,
分成几个属性
动词、名词、代词、无关词(数量词、形容词、副词、感叹词等)
只要使用约束算法建立词库就是了。(不记名字了。:-))
将无关词去掉,剩下的就是主体,对主体进行你认为可以的评估。
比如:你认为只要动词相同就可以了,那么,就对结构相同的动词进行计算。得出个数,再除于总数。你认为只要结构相同就可以了,OK,就对结构相同的句子进行计算,得出句数,再除于总句数。其他依此类推。
临时想出来的算法,希望专家指点。
mutant
2000-11-28
打赏
举报
回复
MSDN上有Sample,WinDiff的源代码,自己找一下
lenyu
2000-11-27
打赏
举报
回复
UserReg果然厉害.希望能与你交流
freeboy
2000-11-21
打赏
举报
回复
关注
Putao
2000-09-30
打赏
举报
回复
关注
dragonex
2000-09-30
打赏
举报
回复
期待有好的答案。
请大家讲讲转移概率的做法吧。
dragonex
2000-09-30
打赏
举报
回复
是啊,这个东西其实我也一直在寻找。等待好消息。
但请TOCTORY能把N阶转移概率再讲清楚一点。
w102272
2000-08-06
打赏
举报
回复
精彩,鼓掌。
这个东东搞出来能做很多应用的。
UserReg
2000-07-25
打赏
举报
回复
将文章分成基本元素,每一个元素是一个对象,每一个对象具有下列属性:
内容,词性,感情色彩等
如:
爱情,抽象名次,褒义词
鞭笞,动词,褒义词
的,地,得,结构祝词
由一个一个基本元素组成上一级元素:短语,句子
短语分成各种结构,句子进行成分划分。
再有短语和句子组成段落,
由段落构成文章
两篇文章的近似程度,肯定有基本元素,到句子,到段落的近似以一定的关系得到。
由此,进行词法分析,句法分析,语法分析,到语言理解
词法分析分析两篇文章的相同的词汇,用词近似程度:
toctory
2000-07-20
打赏
举报
回复
其它消息:
我手头上的关于英文的统计分析资料的结论是英语的6-7阶转移矩阵可以判断两篇相同文风的文章。
而且中文的词组库可以自己造,统计字符的转移概率就行了。
toctory
2000-07-20
打赏
举报
回复
文章较短的话,可以算出字符的二阶或三阶转移概率,用稀疏矩阵(练表)存储;
文章较长的话,直接统计每个字的出现概率;
xdpan
2000-07-19
打赏
举报
回复
从语言统计学的观点出发,通过统计字并不能实现比较两篇文章内容的比较,简单一点的做法可单纯地统计词来比较,但误差较大。可设计一种语意分析算法,提取关键词和短语进行比对,效果会大大提高。
yoursoft
2000-07-15
打赏
举报
回复
请参考MS Word2000中文版.文档是汉字时,当按Ctrl+左键或Ctrl+右键,按词移动,word可以按照微软的中文输入法提供的词组移动,而非空格分割.
Eric_Hu
2000-07-13
打赏
举报
回复
统计字是很方便的,但是说到“词”难度就会提高很多,涉及到汉语分词的问题,除非你有一个非常大的词汇库以及一套非常完备的分词算法,否则 ...
(这些不是一两个人能做的)
King
2000-07-10
打赏
举报
回复
不实际吧,汉语的组合太多,内容并不能通过比较两篇文章的词出现概率来比较是否相同。
光线追踪入门
内容
介绍在成像领域,我们有很多手段。比如你可以通过照相机的光学元件,也可以通过像电脑游戏中的那样,通过GPU的一套渲染管线来实现成像。当然除此之外是不是就没有其他的成像方式了呢?当然答案
是否
定的。 在我们不去使用计算机图形学那套去成像的时候,最土鳖和最容易理解的成像方式就是光线追踪了。这里同学们应该理解到的有一个点,第一光线追踪不是唯一的成像方式,第二它与传统的GPU成像或者说 计算机图形学里说的那些光栅化之类的从思路上就有区别,第三光线追踪是最简单的成像方式之一,大概你学完高中数学就可以实现光线追踪,写完两三个C++类足以做成非常优质的画面。所以同学们要对光线追踪有一个 清晰的认识,不要认为你学完这一套就无敌了,其实你学完了才会发现,这比OpenGL那些一套一套的规则简单多了。 大部分情况下,由于光线追踪不是按照图形学那边的那些管线来做的,所以它不讲究效率,而是遵循物理意义上的画质最佳。所以基本上你学会光线追踪,且不从事电影行业或者不学习引擎内核去研发高端引擎,那么这块知识估计你会带进坟墓。适合人群光线追踪适合于那些探究画质的同学,你可以轻松的把你的思维应用到你的算法中,但大概率无法转化成为实时算法,也就是无法转化成传统渲染管线这边的一套一套的东西。因为仿真从算法出发点上就是不考虑效率的。 你可以用光线追踪去渲染一些精致的画面,如果你是学习了游戏引擎了的话,你可以尝试自己写一个光线追踪的渲染器,来执行烘焙场景的操作。大部分情况下,通用引擎会使用AutoDesk的Beast SDK,比如Unity3D 里面就有beast.exe。如果你是游戏引擎的内核程序员,那么你有可能将你光线追踪和离线渲染学来的知识通过烘焙场景的方式来应用到你的实际工作中。光线追踪的地位在实时渲染领域中使用光线追踪的算法的探索当然也有人在做,这其中最厉害的当然就是Unreal,值得我们学习。如果你在你的引擎内核里使用了像vulkan这样的高级别渲染器,兼容性会差一点,但是你此时 就可以学习Unreal做光线追踪的思路,在实时渲染中,去或多或少加一点光线追踪。我们可以来思考这样的一个问题,实时渲染追求的是速度与性能,离线渲染追求的是极限画质。于是乎那些大神,或许未来你 就是这些大神中的某一个,你们做的操作莫过于把离线渲染算法中的某一部分
比较
烧性能的环节,比如通过IBL的方式事先通过离线渲染把所有渲染数据存储到一张图像里去,然后在实时渲染的时候把这张图片 中的数据取出来直接运算,就可以得到比实时渲染好,但是比离线渲染差那么一点点画质。这里之所以无法让实时渲染和离线渲染的画质完全一致是因为我们的3D世界就如同我们的眼球一样精度是很高的。如果你的 图片的分辨率不够大,离线渲染的时候存储的数据都是
比较
粗糙的采样数据,无法描绘出一个精致的世界。课程安排在我们的课程中,我们来通过最简单的方式,依然是最简单的方式来理解光线追踪是怎么玩出来的。画面或许很好看,但都是简单的高中几何数学,即便我们认为你没写过程序都能看懂意思。我们课程里面不涉及 物理渲染,我们使用的依然是经典的lambert这样的光照模型。物理渲染的方式既可以在实时渲染里实现,也可以在离线渲染里实现。
大体
的框架不会变,只是计算光的时候算法会变,那部分估计也不是美术可以听懂的了。
Java面试不通过?这篇
文章
你看了吗?
Java面试题千千万,个人觉得没有最好的答案,只有最适合的答案;本文的宗旨是为读者朋友们整理一份详细而又权威的面试清单。 此文是前段时间本人根据部分
文章
汇总压在草稿箱(由于时间关系,忘了加上对应的原创链接,如有侵权,请联系本人删除,本人单纯秉着知识乐于分享的精神),今天发现在草稿箱,特发出来给大家,仅供参考。 注:本人才疏学浅,知识还在积累中,不能保证每个回答都满足各种等级的高手们,(由于一些技术的升级,部分答案不能保证实时同步准确,还请大家在阅读的时候多多留意)若发现有问题的话,请评论指出。.......
写RPA的第二篇
文章
,RPA要避坑
RPA,上手简单,做起来需要认真思考 疫情前写的第一篇
文章
非常感谢一些朋友的抬举,给了我小小的肯定。 这次想和大家分享的
内容
是,RPA你在设计的时候应该关注的点 莫以为RPA是傻瓜软件 在RPA企业做宣传的时候,多数会说,这个RPA有多简单,对于业务人员就像画流程图一样,非常的easy,他们其实说的是
大体
是对的,但是在你开始接触RPA软件的时候,必须考虑到一些问题点的: 软件能傻瓜到什么程度?开启录制功能就行了?没那么简单,能够把整个流程单凭录制就能够完成的操作,那么基本可以认为流程没有什么优化价值。能够录
Unsupervised Attention-guided Image-to-Image Translation 解读
本文和上一篇show,Attend一样,都是基于attention机制的图像转换。
两篇
文章
的工作
大体
是相似的,但是这篇
文章
的代码开源了。 这篇
文章
和上篇
文章
一样都是做图像域转换,并且在转换时都想要只关注图像中的前景,达到前景转换而背景不变的效果。 在上一篇blog中已经介绍过了图像域转换,所以这里就直接开始讲作者提出的模型了。 Model Fs->t表示从S域...
Python爬取人民网
文章
标题
Python爬取人民网
文章
标题 兴趣点: 还是为了练手,开始想爬人民网主页的所有
文章
的,但是发现不同板块的页面结构不一样,有的页面还是论坛???我人晕了,最后改弄词云了,无奈╮(╯▽╰)╭ 爬取网址: 传送门:http://www.people.com.cn/ 爬虫
大体
思路和方法:
大体
思路: (1)这个页面相对简单,获取页面标签里的文本和链接就不说了 (2)利用jieba库的analyse自动分析方法拆分分析文本 (3)利用Wordcloud的方法实现词云 方法: (1)页面获取方法:getHTMLTex
数据结构与算法
33,008
社区成员
35,326
社区内容
发帖
与我相关
我的任务
数据结构与算法
数据结构与算法相关内容讨论专区
复制链接
扫一扫
分享
社区描述
数据结构与算法相关内容讨论专区
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章