比较两篇文章的相似性！

zmxjh 2002-11-07 06:45:06

有两篇文章，是否有算法能够比较它们的相似性。

...全文

237 15 打赏收藏转发到动态举报

写回复

15 条回复

切换为时间正序

请发表友善的回复…

发表回复

zmxjh 2002-11-14

打赏
举报

回复

其实我开始我也认为这是一个和‘语义’分析的话题，但客户认为这很容易，所以我就来想问问有没有更好的解决办法。

现在看来，我要找那个客户谈谈了。：）

谢谢大家。

crazy_lazy_pig 2002-11-12

打赏
举报

回复

楼主没有完全明白我的意思，我知道你是在讲文章意思上的相似性
我的意思是你要做这个东东是件很繁琐的事情，这牵扯到自然语言的理解问题
我所说的定义是指对于相似性更详细、更精确的定义，如：
“我吃饭了”与“我吃饭了”的相似度为100%，“我吃饭了”与“我吃了”的相似度为99.9%，等等诸如此类的相似语句或者近意词你都要加以定义。
复杂的不说，单近意词就够你整理了，单这项工作你若能做出一半就够你活几辈子了

qrlvls 2002-11-10

打赏
举报

回复

很复杂的，非常复杂，串的最大匹配问题很伤神，闪了

patronlee 2002-11-10

打赏
举报

回复

sorry,说错话了：（

patronlee 2002-11-10

打赏
举报

回复

好像有专门的软件

zmxjh 2002-11-09

打赏
举报

回复

我是指两篇文章的意思是否相近

zhenxizhou 2002-11-08

打赏
举报

回复

up

yuga 2002-11-08

打赏
举报

回复

找一些关键字，相同了
在用人去看

seeQe 2002-11-08

打赏
举报

回复

比较两篇文章的相同点和不同点如果是文本类型较容易点如VC中的windiff,ultraedit,各种版本控制系统等，如果是比较的是二进制类型，比较
困难点,尤其是某篇文章经过了一定的算法转化后，再进行比较.

用户　昵称 2002-11-08

打赏
举报

回复

相似性为两篇的内容方面是差别率是多少

不知道你说的是什么，如果只是比较文字的不同，楼上的都说了

程序将显示差别率是多少。

现在的程序版本控制如sourcesafe都有这个功能

zmxjh 2002-11-08

打赏
举报

回复

我所指的相似性为两篇的内容方面是差别率是多少。

比如两篇相同的文章，初始时差别率是0%.另一篇经过修改后，再比较这两篇文章，程序将显示差别率是多少。

crazy_lazy_pig 2002-11-07

打赏
举报

回复

首先你要给“相似性”做个定义。
单找“不相同处”还是有办法的，毕竟“不相同”容易理解且给出精确定义，你的“相似”是什么意思？

cooljjyy 2002-11-07

打赏
举报

回复

类似beyondcompare或者VisualSourceSafe的那种比较吗?
我想想也是不太容易找出不同的地方的,帮你up吧

stonespace 2002-11-07

打赏
举报

回复

经典的方法:VSM，vector space model，向量空间模型，你可以到文本检索(TR或者IR)的相关主题去查找这方面的资料。到google上查也可以。

qing_li73 2002-11-07

打赏
举报

回复

??? what do u mean ?

If u want to compare the meaning of two articles, it's so difficult ..even done by human beings

(1)本软件不能检查已发表文档，因为已发表的文档往往已经到处传播和引用开来。 ⑵.本软件的每检测400字需要6秒钟，一篇8000字的文档至少需要2分钟，需要一点点耐心。 ⑶.本软件检测结果存在误差，用更小的文档块进行检测，可以减少误差，但需要的时间会相应增加，经过我们在多家编辑部的试用情况，块数大小定为200-400字较为合适，此时误差率也是可以接受的，文档相似率一般是比实际的要低。 ⑷.如果某个相似块未显示，说明未检索到相似的文档。 ⑸.本软件每天检测字数不能超过10万字，否则服务器过载，将封锁IP。 ⑹.本软件后台数据库覆盖188亿个网页和490万篇论文。 ⑺.本软件检测文档不得超过4000字，如需要更长的文档支持，需要购买收费版。 ⑻.当软件未能联网时，软件检测按钮将变虚。 ⑼.本免费版由于服务器压力，有时候可能不能正常检测，出现这种情况，请速联系我们，或者由单位出面购买单位版或者豪华版。 ⑽．本软件检测结果只能作为一个参考，可以使用表格右键导出详细检查结果发送给被检查本人，本软件不对是否剽窃做结论，只是告诉你与现存文献相似度高于80%的文字比例所占文章总数比例是多少。 ⑾．我们将持续投入反剽窃的研究，本人已获批国家自科基金进一步反剽窃问题，我们将继续发表一系列论文，以及继续申请相关专利。软件不完善的地方敬请原谅。欢迎提供反馈意见，我们将持续升级本软件。我们的联系方式：runorsoft@163.com 我们的博客：http://hi.baidu.com/whusoft -------------------------------------------------------------------- 反剽窃系统是通过比对源文档和目标文档的相似性给出相似度结果的一种信息处理系统。由武汉大学信息管理学院出版科学系教师沈阳副教授研发的ROST 文档相似性检测工具可以有效检测论文的抄袭相似情况，经过六年的研发，终于推出了功能强劲的6.0版本，在定版过程中得到了武汉大学信息管理学院多位专家教授的宝贵意见。目前ROST 反剽窃系统6.0版已经投入多家单位进行使用，反应良好，最大程度地杜绝了有抄袭可能的论文发表问世。 ROST反剽窃系统的技术特点： 1．覆盖面广，通过混合引擎覆盖约188亿个网页和490万篇论文。系统采用自研的ROST WebSpider算法实现了对互联网和期刊网的广度覆盖。但需要提醒您的是，本反剽窃系统不能覆盖所有文献。 2．模糊检测，柔性匹配，不管抄袭者如何替换部分字符，删除部分标点符号，系统都能通过相似度来进行判定，让抄袭者无所遁形。系统采用自研的ROST Similar算法实现高速相似性检测和度量。系统采用自研的QingQing算法提取信息指纹，在P3、512MBPC上，分词速度为13MB/S，已在互联网提供评测版供业内评测。 3．引文及参考文献去除，使得误判的可能性降至最低。 4．分块检测机制，将文章的每一文本块与其他文档的相似度都精确的表示出来了，每一文本块约为200字至400字不等，以红色表示极度相似（相似度大于80%），一目了然，清晰醒目。 5．相似文档模块跟踪技术，可以通过简单操作直接定位相似文档模块位置，直观明了。 6．方便的结果分析功能，自动分析文档相似结果，给出评价意见。 7．支持多种文件格式的文档，包括PDF、DOC、PPT、XLS、TXT等文档。（PDF文件需另行安装ROST文件格式识别引擎） 8．可将分析结果进行存盘为专有数据文件，不用反复查找浪费时间。 9．应用范围广泛：可用于抄袭鉴定、科技查新、专利查新、引用查询、转载查询等多个领域，也可用于追查文献的流传图，绘制文献的传播发布路线。可以为多类学术机构、文献机构以及个人服务。多年来，学术界的论文著作抄袭剽窃事件屡见不鲜，这是摆在我们面前的一个重大课题。目前多是靠偶然发现后，在书山文海中逐步查找，费力劳神，时效性差，工作量极大。为促进学术事业的健康发展，采用有效科学手段，发现和打击学术腐败，极有必要进行反剽窃和相似信息检测系统的研发和推广，提升刊物和出版单位的学术信誉，净化学术风气。目前国外已深刻认识到学术腐败对科技创新的危害性，也采取了切实有效的技术措施，对侵犯知识产权或违反学术道德的不端行为加以取证。而国内只有极少数专家从事反剽窃的技术与理论研究。武汉大学信息管理学院出版科学系推出的ROST反剽窃系统技术先进，功能实用，是守住学术道德底线的有效工具，能将用户的学术及经济风险降至最低。研发人员还先后发现了剽窃省力、格式遗留、剽窃趋同、剽窃蔓延、剽窃习惯固定、相关引文剽窃等六种现象，总结了论文剽窃的主要方式，连续推出了三个原型系统，发表了《System of twice-gathering information and Research of information fingerprint Hashtrie》、《The Research of Anti-plagiarism Monitoring System Model》、《Research on Anti-plagiarism System and the Law of Plagiarism》等6篇相关论文，申请了“基于计算机网络的防转载或/和反剽窃监控方法”（专利号：200610019074.5）、“能加快反剽窃或转载文档检测速度的方法”（专利号：200610166577.5已授权）两项相关专利。

对于这个题目，开始毫无头绪，后来经过查阅资料现在讲方法总结如下： 1、利用余弦定理我们知道向量a,b之间的夹角可用余弦定理求得：如果夹角的余弦值越小，那么夹角也越大。如果2个向量相等，那么其值为1。利用此我们可以用来比较文章的相似性。首先使用一个向量来描述一篇文章，对于一篇文章中的实词，我们可以计算出它们的单文本词汇频率/逆文本频率

Milvus向量数据库，目标只有一个:存储、索引和管理海量数据嵌入向量由深度神经网络和其他机器学习(ML)模型生成。作为一个专门为处理输入向量查询而设计的数据库，它能够索引万亿级的向量。与现有的主要按照预定义模式处理结构化数据的关系数据库不同，Milvus是自底向上设计的，用于处理从非结构化数据。随着互联网的发展，非结构化数据变得越来越普遍，包括电子邮件、论文、物联网传感器数据、脸书照片、蛋白质结构等等。为了让计算机理解和处理非结构化数据，使用嵌入技术将这些数据转换成矢量。Milvus存储并索引这些向量。Milvus能够通过计算相似性距离来分析两个向量之间的相关性。如果两个嵌入向量非常相似，这意味着原始数据源也很相似。通过课程可以学习到milvus向量数据库的安装部署，日常管理，备份恢复等基础操作；从而对向量数据库有一个基本的认识。

对于两个C语言的源程序清单，用哈希表的方法分别统计两个程序中使用C语言关键字的情况，并最终按定量的计算结果，得出两份源程序清单的相似性。以下程序参考网上部分代码，经过修改成功运行通过，分享给大家！ #include<iostream> #include<string.h> #include<fstream> #include<math.h> #in...

一、算法流程（1）使用TF-IDF算法，提取出两篇文章的关键词；（2）每篇文章各取出若干个关键词（比如20个），合并成一个集合，计算每篇文章对于这个集合中的词的词频（为了避免文章长度的差异，可以使用相对词频）；（3）生成两篇文章各自的词频向量；（4）计算两个向量的余弦相似度，值越大就表示越相似。 ...

图形处理/算法

19,468

社区成员

50,698

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章