PHP文章相似度比较，通过similar_text()比较有点慢，可否有什么好效率？

码无边 2013-07-31 05:45:48

PHP文章相似度比较，通过similar_text()比较有点慢，可否有什么好效率？
如果通过将文章内容全部存入文本，遍历拿需要比较的文章内容，
通过similar_text()比较，这样的方法是否可行？

...全文

516 6 打赏收藏转发到动态举报

写回复

用AI写文章

6 条回复

切换为时间正序

请发表友善的回复…

发表回复

码无边 2013-08-01

打赏
举报

引用 4 楼 xuzuning 的回复:

你也可以用 exec 直接返回差异结果数组
exec("fc 1.txt 2.txt", $a);
print_r($a);
如果你有能力，还可以下载并编译 xdiff 扩展

这个就不知道怎么弄。

码无边 2013-07-31

打赏
举报

引用 4 楼 xuzuning 的回复:

你也可以用 exec 直接返回差异结果数组
exec("fc 1.txt 2.txt", $a);
print_r($a);
如果你有能力，还可以下载并编译 xdiff 扩展

引用 4 楼 xuzuning 的回复:

你也可以用 exec 直接返回差异结果数组
exec("fc 1.txt 2.txt", $a);
print_r($a);
如果你有能力，还可以下载并编译 xdiff 扩展

引用 4 楼 xuzuning 的回复:

你也可以用 exec 直接返回差异结果数组
exec("fc 1.txt 2.txt", $a);
print_r($a);
如果你有能力，还可以下载并编译 xdiff 扩展

引用 4 楼 xuzuning 的回复:

你也可以用 exec 直接返回差异结果数组
exec("fc 1.txt 2.txt", $a);
print_r($a);
如果你有能力，还可以下载并编译 xdiff 扩展

引用 4 楼 xuzuning 的回复:

你也可以用 exec 直接返回差异结果数组
exec("fc 1.txt 2.txt", $a);
print_r($a);
如果你有能力，还可以下载并编译 xdiff 扩展

如果我直接读取数据库表信息，遍历内容，与需要比较的文章内容比较，我又该怎么做呢？如果我先分词，在通过相似度比较，写算法什么的，是否可以？因为一旦数据库文章数据量大，靠数据库内容存入文本，再比较，会不会太慢？

xuzuning 2013-07-31

打赏
举报

你也可以用 exec 直接返回差异结果数组


exec("fc 1.txt 2.txt", $a);
print_r($a);

如果你有能力，还可以下载并编译 xdiff 扩展

xuzuning 2013-07-31

打赏
举报

比如（window）

system("fc 1.txt 2.txt > 3.txt");
readfile('3.txt');

linux 还有 wc 命令得到文件的行数

码无边 2013-07-31

打赏
举报

引用 1 楼 xuzuning 的回复:

可以用操作系统提供的文件差异命令 linux : diff window : fc 他们都是按行处理的，报告中行数越多，自然相似度越低

具体是怎么实现呢？

xuzuning 2013-07-31

打赏
举报

可以用操作系统提供的文件差异命令
linux : diff
window : fc
他们都是按行处理的，报告中行数越多，自然相似度越低

PHP文章相似度比较，通过similar_text()比较有点慢，可否有什么好效率？如果通过将文章内容全部存入文本，遍历拿需要比较的文章内容，通过similar_text()比较，这样的方法是否可行？回复讨论(解决方案)本帖最后由 xuzuning 于 2013-07-31 17:54:18 编辑可以用操作系统提供的文件差异命令linux : diffwindow : fc他们都是按行处理的，报...

文章内容相似度计算几种方式及优缺点PHP 内置方法 similar_textsimilar_text 是PHP内置的字符串相似度对比函数，是使用方式最便捷的一种,但是因为它的时间复杂度是 O(N**3)，处理时间会随着内容长度增加,若比较5000字以上的文章，或者比较文章的量级比较大不建议使用,只是单篇文章对单篇文章可以使用。通过分词进行余弦相似度对比解决方案是首先进行文章分词可以用结巴或者迅搜分...

Php比较字符串相似度函数的利用
之所以写这篇文章，是因为我前几天在用Joomla来发的时候用了一个DataFeed组件，改组件很强大，但是客户要求能够输出feed过来的相关产品，这郁闷了，组件没有这个功能，实在没辙，就自己写方法，修改组件，起初写的方法都能够实现，但是效率低下，响应速度慢，这可郁闷了，于是在网上搜索“php 字符串相似度”，还真有，看来基础还是不扎实啊，具体如下：
similar_text() 函数计算两个字符串的匹配字符的数目，也可以计算两个字符串的相似度（以百分比计

基础编程

21,889

社区成员

140,333

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章