文本相似检测的阈值怎么确定？

handao12345 2017-10-23 12:06:05

如题，如何确定文档相似度的阈值？
怎样有科学依据？

...全文

1125 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

ckc 2017-10-23

打赏
举报

回复

这种没有固定标准的不同的应用场景情况是不一样的一般要经过大量的数据，或者在生产中根据运行结果调整

rightorwrong 2017-10-23

打赏
举报

回复

这方面不熟悉

在研究目前文档复制检测技术的基础上，对比基于字符串比较和基于词频统计的两类方法，确定基本的检测方案：进而设计合适的文档存储和对比策略，实现在较大规模的文档库中快速查找相似度达到一定阈值的文档。（1）基于字符串比较方法的研究：以Sif工具的方法为基础，实现基于字符串比较的相似文本检测；（2）基于词频统计的方法的研究：以SCAM方法为基础，实现基于词频统计的文本查重检测，并与方法（1）进行对比，分析两者的优缺点，选择其中一种作为后续研究的基本查重方法（3）研究大规模文档的存储策略和相似文本查找策略，实现一个有一定实用价值的文本复制检测系统。

基于给定文本，搜索给定目录下的图片、视频文件，找到相近的图片或视频片段。进而即将检索到的视频片段或图片，裁剪成视频。视频片段&图片检索：当指定目录时，加载指定目录视频|图片，并在此目录下进行素材检索；如果未指定视频|图片目录，则在向量库中执行全文检索。视频剪辑：文本（脚本）与视频相关度较低时（threshold<0.5），检索不到视频。可以尝试降低相关度阈值，或者提供更多相关性视频素材。文本（脚本）与图片，未作相关度阈值检测，简单返回top-N。当与文本匹配的视频片段或者图片不足时，系统使用空白（黑色）背景作为填充帧,补足时长。可以调整输出视频分辨率&帧率，默认分辨率为1080P（1920x1080，16：9），30fps 支持bert 模型、cn_clip 模型、voc 模型

java雷电飞机源码程序代码相似度检测方法研究及应用项目申报的基本思路与目的根据程序语言的特性，实现一个程序代码相似度检测的软件系统，可以计算对同一个程序设计题目，每个学生提交的代码与其它学生的代码相似度，达到阀值以上即判定为抄袭。使用该系统，可以有效地防止学生抄袭他人的代码，减轻教师人工判定的劳动强度。程序的相似度检测与一般文本的相似度检测不同的是：文本主要检测在一段文字范围内文本的重复数目，而学生所书写的代码都较为简单，编程语言的关键字和系统函数名、系统提供的类库中的类名占相当大的比例，而这些不应当做为相似度检测的依据，而应当从程序本身的特征入手。程序的源代码可以视为视为一种连续的标记串（Token String）。通过比较标记串获取相似程度的信息。对学生提交的电子档程序，两两之间进行雷同检测，最终给出相似度计算结果，再根据给定的阈值判定雷同程序是否为抄袭。项目的科学性、先进性及独特之处针对程序源代码的特殊性，本项目主要从以下角度入手：分析一般的学生代码抄袭手法，找出最合适的样本，做为将来分析和检验的依据。提取程序源代码的结构特征，将程序按照关键字序列、自定义变量

Simhash 是一种用于计算文本相似性的算法，它能够将文本数据转换成一个固定长度的哈希值，并通过比较哈希值的汉明距离来判断文本之间的相似程度。接下来，我们遍历每个词语，计算其哈希值，并将哈希值与权重相乘后相加，得到文本的 Simhash 值。哈希压缩：对 Simhash 值进行位压缩，即将每个位的值大于等于阈值的设置为 1，小于阈值的设置为 0。特征提取：对于每个词语，计算它的哈希值（可以使用任意的哈希函数），并将每个词语的哈希值与一个权重相乘后相加，得到文本的 Simhash 值。

上图中，蓝色的路径表示传统的基于分割的文本检测，完整流程包括得到分割概率图，使用阈值二值化，然后通过像素聚类等手段得到最终的文本检测结果，红色路径是作者提出的新的方法，同时输出分割概率图和进行二值化使用的阈值图，之后。阅读源码可以发现，与上图中描述不同，训练阶段的二值化结果是通过可微分的二值化操作得到的，预测阶段的二值化结果仍然使用的是固定阈值来计算的。上图中(a)原图，(b)是分割结果的概率图，©是无监督得到的阈值图，(d)是有监督训练得到的阈值图。运算中得到近似二值图，对二值图处理得到文本区域。

Google技术社区

6,721

社区成员

3,234

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章