文本相似检测的阈值怎么确定?

handao12345 2017-10-23 12:06:05
如题,如何确定文档相似度的阈值?
怎样有科学依据?
...全文
1125 2 打赏 收藏 转发到动态 举报
写回复
用AI写文章
2 条回复
切换为时间正序
请发表友善的回复…
发表回复
ckc 2017-10-23
  • 打赏
  • 举报
回复
这种没有固定标准的 不同的应用场景情况是不一样的 一般要经过大量的数据,或者在生产中根据运行结果调整
rightorwrong 2017-10-23
  • 打赏
  • 举报
回复
这方面不熟悉
java雷电飞机源码 程序代码相似检测方法研究及应用 项目申报的基本思路与目的 根据程序语言的特性,实现一个程序代码相似检测的软件系统,可以计算对同一个程序设计题目,每个学生提交的代码与其它学生的代码相似度,达到阀值以上即判定为抄袭。使用该系统,可以有效地防止学生抄袭他人的代码,减轻教师人工判定的劳动强度。 程序的相似检测与一般文本相似检测不同的是:文本主要检测在一段文字范围内文本的重复数目,而学生所书写的代码都较为简单,编程语言的关键字和系统函数名、系统提供的类库中的类名占相当大的比例,而这些不应当做为相似检测的依据,而应当从程序本身的特征入手。 程序的源代码可以视为视为一种连续的标记串(Token String)。通过比较标记串获取相似程度的信息。对学生提交的电子档程序,两两之间进行雷同检测,最终给出相似度计算结果,再根据给定的阈值判定雷同程序是否为抄袭。 项目的科学性、先进性及独特之处 针对程序源代码的特殊性,本项目主要从以下角度入手: 分析一般的学生代码抄袭手法,找出最合适的样本,做为将来分析和检验的依据。 提取程序源代码的结构特征,将程序按照关键字序列、自定义变量

6,721

社区成员

发帖
与我相关
我的任务
社区描述
专题开发/技术/项目 Google技术社区
社区管理员
  • Google技术社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧