203
社区成员




这个作业属于哪个课程 | 广工软件工程课程学习 |
---|---|
这个作业要求在哪里 | 个人项目作业-论文查重 |
这个作业的目标 | 1.完成论文查重系统的设计 2.学会使用psp进行个人项目开发管理 3.学习使用单元测试、项目分析工具对项目进行优化 4.使用github进行项目的开发管理 |
*PSP2.1* | *Personal Software Process Stages* | *预估耗时(分钟)* | *实际耗时(分钟)* |
---|---|---|---|
Planning | 计划 | 15 | 15 |
· Estimate | · 估计这个任务需要多少时间 | 15 | 15 |
Development | 开发 | 420 | 500 |
· Analysis | · 需求分析 (包括学习新技术) | 120 | 140 |
· Design Spec | · 生成设计文档 | 30 | 30 |
· Design Review | · 设计复审 | 30 | 30 |
· Coding Standard | · 代码规范 (为目前的开发制定合适的规范) | 30 | 30 |
· Design | · 具体设计 | 60 | 60 |
· Coding | · 具体编码 | 120 | 200 |
· Code Review | · 代码复审 | 15 | 15 |
· Test | · 测试(自我测试,修改代码,提交修改) | 15 | 15 |
Reporting | 报告 | 60 | 60 |
· Test Repor | · 测试报告 | 30 | 30 |
· Size Measurement | · 计算工作量 | 15 | 15 |
· Postmortem & Process Improvement Plan | · 事后总结, 并提出过程改进计划 | 15 | 15 |
· 合计 | 495 | 700 |
文本查重即通常使用的方法为余弦计算法,通过计算两个文本中词汇出现的次数,做向量求cos值,即可得到文本相似度的结果
运行情况如下两图所示
对于短文本的解读速度相当快,不到20秒就完成了,剩下的是sleep的线程
整个过程中使用最多的byte和char,因为程序中主要使用了向量法的,通过byte来做一维向量计算余弦值
测试文件不存在
测试文件内容为空