社区
Web 开发
帖子详情
【求助】和数据查重有关。
hllf6031
2011-03-02 09:59:49
关于物料管理的系统,由于物料没有唯一性的标识,所以客户设置了20多个字段来描述物料。
因此,为了避免数据冗余,客户要求在数据导入以及录入,要根据20多个字段计算表内是否有和输入的信息相似度较高的数据,有的话则提示用户,要求其确认是否同一物资。
如果是的话,则只进行数量上的累计,不产生新的一条物料信息;如果不是,则产生一条新的物料信息。
应该怎么做,如何计算相似度?
...全文
150
11
打赏
收藏
【求助】和数据查重有关。
关于物料管理的系统,由于物料没有唯一性的标识,所以客户设置了20多个字段来描述物料。 因此,为了避免数据冗余,客户要求在数据导入以及录入,要根据20多个字段计算表内是否有和输入的信息相似度较高的数据,有的话则提示用户,要求其确认是否同一物资。 如果是的话,则只进行数量上的累计,不产生新的一条物料信息;如果不是,则产生一条新的物料信息。 应该怎么做,如何计算相似度?
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
11 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
lcaminy
2012-02-02
打赏
举报
回复
数据多了逐个字段会很慢很慢很慢,哎。
jackey_ctdw
2011-03-04
打赏
举报
回复
搞个标示列吧
hllf6031
2011-03-04
打赏
举报
回复
不能是like,这么多字段,再使用like的话就无法做了。
想了个办法。
数据总共有26个属性字段,必填字段6个。这6个字段属于管理层关心的属性,其他字段根据不同的部门而尤其规定是否为必填。只能把所有的必填字段(比如10个)进行比对,发现数据库内有某条数据和输入的数据的必填项一摸一样就判定为同一物料。然后逐次减少比对的字段(如:9,8,7。。。)进行计算,然后提取出出现率较高的数据,由用户自己判定。
这么做如何?
血战31天
2011-03-02
打赏
举报
回复
还是搞个唯一标识吧 至少后台搞一个
handong890
2011-03-02
打赏
举报
回复
meger into ?
zhuming12345
2011-03-02
打赏
举报
回复
[Quote=引用 2 楼 wp500 的回复:]
哎。。。。叹息一声。不好弄啊。
重新分析一下,哪几个属性可以确定一条记录。这些属性就是联合主键。然后再根据主键来判断吧。最好再加一个字段来生成主键
[/Quote]
赞同!
strike2368168
2011-03-02
打赏
举报
回复
估计挺麻烦。
可以建一个对比表,将每个属性的不同项目存入其中,排个相似度顺序什么的。
完了再写算法进行比对,得出相似度。
G_beginner
2011-03-02
打赏
举报
回复
LZ也许可以用余弦算法来试试,在推荐领域用来计算相似度的
王铎开
2011-03-02
打赏
举报
回复
要相似到什么程度。 like%%嘛。
wp500
2011-03-02
打赏
举报
回复
哎。。。。叹息一声。不好弄啊。
重新分析一下,哪几个属性可以确定一条记录。这些属性就是联合主键。然后再根据主键来判断吧。最好再加一个字段来生成主键
a312983516
2011-03-02
打赏
举报
回复
不好弄 麻烦死
LZ节哀
华为开发者大赛云计算专场
1.华为企业云API使用讲解 该课程介绍如何通过华为企业云API进行二次开发,并选取一个实战案例。后把遇到问题的
求助
渠道介绍给大家。
Lucene 问题
求助
海量
数据
动态插入
数据
库 生成索引并检索
现在在做一个海量网页爬取的项目,主要业务是,爬取之后要
查重
评分,我们有两个库,一个静态库一个动态库,两个
数据
库都要
查重
,评分后在一定分值内的
数据
就保存到动态库,动态库的
数据
,每周一次更新到静态库, 静态库的
查重
已经完成,问题是动态库的
数据
如何
查重
?难道要每插入一条
数据
就添加一条索引?这样的逻辑对么?因为要爬去5千多个网页(甚至更多),担心不停地添加插入
数据
到动态库,并索引会浪费资源,求大神帮忙,
毕业论文html代码
查重
吗,「毕业之家」“抄”一篇毕业论文,会被学校
查重
出来吗?...
大家好,我是毕业之家小毕同学。后续会持续为大家更新毕业论文写作、修改、降重,记得关注哟。毕业论文一直是毕业生的“老大难”。尤其是本科生,其实在大学四年的培养计划里真正涉及到论文写作的非常少。有很多童鞋因为论文问题,或多或少地出现焦虑、失眠等问题。很多童鞋不由地向别人
求助
:如果自己“抄一篇文章,会被学校查出来吗?”。对于这个问题,网络上褒贬不一。一、如果从头到尾直接复制一篇论文,那是绝对不可能的!连...
BUAA
数据
结构大作业2023
BUAA
数据
结构大作业2023
基于Python小区疫情防控系统社区任务发布
求助
网站django框架项目实战爬虫
数据
可视化大屏源码
网站介绍:✌本网站专注专注于计算机技术领域的毕业设计辅导,提供JAVA、微信小程序、Python、APP、PHP、微服务、NET等毕设项目的定制和成品服务!✌✌IT实战营站长,拥有10年软件相关系统架构及教学经验,Java、大
数据
培训讲师,曾任公司技术总监;其与团队成员,陆续录制了一系列计算机毕业设计项目课程,可供大家学习参考,现公司全新升级提供专业售后团队与技术交流群!✌🍅文末获取联系🍅一、项目介绍。
Web 开发
81,094
社区成员
341,711
社区内容
发帖
与我相关
我的任务
Web 开发
Java Web 开发
复制链接
扫一扫
分享
社区描述
Java Web 开发
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章