一千万条数据去重复数据 保留一条

阿里帽子 2020-09-13 12:30:58
表A
id T ci

1 我是谁 XXXX
2 我是谁 XXX
3 你是谁 XXXXX
4 你是谁 XXXX
5 我在 XXX
6 我在 XXXX


表数据结构是以上的
大概1000万条

求一个方法 或者 直接一条SQL 能直接删掉 T 这个字段相同的的数据 只保留一条 变成

1 我是谁 XXXX
3 你是谁 XXXXX
5 我在 XXXX


有简单的方法吗 额 效率不需要追求那么好。。反正服务器里面挂着。。。不死机就行

...全文
4403 13 打赏 收藏 转发到动态 举报
写回复
用AI写文章
13 条回复
切换为时间正序
请发表友善的回复…
发表回复
syeerzy 2020-11-09
  • 打赏
  • 举报
回复
T重复的保留第一条: DELETE FROM A WHERE id NOT IN (SELECT MIN(id) FROM A GROUP BY T); T重复的保留最后一条: DELETE FROM A WHERE id NOT IN (SELECT MAX(id) FROM A GROUP BY T);
一叶知秋~ 2020-11-09
  • 打赏
  • 举报
回复
SELECT * from tb_class where classname in (SELECT name from tb_class GROUP BY name HAVING COUNT(name )>1) and id NOT in (SELECT min(id) from tb_class GROUP BY name HAVING count(name )>1)
八爻老骥 2020-10-30
  • 打赏
  • 举报
回复
count+group by
大于剔出来,再查询后删除。
weixin_46007939 2020-10-30
  • 打赏
  • 举报
回复
你是根据自动T 还是字段T和ci
筑梦ing 2020-09-15
  • 打赏
  • 举报
回复
不考虑效率的话,用触发器挺方便啊
正怒月神 版主 2020-09-14
  • 打赏
  • 举报
回复
另外,我不建议直接删除数据, 你最多作为数据过滤,但是没有特别的情况,最好不要delete原数据。
正怒月神 版主 2020-09-14
  • 打赏
  • 举报
回复
按照上面job的说法。 其实原理上es也在帮你做这个事情。 无非你把存入另一个表的事情,存入了es里面。 不过es中通过词法分析,帮你使用了反向索引的方式存储数据。
正怒月神 版主 2020-09-14
  • 打赏
  • 举报
回复
如果你不会es,感觉太复杂。 那么,我只能建议你,后台跑个job。 然后每天帮你整理数据,放到一个新表。
柚子- 2020-09-14
  • 打赏
  • 举报
回复
DELETE FROM text WHERE id NOT IN (SELECT dt.mins_id FROM (SELECT MIN(id) AS mins_id FROM text GROUP BY text) dt); 这个很好用,前几天找的,需求和你一样
wanghui0380 2020-09-13
  • 打赏
  • 举报
回复
docker下安装es https://www.cnblogs.com/powerbear/p/11298135.html
wanghui0380 2020-09-13
  • 打赏
  • 举报
回复
引用 2 楼 阿里帽子 的回复:
没有搭建教程么 没接触过这个 看了百度 是不是要先配置JAVA环境
开发其实只用docker就好,安装docker然后在docker上安装人家已经搭建好的镜像就成,我们只用镜像开发,至于部署,运维另外的人专门弄。 所以,我前贴也说了,这种东西最好不要让程序员介入,应该让产品经理和技术经理介入。 产品如何定位,怎么设计目标节点,怎么设立里程碑让产品干 用什么,怎么用,怎么搭,技术经理上。 程序员把产品和技术经理,运维活都干了,吃力还不讨好。毕竟屁股决定脑袋,不在那个位置上,考虑的事情不一样,没办法代入的
阿里帽子 2020-09-13
  • 打赏
  • 举报
回复
没有搭建教程么 没接触过这个 看了百度 是不是要先配置JAVA环境
wanghui0380 2020-09-13
  • 打赏
  • 举报
回复
这就是上个帖子告诉你直接上es的原因。 既然接触这些东西,早上晚上你都得上es。相反你自己从头玩Nlp,我们并不建议。毕竟Nlp可是号称“人工智能皇冠上得明珠”,自己研究研究可以,做项目我们不推荐,这颗明珠不是谁想摘就可以摘的 我们来看es怎么弄 https://blog.csdn.net/truenaruto/article/details/81120196 先上es把东西弄了,然后再摘明珠去。别说es不是技术,别说弄了es了,以后NLP就废了。就算你以后要NLP,es都是基础设施废不了滴。

62,073

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术交流专区
javascript云原生 企业社区
社区管理员
  • ASP.NET
  • .Net开发者社区
  • R小R
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

.NET 社区是一个围绕开源 .NET 的开放、热情、创新、包容的技术社区。社区致力于为广大 .NET 爱好者提供一个良好的知识共享、协同互助的 .NET 技术交流环境。我们尊重不同意见,支持健康理性的辩论和互动,反对歧视和攻击。

希望和大家一起共同营造一个活跃、友好的社区氛围。

试试用AI创作助手写篇文章吧