mysql百万级别数据去重，现有方法效率很低求指教

oqqNick85557692 2017-02-23 06:39:35

自己写了个淘宝商品采集，每天能采集200W以上商品数据，无奈商品id（goods_id）重复率太高。

现在想保留商品重复数据id最低的一行，其余删除。

现有去重方法：
delete from 表名 where id not in (select minid from (select min(id) as minid from qiong_goods group by goods_id) b);

数据量几万的时候还行，超过200W的时候跑了一个多钟。

请大神指教。

...全文

1084 7 打赏收藏转发到动态举报

写回复

7 条回复

切换为时间正序

请发表友善的回复…

发表回复

ACMAIN_CHM 2017-02-25

打赏
举报

回复

建议分批用程序一条一条删除。

LongRui888 2017-02-24

打赏
举报

回复

看你重复的数据量有多大，如果是一大半都是重复的，建议这样操作：创建一个结构一样的表，然后把源表中不重复的数据，插入到这个新的表，然后把源表重命名，然后把新表改成源表名。如果重复只是少量，建议写一个存储过程，把所有有重复的要删除的id，放到一个表里，然后开始循环遍历这个表，每次可以删除1000条数据，这么删除肯定能快不少

rucypli 2017-02-24

打赏
举报

回复

先用distinct出来需要保留或者要删除的id 然后通过id删除删除完成以后在goodid上加上唯一索引即可避免重复

zjcxc 2017-02-24

打赏
举报

回复

另外，你写的删除是一个事务中的操作，数据量大会导致事务开销很大，这个也会影响性能的，分批删除往往更有效率

zjcxc 2017-02-24

打赏
举报

回复

id 是主键么？goods_id 上有索引么？

二月十六 2017-02-24

打赏
举报

回复

试试这样行不，没测试，删除需谨慎
delete from 表名 where
(select COUNT(minid) from
(select min(id) as minid
from qiong_goods group by goods_id) b where minid = id)=0

二月十六 2017-02-24

打赏
举报

回复

http://blog.csdn.net/d_x_program/article/details/8593734

为什么使用unionall因为union操作会对结果去重且排序，所以从速度来说，unionall会更胜一筹。

前提网上大部分python实现的布隆过滤器库如：pybloomfilter、pybloom 但都是基于py2且哈希函数用的都是sha1类、md5类，效率不如mmh3.所以决定自己实现， git地址：https://github.com/Sssmeb/BloomFilter 第一次自己实现库求星星！！也欢迎讨论、指教！！ Bloom Filter（布隆过滤器）布隆过滤器是一种多哈希函数映射的...

（三）MySQL数据类型和运算符一、MySQL数据类型介绍 1.数据类型简介（1）数据表由多列字段构成，每一个字段指定了不同的数据类型，指定了数据类型之后，也就决定了向字段插入的数据内容（2）不同的数据类型也决定了MySQL在存储它们的时候使用的方式，以及在使用它们的时候选择什么运算符号进行运算（3）数值数据类型：TINYINT、SMALINT、MEDIUMINT、INT、BIGINT、FLOAT、DOUBLE、DECIMAL （4）日期/时间类型：YEAR 、TIME、 DATE、 DATETIM

工作需要，笔记之用。文章很长，倒一杯茶慢慢看。数据库的应用场景颇多，如数据库双机同步，一主多从，多主多从，多主一从等；下文记录多主一从的配置及测试。大多数复制场景中是一主或者一主多从。这种拓扑用于高可用性场景，读写分离。主机负责写入数据，丛集负责读数据，横向扩展读取程序。但是，多主一从是写入多个数据库实例，最后合并成一个结果。多主一从使得从机从各主机同步接收业务信息（trans...

MySQL复习问题总结1.数据库基础2.数据库事务3.数据库索引4.数据库优化5.SQL实战 1.数据库基础 ①什么是数据库三范式？范式：数据库遵循的规范，各种范式呈递次规范，范式越高数据库冗余越小。第一范式：确保每一列的的原子性（每一列的数据都不可再分）；第二范式：非关键字段必须依赖关键字段（一旦主键确定，其他非主键跟着被确定），要求每个表只描述一件事；第三范式：非关键字段都不依赖其他非...

57,063

社区成员

56,762

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章