mysql百万级别数据去重,现有方法效率很低求指教
自己写了个淘宝商品采集,每天能采集200W以上商品数据,无奈商品id(goods_id)重复率太高。
现在想保留商品重复数据id最低的一行,其余删除。
现有去重方法:
delete from 表名 where id not in (select minid from (select min(id) as minid from qiong_goods group by goods_id) b);
数据量几万的时候还行,超过200W的时候跑了一个多钟。
请大神指教。