MYSQL中一个表有8000W（8千万级）的数据，打算对一个URL字段去重，有什么快的方法，高手进！

tgc99 2013-08-30 03:19:33

MYSQL中一个表有8000W（8千万级）的数据，打算对一个URL字段去重，要求保留重复数据中的最大ID的一条。

...全文

442 8 打赏收藏转发到动态举报

写回复

8 条回复

切换为时间正序

请发表友善的回复…

发表回复

代码誊写工 2013-09-02

打赏
举报

回复

在应用程序中对该表自制两个以上hash索引（不同hash算法）列，用两个64位整数，如果任意两行的这两个列的值都相同，基本就说明是重复的，对于等值比较hash的优势非常大。

ACMAIN_CHM 2013-08-30

打赏
举报

回复

快的方法还是导出数据，然后在EXCEL或者其它工具中直接去重，然后再导入。

yumenfeiyu945 2013-08-30

打赏
举报

回复

select * from ( select * from table order by id desc) t group by url 直接排序后group by，取的就是每组第一条数据，也就是id最大值的那条

rucypli 2013-08-30

打赏
举报

回复

引用 3 楼 tgc99 的回复:

[quote=引用 2 楼 rucypli 的回复:] [quote=引用楼主 tgc99 的回复:] MYSQL中一个表有8000W（8千万级）的数据，打算对一个URL字段去重，要求保留重复数据中的最大ID的一条。

没什么快的方法 select出来结果集放入一新表删掉旧表然后rename select * from tb A where not extsts (select 1 from tb where A.url=url and A.id<id);[/quote] URL字段当时忘记作索引了，这个select 应该会非常慢吧？？主要还想统计出哪些是重复的[/quote] 单纯统计哪些重复的url可以 select url from tb group by url having count(*)>1 当然要加所以才能快

rucypli 2013-08-30

打赏
举报

回复

对的没有索引这样的查询会非常慢

tgc99 2013-08-30

打赏
举报

回复

引用 2 楼 rucypli 的回复:

[quote=引用楼主 tgc99 的回复:] MYSQL中一个表有8000W（8千万级）的数据，打算对一个URL字段去重，要求保留重复数据中的最大ID的一条。

没什么快的方法 select出来结果集放入一新表删掉旧表然后rename select * from tb A where not extsts (select 1 from tb where A.url=url and A.id<id);[/quote] URL字段当时忘记作索引了，这个select 应该会非常慢吧？？主要还想统计出哪些是重复的

rucypli 2013-08-30

打赏
举报

回复

引用楼主 tgc99 的回复:

MYSQL中一个表有8000W（8千万级）的数据，打算对一个URL字段去重，要求保留重复数据中的最大ID的一条。

没什么快的方法 select出来结果集放入一新表删掉旧表然后rename select * from tb A where not extsts (select 1 from tb where A.url=url and A.id<id);

超超狗狗 2013-08-30

打赏
举报

回复

select xx,xxx,max(id) from aaa group by url

高效精准的掌握增删改查语句，字段控制查询，多表联查，子查询等高级操作，为开发打下夯实基础，准确通过MySQL面试必问知识。教学服务：实战驱动远程协助课后答疑教辅资料学习群答疑面试指导讲师介绍： ...

简介 mysql是一种关系型数据库。 ...一个数据库是一个完整的业务单元，可以包含多张表，数据被存储在表中。在表中为了更加准确的存储数据，保证数据正确有效，可以在建表的时候为表添加一些......

Clickhouse数据库在单机和集群中增加、删除、修改字段，批量复制表数据，常规的增删改查操作，ReplacingMergeTree、SummingMergeTree数据一致性。

一起进阶学习JAVA：MySQL海量数据存储与优化第一部分分库分表实战及中间件1.1 背景介绍1.1.1 背景描述刚开始我们的系统只用了单机数据库随着用户的不断增多，考虑到系统的高可用和越来越多的用户请求，我们开始...

2，因为现在是一个大数据时代，而数据库的作用是整个软件行业不可缺少的部分，在大数据时代，我们需要一个存取数据的地方，就算没有数据库也会有一个变量来存储数据，或者是另一个与数据库类似的会被创建出来，所以...

56,677

社区成员

56,708

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章