千万级数据查询索引问题

KeepMoving 2016-11-22 10:00:21

各位大神好，我现在遇到一个问题：一个表里的数据量为6000万，表中DeviceToken字段因历史原因可能会出现重复（重复量几十条），我现在想查出重复的DeviceToken所在的行，并删除掉，但执行速度特别慢，我看了下查询计划（不是很懂这个），发现开销主要集中在排序上，而且索引走的是Index Scan，不知道该怎么来优化，还请大神指点一下。谢谢了。
表结构级索引

执行计划

DeviceToken,DeviceId,CityId已经建立了索引

...全文

379 7 打赏收藏转发到动态举报

写回复

用AI写文章

7 条回复

切换为时间正序

请发表友善的回复…

发表回复

gw6328 2016-11-24

打赏
举报

这个是全表里面去查，所以这里谈不上索引不索引的，因为都要查一遍。可以用你那个号把数据分成几段来处理，加上手工记录。如果能查出来，你就一次性查出来处理即可。

KeepMoving 2016-11-22

打赏
举报

好的，我先查查看，谢谢@中国风

中国风 2016-11-22

打赏
举报

那是查出来有重复的TOKEN,查一下你的索引是否有碎片，百分比过大要经常重建或整理维护你的数据量过量放在单表影响性能是一定会存在的，可以的情况下尝试用分区表或分区索引去处理

KeepMoving 2016-11-22

打赏
举报

谢谢@roy_88的回答，可以我执行了下，30秒还是未返回结果，我只是查了下Top100的

中国风 2016-11-22

打赏
举报

只保留下最新一条记录时，把你的语句直接改为DELETE测测性能 e.g.


DELETE  t
FROM    ( SELECT    * ,
                    ROW_NUMBER() OVER ( PARTITION BY DeviceToken ORDER BY did DESC ) AS RN
          FROM      push_device
        ) AS t
WHERE   t.RN > 1;

中国风 2016-11-22

打赏
举报

--DeviceToken

SELECT DeviceToken FROM push_device WITH(NOLOCK) GROUP BY DeviceToken HAVING COUNT(*)>1

中国风 2016-11-22

打赏
举报

SELECT did FROM push_device WITH(NOLOCK) GROUP BY did HAVING COUNT(*)>1

（一）索引的作用索引通俗来讲就相当于书的目录，当我们根据条件查询的时候，没有索引，便需要全表扫描，数据量少还可以，一旦数据量超过百万甚至千万，一条查询sql执行往往需要几十秒甚至更多，5秒以上就已经让人难以忍受了。提升查询速度的方向一是提升硬件(内存、cpu、硬盘)，二是在软件上优化（加索引、优化sql；优化sql不在本文阐述范围之内）。能在软件上解决的，就不在硬件上解决，毕竟硬件提升...

一、索引的作用索引通俗来讲就相当于书的目录，当我们根据条件查询的时候，没有索引，便需要全表扫描，数据量少还可以，一旦数据量超过百万甚至千万，一条查询sql执行往往需要几十秒甚至更多，5秒以上就已经让人难以忍受了。提升查询速度的方向一是提升硬件(内存、cpu、硬盘)，二是在软件上优化(加索引、优化sql；优化sql不在本文阐述范围之内)。能在软件上解决的，就不在硬件上解决，毕竟硬件提升代码昂贵，性价...

虑单个 MySQL 表包含数千万条记录的场景，表设计很差，业务规则不允许将 SQL 查询拆分为多个子查询，在这种情况下，开发人员可以尝试通过优化 SQL 来实现他们的查询目标。（3）使用聚集索引但所需列不在索引中：在具有聚集索引的表中，如果所需列不在聚集索引中，则 MySQL 需要在主表中查找这些列。（5）range：表示查询使用索引进行范围扫描，常见于具有范围条件的查询，例如，，，，BETWEEN等。（1）非覆盖索引查询：当查询需要返回索引中未包含的额外列时，MySQL 需要在主表中查找这些额外的列。

千万级数据库使用索引查询速度更慢的疑惑-数据回表问题

使用场景：公司接到一个需求，需要查询ES索引A中所有数据，并根据查询到的数据中的某个字段再去查询另外一个索引B，整合并获取最终需要的数据，再生成excel、上传oss等等。其中索引A和索引B中都存储了千万条数据，之前的同事是用单线程写的，查询索引A使用的是limit、from深层分页，最终数据生成大概需要…不知道需要多久，可能一个月也生成不出来，后来这个需求就落在了我这里。在做这个需求之前我从未使用过ES，对线程池也是一知半解。我想到了使用线程池会提高处理速度，经过了一番研究，终于将处理速度从4分钟处理

应用实例

27,580

社区成员

68,545

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章