4 千万数据查询

NLP爱好者 2011-05-28 02:25:24

我要从 4千万的的数据表中查询 2千万的数据，然后对这2千万的数据进行分组求和，然后排序，再取出前100的记录，有什么好办法，请高手赐教！！

其中查询过滤的字段collect_date是一个时间类型(其中需要的查询范围为：2011-05-01 到 2011-05-26)，我考虑在这个字段上建立的是位图索引，发现这个查询相当的慢啊！！！但是建立Btree索引，根本就不会使用索引，因为数据量太大了.

注意：查询出来经过分组求和，排序后，大概的数据量是4万条左右。请问，有什么更好的办法，客户说这个查询太慢了，我都无语了，这么大的数据量，查询不慢才怪，可是我已经黔驴技穷了！！！！

急~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

...全文

312 8 打赏收藏转发到动态举报

写回复

用AI写文章

8 条回复

切换为时间正序

请发表友善的回复…

发表回复

NLP爱好者 2011-06-04

打赏
举报

问题解决了，结果不是sql查询问题，也不是索引问题，而是内存、cpu、swap耗尽，有个服务进程关掉，就好了，查询最多两分钟就出来。

不过通过表抽样分析以后，查询更快了。

所以遇到oracle问题，首先需要查看系统资源，再看sql性能。

iqlife 2011-05-31

打赏
举报

如果只从SQL层面优化的话，
首先查看执行计划，看哪些查询造成的低效，
其次再想办法解决低效部分（例如加索引，强制HINT索引.....等）

wj539h 2011-05-31

打赏
举报

我也一样在等待呢！

lanlandetian 2011-05-31

打赏
举报

1楼说法没错啊，我们公司很多系统都是通过日结方式实现的。

仅实现分组排序功能将数据拆分成小段应该是没有影响的啊

NLP爱好者 2011-05-30

打赏
举报

怎么没有人回答呢！

NLP爱好者 2011-05-28

打赏
举报

请教，并行是什么个情况，不太明白，是并行查询么，还是并行处理。

这个表不是实时的，是一天往里插入一次数据。由于数据特点，不能做日结和小时结算，如果那样算，就会出现数据不准确。
如下：

加入今天有3个人来上班。
前天有5个人来上班。

那么这两天一共有多少人来上班？？因为可能两天又同一个人在其中，所以统计的时候，必须将对两天去重处理才能得到正确的结果。

所以想把数据分批插入到分区表中，然后查询分区表？但是不知道建立什么类型的分区表好，肯定不能以日期来建立，因为表中日期是4月1号到5月27号的数据。总共4千多万。查询就是
2011-05-01 到 2011-05-26号。
大家有什么建议啊！

deng8818 2011-05-28

打赏
举报

看来在作一个数据库设计时，就一定要有先见之明，对大表一定要预计，并坚决用partition table.

tangren 2011-05-28

打赏
举报

1、这种数据量的统计操作一般不要实时统计查询。如果这是一个频繁操作就是不合适的。
可以考虑采用是日结，小时结等方式，取决于要求数据统计的实时程度。

2、存放超过千万数据量的表，是要进行分区的；如果一次性对种数据量进行操作，
从数据的选择性来看，50%一般不合适使用索引的。全表扫描是较好的选择，
这时可以考虑采用并行。