postgresql 大数据量检索效率问题

kbryant 2009-10-30 09:52:37

现在我有下面这段sql文

SELECT to_char(timegenerated,'YYYY-MM-DD') as timeStr，type as type,count(*) AS num
FROM table1
WHERE
createdate > '某时间'
GROUP BY timeStr,type

现在我table1表里有1000w条数据，执行这段sql文时速度比较慢，怎么优化下，主要是sql文里用到了函数to_char，还有GROUP BY 什么的，影响了速度，有人说先全件检索出来，只是order by一下，然后在后台java代码里去做to_char和group by 的工作，相当于把sql文的工作拿到后台去做，这样效率会比现在的高吗？全部拿出来1000w条哦，后台要循环1000w遍遍历结果集处理我觉得也不会快啊。。。望高人指教

...全文

1674 14 打赏收藏转发到动态举报

写回复

用AI写文章

14 条回复

切换为时间正序

请发表友善的回复…

发表回复

kangde 2009-11-01

打赏
举报

学习了

ACMAIN_CHM 2009-10-30

打赏
举报

建立基于 (createdate,timegenerated) 的复合索引。但效果不会太大。因为你用到了函数 to_char

WWWWA 2009-10-30

打赏
举报

在postgresql中有无类似MYSQL　EXPLAIN的命令，检查在地方执行速度慢

kbryant 2009-10-30

打赏
举报

CREATE INDEX createdate_cindex ON table1(createdate)

就这样建立索引就可以了？好像检索起来还是很慢阿

ACMAIN_CHM 2009-10-30

打赏
举报

根据11 楼的提示，创建基于表达式的索引！

CREATE INDEX xxxxx ON table1 (createdate, to_char(timegenerated,'YYYY-MM-DD'));
或者
CREATE INDEX yyyyy ON table1 (to_char(timegenerated,'YYYY-MM-DD'),createdate);

ACMAIN_CHM 2009-10-30

打赏
举报

同意楼上，及楼上的楼上

其实有些数据仓库的概念进来了。

WWWWA 2009-10-30

打赏
举报

在createdate上建立索引，这样试试
SELECT timeStr，type as type,count(*) AS num from (
SELECT *,to_char(timegenerated,'YYYY-MM-DD') as timeStr FROM table1 WHERE
createdate > '某时间' ) a
GROUP BY timeStr,type

trainee 2009-10-30

打赏
举报

同意楼上的.
用于网站的数据库设计，要多点沉余。

另：postgresql可以建立表达式索引
to_char(timegenerated,'YYYY-MM-DD')

vinsonshen 2009-10-30

打赏
举报

列createdate要建立索引，从你上面的处理需求来看，这个是不可避免的了

vinsonshen 2009-10-30

打赏
举报

有人说先全件检索出来，只是order by一下，然后在后台java代码里去做to_char和group by 的工作，相当于把sql文的工作拿到后台去做

---------------
这个是不可取的
因为那么多的数据传回客户端，这就是个大问题了

wwwwb 2009-10-30

打赏
举报

OR
在生成NEWTT后，在timeStr,type上建立索引再分组

WWWWA 2009-10-30

打赏
举报

你的索引情况，在createdate上建立索引试试
SELECT to_char(timegenerated,'YYYY-MM-DD') as timeStr，type as type AS num into newtt
FROM table1 WHERE createdate > '某时间'

select timeStr，type as type,count(*) AS num from newtt GROUP BY timeStr,type
这样试试

vinsonshen 2009-10-30

打赏
举报

[Quote=引用 6 楼 kbryant 的回复:]
CREATE INDEX createdate_cindex ON table1(createdate)

就这样建立索引就可以了？好像检索起来还是很慢阿

[/Quote]

像这样的统计需求，表数据有点多，从你语句上来说，索引上优化也只能这个程度了
其实，我觉得应该在表设计上进行优化，根据数据量设计一个“最近明细数据表”，然后每天将前一天的数据进行汇总统计，然后将统计结果放进一个“汇总数据表”，统计完后，马上将前一天的明细数据备份进“历史明细表”，然后“最近明细数据表”对应天的数据清理掉。
这样，像你上面的统计需求，只需要对“汇总数据表”进行统计就可以了(速度会快很多)。

vinsonshen 2009-10-30

打赏
举报

[Quote=引用 6 楼 kbryant 的回复:]
CREATE INDEX createdate_cindex ON table1(createdate)

就这样建立索引就可以了？好像检索起来还是很慢阿

[/Quote]
估计是
“SELECT count(*) FROM table1 WHERE createdate > '某时间' ”
符合的记录数太多了，这样读取的IO量当然也大，自然就慢了

不信你可以把'某时间'的范围指定为尽量的短测试下（如> '昨天')

本文总结了 PostgreSQL 数据分页技术的概述，介绍了在大数据量时如何高效地使用模糊查询和数据分页浏览，并根据后台设计降低用户界面的使用复杂程度。一、数据分页浏览技术数据分页浏览技术是开发中基本都会用到...

在当今的信息时代，数据检索的效率和准确度对于各种应用系统而言至关重要，尤其是在处理大量中文文本数据时。本项目“基于Django和PostgreSQL的中文全文检索zhparser设计源码”正是为了解决这一需求而设计开发的。...

知识点六：执行SQL语句进行数据检索在QGIS中，可以通过执行SQL语句窗口来运行PostgreSQL的SQL命令，实现对空间数据库的复杂查询和数据操作。例如，上述提供的SQL语句通过空间关系函数st_contains和where条件，实现...

如果可能，尽量避免在查询条件中使用模糊查询，尤其是在高并发、大数据量的场景下。可以考虑提前对数据进行预处理，例如建立关键词索引、使用枚举值或分类等手段，以减少模糊查询的使用。优化索引是另一种方法。...

总的来说，PostgreSQL 9.6 x64-HaoSQL是面向企业级应用的高效数据库解决方案，尤其适合需要处理大量数据和复杂查询的场景。使用者应充分理解其特性和优势，以便充分利用其功能来提升数据库性能和管理效率。