挑战SQL极限——SQL优化(大数据量)

MyAngel 2013-04-14 06:50:50
加精
最近在做数据分析,遇到了SQL查询优化的问题,想请教大家:

【场景】
(1)三张表:Budget(2.5万条记录) LinkTable(15万条记录) Sales(30万条记录)
(2)用SQL语句对着三张表进行一个关联汇总查询时,竟然需要35-40秒钟
(3)对三张表的关联字段和汇总字段建立索引后,查询仍然需要10秒钟

【目的】
希望能将查询时间控制在1秒钟内,也就是希望通过对现有SQL语句的优化(或其它办法)将现有的查询效率提高10倍。

【SQL查询语句】

SELECT [Year],
MIN((CASE WHEN (Year = 2009 OR Year = 2009-1) THEN Sales / EUR END)) AS [Sales],
Sum(Budget_EUR * _Projected) AS [Projected]
FROM (SELECT [A].[Year], [A].[Sales], [A].[EUR], [Budget].[Budget_EUR], [Budget].[_Projected],
[A].[SalesKey], [A].[BudgetKey]
FROM ((SELECT [LinkTable].[Year], [Sales].[Sales], [Sales].[EUR], [LinkTable].[SalesKey],
[LinkTable].[BudgetKey]
FROM ([LinkTable] LEFT JOIN [Sales] ON [LinkTable].[SalesKey] = [Sales].[SalesKey]))
AS A LEFT JOIN [Budget] ON [A].[BudgetKey] = [Budget].[BudgetKey]))
GROUP BY [Year]

请大家检查一下以上SQL语句有哪些地方可以优化,谢谢。

【数据库结构】

CREATE TABLE [Budget] ([BudgetKey] VARCHAR(21) NULL, [_Projected] INTEGER, [Budget_SEK] INTEGER, [Budget_GBP] INTEGER, [Budget_JPY] INTEGER, [Budget_EUR] INTEGER, [Budget_USD] REAL, [Projected_SEK] INTEGER, [Projected_GBP] INTEGER, [Projected_JPY] INTEGER, [Projected_EUR] INTEGER);

CREATE TABLE [LinkTable] ([SalesKey] VARCHAR(21) NULL, [Year] INTEGER, [Month] VARCHAR(23) NULL, [MonthYear] VARCHAR(25) NULL, [_History] INTEGER, [Quarter] VARCHAR(27) NULL, [QtrYear] VARCHAR(29) NULL, [Week] INTEGER, [Weekstart] VARCHAR(31) NULL, [Weekend] VARCHAR(33) NULL, [Customer Number] VARCHAR(35) NULL, [BudgetKey] VARCHAR(37) NULL);

CREATE TABLE [Sales] ([Date] VARCHAR(12) NULL, [Address Number] VARCHAR(14) NULL, [Sales Rep Number] INTEGER, [Item Number] INTEGER, [Invoice Date] VARCHAR(16) NULL, [Promised Delivery Date] VARCHAR(18) NULL, [Invoice Number] INTEGER, [Order Number] INTEGER, [Item Desc] VARCHAR(39) NULL, [Sales Qty] REAL, [Open Qty] INTEGER, [OpenOrder] REAL, [GrossSales] REAL, [Sales] REAL, [BackOrder] REAL, [Cost] REAL, [Margin] REAL, [SEK] VARCHAR(41) NULL, [GBP] VARCHAR(43) NULL, [AUD] VARCHAR(45) NULL, [JPY] VARCHAR(47) NULL, [EUR] VARCHAR(49) NULL, [USD] INTEGER, [SalesKey] VARCHAR(51) NULL, [# of Days Late] INTEGER, [# of Days to Ship] INTEGER);

请大家多多指教 !
很多年没有来这个论坛了,不知以前SQLServer版的大佬们还在不在?

...全文
10880 142 打赏 收藏 转发到动态 举报
写回复
用AI写文章
142 条回复
切换为时间正序
请发表友善的回复…
发表回复
MyAngel 2013-08-11
  • 打赏
  • 举报
回复
经过一段时间的测试,发现通过对SQL的优化只可以把速度提高10%左右,不可能把速度提高一个数量级(即提高10倍以上),而且SQL的过度优化还会降低SQL语句的扩展性(因为SQL语句是自动生成的),所以放弃了持续对SQL进行优化的思路。 谢谢各位网友的热情参与,现在结贴。
xiaoxiangqing 2013-07-19
  • 打赏
  • 举报
回复
估计要更新硬件,优化语句同时进行
T0M 2013-07-19
  • 打赏
  • 举报
回复
引用 4 楼 MyAngel 的回复:
对于这种大数据表(几十万条或几百万条记录)的关联查询,有没有什么更高效率的查询机制。 谢谢 !
遇到过一个存储过程几十个聚集函数夹杂着几十个表格的反复左联内联,还有各种编程函数,数据量也很大。这种情况下根本不要想用SQL来做查询,一个查询至少几分钟。 我是用Cube + MDX解决的。
kobemadi 2013-07-19
  • 打赏
  • 举报
回复
简直是大辩论啊,学习了。
MyAngel 2013-07-18
  • 打赏
  • 举报
回复
很抱歉,密码忘掉了,一直不能登录论坛,现在终于想起来了。 CSDN 总是提示要更改密码,我只好把用了N年的密码改了,谁知,一个星期不上网,密码忘掉了。一个月后,重新试了试,居然登录进来了。 这一段时间我会将测试结果放到网上,谢谢大家的参与 !
mclly2000 2013-07-06
  • 打赏
  • 举报
回复
不错的帖子,新手学习了
拥抱开源 2013-06-18
  • 打赏
  • 举报
回复
真心不错的帖子
MyAngel 2013-05-24
  • 打赏
  • 举报
回复
引用 134 楼 sunylf 的回复:
我想要一份你的数据库备份,sunylf@qq.com
测试数据已经发到你的邮箱了,请查收!
sunylf 2013-05-24
  • 打赏
  • 举报
回复
我想要一份你的数据库备份,sunylf@qq.com
duoxu1983 2013-05-20
  • 打赏
  • 举报
回复
3张表这么点数据量 直接本地建个sqlserver测试实例做下测试嘛。
software_artisan 2013-05-18
  • 打赏
  • 举报
回复
引用 122 楼 MyAngel 的回复:
[quote=引用 119 楼 xuanbg 的回复:]
SELECT [Year], 
MIN((CASE WHEN (Year = 2009 OR Year =  2009-1) THEN   Sales / EUR END)) AS [Sales], 
Sum(Budget_EUR * _Projected) AS [Projected] 
FROM (
  SELECT L.[Year], S.[Sales], S.[EUR], B.Budget_EUR, B._Projected
  FROM LinkTable L
  LEFT JOIN Sales S ON S.SalesKey = L.SalesKey
  LEFT JOIN Budget B ON B.[BudgetKey] = L.[BudgetKey]) T1
GROUP BY [Year]
简化了一下,去掉了不必要的字段。Sales表和LinkTable通过SalesKey关联,同时LinkTable表和Budget表通过BudgetKey关联,我不知道实际的数据需不需要left join,如果有两个表可以用join的话,换一下顺序,把能够join的放前面,性能应该会提升很多。还有,楼主这个sql完全没有条件,适当加条件也可以大大减少查询时间
表是不确定的,很难知道到底哪张表符合Join条件。 这个SQL是没有条件,因为用户要查询全部结果。如果说有条件,那就是:CASE WHEN (Year = 2009 OR Year = 2009-1) THEN Sales / EUR END) 这个也算是条件。 实际过程是需要 FULL JOIN,而不是LEFT JOIN,也就是说实际过程的查询效率更低,因此,SQL急需要优化。[/quote] 如果这样子的话,优化也无从谈起了。。。连表关系都不明确,数据特征更是不清不楚,谈何优化?优化之所以叫优化,就是因为需要确定的前提。如果可以套用通用模式,数据库直接就提供了,哪里还需要优化!
最爱午夜 2013-05-17
  • 打赏
  • 举报
回复
LZ的思路有问题,既然是数据分析,那么就不必在意数据冗余,把需要的字段直接建立一张表,然后把数据插入,再统计,大多数数据仓库做分析的时候都是这么搞得。
刀剑分天下 2013-05-17
  • 打赏
  • 举报
回复
学习
最爱午夜 2013-05-17
  • 打赏
  • 举报
回复
这就涉及事实表的建立, 程序上面有什么功能,你总知道吧,这些功能需要查询那些数据你也知道吧,根据不同的需求建立不同的事实表,然后进行统计,这样就形成了数据仓库。
MyAngel 2013-05-17
  • 打赏
  • 举报
回复
引用 128 楼 jack11430 的回复:
LZ的思路有问题,既然是数据分析,那么就不必在意数据冗余,把需要的字段直接建立一张表,然后把数据插入,再统计,大多数数据仓库做分析的时候都是这么搞得。
我一点也没有在意数据冗余,我只是要速度,即查询速度(分析速度)。你所说的【把需要的字段直接建立一张表,然后把数据插入,再统计】的确会提高分析速度,但问题是,SQL语句有很多,而且是动态变化的(用户自己设置的),我事先并不能知道需要哪些字段。
hgwyl 2013-05-15
  • 打赏
  • 举报
回复
默默关注这个很多天了……帮忙顶一下……学习学习……
niss 2013-05-15
  • 打赏
  • 举报
回复
唉,一堆代码,真心看不下去,我几张200W的表联合查询加分组聚合,1秒内
MyAngel 2013-05-15
  • 打赏
  • 举报
回复
引用 124 楼 oreoconansisu 的回复:
[quote=引用 102 楼 MyAngel 的回复:] [quote=引用 95 楼 oreoconansisu 的回复:] 没上楼主那么大的数据做测试 我提供2个思路 楼主测试看效率如何 1.改变查询表的顺序 Budget(2.5万条记录) LinkTable(15万条记录) Sales(30万条记录) LinkTable作为关联表 每次都是第一个select的对象 可以试下从Budget->LinkTable->Sales(数据量由小到大) 或从Sales->LinkTable->Budget(数据量由大到小) 我觉得表数据量对查询先后顺序可能会有影响 还是要通过楼主测试 2.可将Group前的数据 先插入临时表#Temp 再对#Temp添加Year索引 最后查询出来 因为数据量比较大,我设想分2布 通过临时表效率可能会更高 我不是DBA,但也对大数据量的数据做过优化 提供2个思路给楼主 结果等楼主测试了 谢谢
非常感谢你提供的思路,我将按你的思路测试,并把测试结果反馈回来。 [/quote] 楼主有结果没[/quote] 还没有,这段时间我被一个临时的、紧急的项目给搞得焦头烂额,这个临时项目要到5月底才完工。所以我只有6月份才能将测试结果反馈回来,非常抱歉了。 希望其他收到测试数据的网友也能发一下测试结果,谢谢 !
oreoconansisu 2013-05-14
  • 打赏
  • 举报
回复
引用 102 楼 MyAngel 的回复:
[quote=引用 95 楼 oreoconansisu 的回复:] 没上楼主那么大的数据做测试 我提供2个思路 楼主测试看效率如何 1.改变查询表的顺序 Budget(2.5万条记录) LinkTable(15万条记录) Sales(30万条记录) LinkTable作为关联表 每次都是第一个select的对象 可以试下从Budget->LinkTable->Sales(数据量由小到大) 或从Sales->LinkTable->Budget(数据量由大到小) 我觉得表数据量对查询先后顺序可能会有影响 还是要通过楼主测试 2.可将Group前的数据 先插入临时表#Temp 再对#Temp添加Year索引 最后查询出来 因为数据量比较大,我设想分2布 通过临时表效率可能会更高 我不是DBA,但也对大数据量的数据做过优化 提供2个思路给楼主 结果等楼主测试了 谢谢
非常感谢你提供的思路,我将按你的思路测试,并把测试结果反馈回来。 [/quote] 楼主有结果没
MyAngel 2013-05-13
  • 打赏
  • 举报
回复
收到测试数据的网友,有没有什么测试结果呀
引用 113 楼 MingleLui 的回复:
发到我的邮箱Mingle.Lui@gmail.com。我来帮忙测试下看看。
收到测试数据的网友,有没有什么测试结果呀 ?
加载更多回复(111)
ef-orm A Simple OR-Mapping framework on multiple databases. 使用手册(中文)http://geequery.github.io/ef-orm/manual/EF-ORM-user-guide.docx  使用示例工程 https://github.com/GeeQuery/ef-orm/tree/master/orm-tutorial EF-ORM是一个轻,便捷的Java ORM框架。并且具备若干企业级的应用特性,如分库分表、JTA事务等。 代码生成插件for eclipse(请在eclipse中Help/Install new software后输入地址并安装)http://geequery.github.io/plugins/1.3.x/特点一 EF的设计的一个主要目的是提高开发效率,减少编码工作,让开发者“零配置”“少编码”的操作数据库大部分功能。 例如:数据库查询条件的传入问题是所有ORM框架都不能回避的一个问题,所以我经常在想——既然我们可以用向DAO传入一个Entity来实现插入操作,为什么就不能用同样的方法来描述一个不以主键为条件的update/select/delete操作?为什么DAO的接口参数老是变来变去?为什么很多应用中,自行设计开发类来描述各种业务查询条件才能传入DAO?为什么我们不能在数据访问层上花费更少的时间和精力?   JPA1.0和早期的H框架,其思想是将关系型数据库抽象为对象池,这极大的限制了本来非常灵活的SQL语句的发挥空间。而本质上,当我们调用某H框架的session.get、session.load、session.delete时,我们是想传递一个以对象形式表达的数据库操作请求。只不过某H框架要求(并且限制)我们将其视作纯粹的“单个”对象而已。JPA 2.0为了弥补JPA1.0的不足,才将这种Query的思想引入为框架中的另一套查询体系——Criteria API。事实上针对单个对象的get/load/persist/save/update/merge/saveOrUpdate API和Criteria API本来就为一体,只不过是历史的原因被人为割裂成为两套数据库操作API罢了。   因此,对于关系型数据库而言——Entity和Query是一体两面的事物,所谓Query,可以包含各种复杂的查询条件,甚至可以作为一个完整的SQL操作请求的描述。为此,EF彻底将Entity和Query绑在了一起。这种思想,使得—— 开发人员需要编写的类更少。开发人员无需编写其他类来描述复杂的SQL查询条件。也无需编写代码将这些查询条件转换为SQL/HQL/JPQL。DAO层也不会有老要改来改去的接口和API,几乎可以做到零编码。 对单个对象进行CRUD的操作API现在和Criteria API合并在一起。Session对象可以直接提供原本要Criteria API才能提供实现的功能。API大大简化。 IQueryableEntity允许你将一个实体直接变化为一个查询(Query),在很多时候可以用来完成复杂条件下的数据查询。比如 ‘in (?,?,?)’, ‘Between 1 and 10’之类的条件。 xxQL有着拼装语句可读性差、编译器无法检查、变更维护困难等问题,但是却广受开发人员欢迎。这多少有历史原因,也有Criteria API设计上过于复杂的因素。两者一方是极端灵活但维护困难,一方是严谨强大而学习和编写繁琐,两边都是极端。事实上JPA的几种数据查询方式存在青黄不接的问题。选择查询语言xxQL,项目面临后续维护困难,跨数据库移植性差;选择Criteria API,代码臃肿,操作繁琐,很多人望而却步。EF的设计思想是使人早日摆脱拼装SQL/HQL/JPQL的困扰,而是用(更精简易用的)Criteria API来操作数据库。 基于轻级Criteria API的操作方式,使得对数据库的变更和重构变得非常轻松,解决了SQL语句多对软件维护和移植造成产生的不利影响。 阅读推荐:第3、4章 特点二,将SQL的使用发挥到极致,解决SQL拼凑问题、数据库移植问题 大部分OLTP应用系统到最后都不免要使用SQL/JPQL,然而没有一个很好的方法解决SQL在多种数据库下兼容性的问题。 EF-ORM中采用了独特的SQL解析和改写技术,能够主动检查并确保SQL语句或者SQL片段在各个数据库上的兼容性。 EF中除了Criteria API以外,可以直接使用“SQL语句”或者“SQL片段”。但是这些SQL语句并不是直接传送给JDBC驱动的,而是 有着一个数据库方言层,经过方言层处理的SQL语句,就具备了在当前数据库上正确操作的能力。这相当于提供了一种能跨数据库操作的SQL语言。(E-SQL) E-SQL不但解决了异构数据库的语法问题、函数问题、特殊的写法问题,还解决了动态SQL问题、绑定变扩展等特性。 对于各种常用SQL函数和运算符,都可以自动转换为当前数据库支持的方言来操作。其函数支持也要多于HQL支持的函数。 阅读推荐:第7、8章 特点三,可能是业界最快的ORM框架. 得益于ASM的动态代码生成技术,部分耗时操作通过动态代码固化为硬编码实现,EF-ORM的大部分操作性能要超过已知的其他框架。 实际性能测试表明,EF的大部分操作都要快于Hiberante和MyBatis, 部分操作速度甚至数十倍于上述框架。 EF在极限插入模式下,甚至刷新了每秒10万条写入的记录。远远超过了其他框架。 一个初步的性能测试:测试代码:http://geequery.github.io/ef-orm/manual/performance-test.rar 测试报告:http://geequery.github.io/ef-orm/manual/performance-compare.docx 阅读推荐:第9、17章 特点四,分库分表 开发过程中参照了Hibernate Shards、Alibaba TDDL、Cobar等框架,也是基于词法分析器来提取SQL参数,并计算路由。 能支持分库维度含糊等场景下的分库分表。以及包括多库多表下的 order by , distinct, group by, having等操作。 阅读推荐:第10章 特点五,常用DDL操作的封装 从数据库元数据访问,到建表,创建约束,创建sequence等各种DDL操作进行了封装,用户无需编写各种SQL,可以直接通过API操作数据库结构。 尤其是ALTER TABLE等修改数据库的语句,各种不同的RDBMS都有较大语法差异。特点六、解决各种跨RDBMS的移植问题 1、DML操作、自增值处理与返回、查询这些不同数据库操作差异很大的东西,都了统一的封装。 2、DDL操作、建表、删表、trunacte,Sequence创建和TABLE模拟Sequence等,都做了支持。 3、对SQL语法操作和函数的改写与支持。其他特性轻 该框架对应用环境、连接池、 是否为J2EE应用等没有特殊要求。可以和EJB集成,也可与Spring集成,也可以单独使用。整个框架只有两个JAR包,模块和功能都较为轻。依赖少 整个框架只有三个jar库。间接依赖仅有commons-lang, slf4j等7个通用库,作为一个ORM框架,对第三方依赖极小。简单直接的API 框架的API设计直接面向数据库操作,不绕弯子,开发者只需要数据库基本知识,不必学习大新的操作概念即可使用API完成各种DDL/DML操作。 最大限度利用编译器减少编码错误的可能性 API设计和元数据模型(meta-model)的使用,使得常规的数据库查询都可以直接通过Criteria API来完成,无需使用任何JPQL/HQL/SQL。可以让避免用户犯一些语法、拼写等错误。JPA2规范兼容 使用JPA 2.0规范的标准注解方式来定义和操作对象。(但整个ORM不是完整的JPA兼容实现)更高的性能 依赖于ASM等静态字节码技术而不是CGlib,使得改善了代理性能;依赖于动态反射框架,内部数据处理上的开销几乎可以忽略。操作性能接近JDBC水平。对比某H开头的框架,在写入操作上大约领先30%,在大数据读取上领先50%以上。更多的性能调优手段 debug模式下提供了大性能日志,帮您分析性能瓶颈所在。同时每个查询都可以针对batch、fetchSize、maxResult、缓存、级联操作类型等进行调整和开关,可以将性能调到最优。可在主流数据库之间任意切换 支持Oracle、MySQL、Postgres、MSSQL、GBase、SQLite、HSQL、Derby等数据库。除了API方式下的操作能兼容各个数据库之外,就连SQL的本地化查询也能使之兼容。JMX动态调节 可以用JMX查看框架运行统计。框架的debug开关和其他参数都可以使用JMX动态调整。动态表支持 表结构元数据的API也向用户开放,同时支持在使用过程中,灵活调整映射关系,因此用户可以用API动态的创建表结构的模型,从而实现各种动态类型和表的映射(例如POJO中包含一个Map,用于映射各种动态扩展的字段)企业级特性支持 SQL分析,性能统计,分库分表,Oracle RAC支持,读写分离支持 标签:eform

34,594

社区成员

发帖
与我相关
我的任务
社区描述
MS-SQL Server相关内容讨论专区
社区管理员
  • 基础类社区
  • 二月十六
  • 卖水果的net
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧