求助关于union all的查询效率问题

bayueliang 2007-11-15 10:47:56

比如一个查询结果为30条数据,根据type来排序:

1.select * from xx order by type(30条)

2.select * from xx where type = 0 (10 条)
union all
select * from xx where type = 1 (10 条)
union all
select * from xx where type = 2 (10 条)

1,2的结果一样，那么请问1的效率是否2的3倍，还是说两者差不多（查询结果数据量不大）？

...全文

1078 15 打赏收藏转发到动态举报

写回复

用AI写文章

15 条回复

切换为时间正序

请发表友善的回复…

发表回复

woniu4500 2011-06-24

打赏
举报

学习学习学习学习学习学习学习学习学习学习学习

Guizhi 2007-12-26

打赏
举报

学习

suyiming 2007-11-20

打赏
举报

zrb007 2007-11-20

打赏
举报

 

--六、按name分组取最大的两个(N个)val 

select   a.*   from   tb   a   where   2   >   (select   count(*)   from   tb   where   name   =   a.name   and   val   >   a.val   )   order   by   a.name,a.val 

select   a.*   from   tb   a   where   val   in   (select   top   2   val   from   tb   where   name=a.name   order   by   val   desc)   order   by   a.name,a.val 

select   a.*   from   tb   a   where   exists   (select   count(*)   from   tb   where   name   =   a.name   and   val   >   a.val   having   Count(*)   <   2)   order   by   a.name 

/* 

name               val                   memo                                   

----------   -----------   --------------------   

a                     2                       a2(a的第二个值) 

a                     3                       a3:a的第三个值 

b                     4                       b4b4 

b                     5                       b5b5b5b5b5 

*/

可用

zrb007 2007-11-20

打赏
举报

[code={SQL}]
--六、按name分组取最大的两个(N个)val
select a.* from tb a where 2 > (select count(*) from tb where name = a.name and val > a.val ) order by a.name,a.val
select a.* from tb a where val in (select top 2 val from tb where name=a.name order by val desc) order by a.name,a.val
select a.* from tb a where exists (select count(*) from tb where name = a.name and val > a.val having Count(*) < 2) order by a.name
/*
name val memo
---------- ----------- --------------------
a 2 a2(a的第二个值)
a 3 a3:a的第三个值
b 4 b4b4
b 5 b5b5b5b5b5
*/
[/code]
可用

w2jc 2007-11-19

打赏
举报

想起另外一点，补充一下
如果你的系统是多CPU的，并且启用了查询并行处理（parallelism）
那么在查询数据量很大的情况下，可能B的速度会快，
因为数据库引擎会试图为UNION ALL链接的每个部分分配一个CPU资源进行并行查询。

不过总的来说，上面这些讨论都是针对表里面有大量记录的情况
表里面记录不多的话，A和B都无所谓。

w2jc 2007-11-19

打赏
举报

要看表的记录有多少，但总的来说UNION ALL是性能杀手。
表里面的数据不多的时候，看不出两者之间的差别，
如果表里面有几十万，上百万条记录的话，差别就非常大。

另外一个重要原因是：
数据库引擎里面的查询优化功能不能应用到含有UNION ALL的查询上面
导致索引及其内置的统计数据不能被用来优化查询

UNION ALL是实在没有办法的情况才会考虑，
在MS SQL里面，如果条件允许可以考虑使用indexed view(索引视图）以避免使用类似UNION这样的情况

以上针对的是MS SQL，其他数据库不太清楚，不敢乱说。

laowang2 2007-11-18

打赏
举报

bayueliang 2007-11-15

打赏
举报

感谢各位，结帖

dawugui 2007-11-15

打赏
举报

按TYPE分类取十条吧:(看最后的)

--按某一字段分组取最大(小)值所在行的数据

--2007-10-23于杭州

/*

数据如下：

name val memo

a    2   a2(a的第二个值)

a    1   a1--a的第一个值

a    3   a3:a的第三个值

b    1   b1--b的第一个值

b    3   b3:b的第三个值

b    2   b2b2b2b2

b    4   b4b4

b    5   b5b5b5b5b5

*/

--创建表并插入数据：

create table tb(name varchar(10),val int,memo varchar(20))

insert into tb values('a',    2,   'a2(a的第二个值)')

insert into tb values('a',    1,   'a1--a的第一个值')

insert into tb values('a',    3,   'a3:a的第三个值')

insert into tb values('b',    1,   'b1--b的第一个值')

insert into tb values('b',    3,   'b3:b的第三个值')

insert into tb values('b',    2,   'b2b2b2b2')

insert into tb values('b',    4,   'b4b4')

insert into tb values('b',    5,   'b5b5b5b5b5')

go



--一、按name分组取val最大的值所在行的数据。

--方法1：

select a.* from tb a where val = (select max(val) from tb where name = a.name) order by a.name

--方法2：

select a.* from tb a where not exists(select 1 from tb where name = a.name and val > a.val)

--方法3：

select a.* from tb a,(select name,max(val) val from tb group by name) b where a.name = b.name and a.val = b.val order by a.name

--方法4：

select a.* from tb a inner join (select name , max(val) val from tb group by name) b on a.name = b.name and a.val = b.val order by a.name

--方法5

select a.* from tb a where 1 > (select count(*) from tb where name = a.name and val > a.val ) order by a.name

/*

name       val         memo                 

---------- ----------- -------------------- 

a          3           a3:a的第三个值

b          5           b5b5b5b5b5

*/



--二、按name分组取val最小的值所在行的数据。

--方法1：

select a.* from tb a where val = (select min(val) from tb where name = a.name) order by a.name

--方法2：

select a.* from tb a where not exists(select 1 from tb where name = a.name and val < a.val)

--方法3：

select a.* from tb a,(select name,min(val) val from tb group by name) b where a.name = b.name and a.val = b.val order by a.name

--方法4：

select a.* from tb a inner join (select name , min(val) val from tb group by name) b on a.name = b.name and a.val = b.val order by a.name

--方法5

select a.* from tb a where 1 > (select count(*) from tb where name = a.name and val < a.val) order by a.name

/*

name       val         memo                 

---------- ----------- -------------------- 

a          1           a1--a的第一个值

b          1           b1--b的第一个值

*/



--三、按name分组取第一次出现的行所在的数据。

select a.* from tb a where val = (select top 1 val from tb where name = a.name) order by a.name

/*

name       val         memo                 

---------- ----------- -------------------- 

a          2           a2(a的第二个值)

b          1           b1--b的第一个值

*/



--四、按name分组随机取一条数据。

select a.* from tb a where val = (select top 1 val from tb where name = a.name order by newid()) order by a.name

/*

name       val         memo                 

---------- ----------- -------------------- 

a          1           a1--a的第一个值

b          5           b5b5b5b5b5

*/



--五、按name分组取最小的两个(N个)val

select a.* from tb a where 2 > (select count(*) from tb where name = a.name and val < a.val ) order by a.name,a.val

select a.* from tb a where val in (select top 2 val from tb where name=a.name order by val) order by a.name,a.val

select a.* from tb a where exists (select count(*) from tb where name = a.name and val < a.val having Count(*) < 2) order by a.name

/*

name       val         memo                 

---------- ----------- -------------------- 

a          1           a1--a的第一个值

a          2           a2(a的第二个值)

b          1           b1--b的第一个值

b          2           b2b2b2b2

*/



--六、按name分组取最大的两个(N个)val

select a.* from tb a where 2 > (select count(*) from tb where name = a.name and val > a.val ) order by a.name,a.val

select a.* from tb a where val in (select top 2 val from tb where name=a.name order by val desc) order by a.name,a.val

select a.* from tb a where exists (select count(*) from tb where name = a.name and val > a.val having Count(*) < 2) order by a.name

/*

name       val         memo                 

---------- ----------- -------------------- 

a          2           a2(a的第二个值)

a          3           a3:a的第三个值

b          4           b4b4

b          5           b5b5b5b5b5

*/

samfeng_2003 2007-11-15

打赏
举报

使用UNION ALL 要对表进行重复扫描

bayueliang 2007-11-15

打赏
举报

呵呵，谢谢楼上的，不过想再具体问提，我的本意是想这样取数据:
select * from xx where type = 0
union all
select top 10 * from xx where type = 1
union all
select * from xx where type = 2
因为我想取得type=1的数据10条，但表里type=1的数据是大于10条，如果这种查询效率不低就用union all,如果效率低的话我会用另一种办法使type=1的数据固定为10条然后一个order by type就出来了，不过操作比较麻烦.

samfeng_2003 2007-11-15

打赏
举报

以下引用了皱建大哥的一篇文章



问题描述



       业务需求如下：



       有表A和表B，这两个表结构一致，为不同的业务服务，现在要写一个存储过程，存储过程接受一个参数，当参数为0时，查询表A，参数为1时，查询表B。



 



A、一般的处理方法



IF @Flag = 0



    SELECT * FROM dbo.A



ELSE IF @Flag = 1



    SELECT * FROM dbo.B



 



B、一句的处理方法



SELECT * FROM dbo.A



WHERE @Flag = 0



UNION ALL



SELECT * FROM dbo.B



WHERE @Flag = 1



 



分析



       从语句的简捷性来看，方法B具有技巧性，它们两者之间，究竟那一个更好呢？你可能会从性能上来评估，以决定到底用那一种。单纯从语句上来看，似乎两者的效率差不多，下面通过数据测试来反映结果似乎和想像的一样



 



建立测试环境（注，此测试环境是为几个主题服务的，因此结构看起来有些怪异）



USE tempdb



GO



 



SET NOCOUNT ON



--======================================



--创建测试环境



--======================================



RAISERROR('创建测试环境', 10, 1) WITH NOWAIT



-- Table A



CREATE TABLE [dbo].A(



    [TranNumber] [int] IDENTITY(1, 1) NOT NULL,



    [INVNO] [char](8) NOT NULL,



    [ITEM] [char](15) NULL DEFAULT (''),



    PRIMARY KEY([TranNumber])



)



 



CREATE INDEX [indexONinvno] ON [dbo].A([INVNO])



CREATE INDEX [indexOnitem] ON [dbo].A ([ITEM])



CREATE INDEX [indexONiteminnvo] ON [dbo].A([INVNO], [ITEM])



GO



 



-- Table B



CREATE TABLE [dbo].B(



    [ItemNumber] [char](15) NOT NULL DEFAULT (''),



    [CompanyCode] [char] (4) NOT NULL,



    [OwnerCompanyCode] [char](4) NULL,



    PRIMARY KEY([ItemNumber], [CompanyCode])



)



 



CREATE INDEX [ItemNumber] ON [dbo].B([ItemNumber])



CREATE INDEX [CompanyCode] ON [dbo].B([CompanyCode])



CREATE INDEX [OwnerCompanyCode] ON [dbo].B([OwnerCompanyCode])



GO



 



--======================================



--生成测试数据



--======================================



RAISERROR('生成测试数据', 10, 1) WITH NOWAIT



INSERT [dbo].A([INVNO], [ITEM])



SELECT LEFT(NEWID(), 8), RIGHT(NEWID(), 15)



FROM syscolumns A, syscolumns B



 



INSERT [dbo].B([ItemNumber], [CompanyCode], [OwnerCompanyCode])



SELECT RIGHT(NEWID(), 15), LEFT(NEWID(), 4), LEFT(NEWID(), 4)



FROM syscolumns A, syscolumns B



GO



 



进行性能测试



DECLARE @a int



SET @a = 1



 



DECLARE @t TABLE(



    id int IDENTITY,



    a int, b int)



DECLARE @dt datetime, @loop int, @id int



SET @loop = 0



WHILE @loop < 5



BEGIN



    SET @loop = @loop + 1



    RAISERROR('test %d', 10, 1, @loop) WITH NOWAIT



    SET @dt = GETDATE()



        SELECT [ITEM] FROM A



        WHERE @a = 0



            AND [ITEM] < 'A'



        UNION ALL



        SELECT [ItemNumber] FROM B



        WHERE @a = 1



            AND [ItemNumber] < 'A'



    INSERT @t(a) VALUES(DATEDIFF(ms, @dt, GETDATE()))



    SELECT @id = SCOPE_IDENTITY(), @dt = GETDATE()



        IF @a = 0



            SELECT [ITEM] FROM A



            WHERE [ITEM] < 'A'



        ELSE IF @a = 1



            SELECT [ItemNumber] FROM B



            WHERE [ItemNumber] < 'A'



    UPDATE @t SET b = DATEDIFF(ms, @dt, GETDATE())



    WHERE id = @id



END



SELECT * FROM @t



UNION ALL



SELECT NULL, SUM(a), SUM(b) FROM @t



 



性能测试结果



id  a       b



--- ------- -------



1   3410   2063



2   1703   1656



3   1763   1656



4   1800   1793



5   1643   1856



NULL   10319  9024



 



从结果看，两者的性能差异很小，所以两者从性能上比较，可以视为没有差异



 



问题所在



虽然在性能上，两者没有什么差异，但另一个问题也许你从来没有考虑过，那就是对表的访问的问题，在方法A中，肯定只会访问到一个表；而在方法B中，情况还是如此吗？答案是否定的，方法B始终会扫描两个表。而这样的潜台词是，即使在我的查询中，只会用到A表，但如果B表被下了锁的话，整个查询就会被阻塞，而方法A不会。



为了证明这个问题，我们再做下面的测试



 



BLOCK 的测试—为表A加锁 (查询窗口A)



BEGIN TRAN



    UPDATE A SET [ITEM] = RIGHT(NEWID(), 4)



    WHERE [ITEM] BETWEEN '9' AND 'A'



--ROLLBACK TRAN  -- 不回滚事务，让锁一直保持



 



BLOCK 的测试—测试查询方法A(查询窗口B)



-- run query windows 2



DECLARE @a int



SET @a = 1



 



IF @a = 0



    SELECT [TranNumber] FROM A



    WHERE [ITEM] < 'A'



ELSE IF @a = 1



    SELECT [ItemNumber] FROM B



    WHERE [ItemNumber] < 'A'



 



BLOCK 的测试—测试查询方法B(查询窗口C)



-- run query windows 3



DECLARE @a int



SET @a = 1



 



SELECT [ITEM] FROM A



WHERE @a = 0



    AND [ITEM] < 'A'



UNION ALL



SELECT [ItemNumber] FROM B



WHERE @a = 1



    AND [ItemNumber] < 'A'



 



结果



你会看到，查询窗口B中的查询会及时地完成，而查询窗口C的查询会一直等待，你可以通过执行存储过程 sp_who2，查看当前的BLOCK状况来确定查询窗口C的查询是否被查询窗口A的查询BLOCK住



 



结论



不要使用查询方法B，它看起来很棒，实际的结果即是会增加被BLOCK的机会