大数据量下的查找最新的几条数据的通用方法

xuexiaodong2009

领域专家: 前端开发技术领域

2012-09-04 09:20:14

加精

原文地址
http://blog.csdn.net/xuexiaodong2009/article/details/7938679
由于项目需要，需要获取一组数据的的最新一条数据，表结构如下：

[sql] view plaincopy
CREATE TABLE [dbo].[WUSU_SUOLITest_Table](
[ID] [bigint] IDENTITY(1,1) NOT NULL,
[ReceiveTime] [datetime] NULL,
[GroupID] [bigint] NOT NULL,
[DataValue] [float] NULL,
[SensorCode] [char](10) NOT NULL,
)
在这个表上只有两种操作，插入和查询，没有删除和更新。而且同一种设备，随着id列的变大，ReceiveTime也随着变大。
每一个不同的SensorCode代表了一个设备，目前有50个设备，每30秒上报一次数据，ReceiveTime代表上报数据的时间，现在需要获取每一个设备最新一次的数据，
开始我使用如下的查询语句：

[sql] view plaincopy
select * from WUSU_SUOLITest_Table where id in (select max(id) from WUSU_SUOLITest_Table group by SensorCode )
在数据量比较小时，是没有问题的，但数据量特别大时，这种方式，目前一天的数据就超过了14万，有很大的延时，即使在id上有聚集索引，SensorCode上使用了分区，依然没有多大作用。时间主要花费到了group by上。
实在想不多到什么好的而解决方法，就只能在此表上创建一个触发器，每次插入数据时就把最新的数据放在了一个临时表，又有临时表最多只有50条数据，速度当然就很好了。

[sql] view plaincopy
create TRIGGER [dbo].[UpdateWUSU_LastOriginalDataSUOLI]
ON [dbo].[WUSU_SUOLITest_Table]
AFTER INSERT
AS
BEGIN
declare @SensorCode char(10), @DataValue float ,@ReceiveTime datetime ,@GroupID bigint

select @SensorCode=SensorCode,@DataValue=DataValue,@ReceiveTime=ReceiveTime,@GroupID=GroupID from inserted
update WUSU_LastOriginalData set DataValue=@DataValue,ReceiveTime=@ReceiveTime,GroupID=@GroupID
where SensorCode=@SensorCode
END
当然这是为了获取各种设备最新的一条数据，如果要获取最新的两条数据，最多也就是100条记录，一次类推，只需要把上边的触发器修改一下就可以。

但还有没有更好的方式，在不修改表结构的情况下？目前还没有想到。

...全文

5944 122 打赏收藏转发到动态举报

写回复

用AI写文章

122 条回复

切换为时间正序

请发表友善的回复…

发表回复

ChangeMyself2012 2012-10-15

打赏
举报

好贴学习下！

Barton 2012-10-15

打赏
举报

如果是我做，我也会选择跟100楼的做法，即insert正式表之后，同步更新临时表，这样临时表始终只保持有50多条记录。

Barton 2012-10-15

打赏
举报

CREATE TABLE [dbo].[WUSU_SUOLITest_Table](
[ID] [bigint] IDENTITY(1,1) NOT NULL,
[ReceiveTime] [datetime] NULL,
[GroupID] [bigint] NOT NULL,
[DataValue] [float] NULL,
[SensorCode] [char](10) NOT NULL,
)

select abs(checksum(newid()))%10

declare @i int=1
while @i<=50
begin
insert into [WUSU_SUOLITest_Table](ReceiveTime,GroupID,DataValue,SensorCode)
select dateadd(second,number*10,getdate()),@i,abs(checksum(newid())),right('0000'+cast(@i as varchar(30)),4)
--,number
from master.dbo.spt_values
where type='p' and number>1
waitfor delay '00:00:01.200'
set @i=@i+1
end

select count(*) from [WUSU_SUOLITest_Table]--102300

alter table [WUSU_SUOLITest_Table]
add constraint PK_WUSU_SUOLITest_Table primary key (ID)

select top 100 * from [WUSU_SUOLITest_Table]
create index IX_WUSU_SUOLITest_Table_SensorCode on WUSU_SUOLITest_Table(SensorCode)

set statistics io on
set statistics time on
set showplan_text on
--set showplan_text off
;with cte_id
as
(
select max(id) as id
from WUSU_SUOLITest_Table
group by SensorCode
)

select * from WUSU_SUOLITest_Table a inner join cte_id b on a.ID=b.id
|--Nested Loops(Inner Join, OUTER REFERENCES:([Expr1005], [Expr1007]) WITH UNORDERED PREFETCH)
|--Stream Aggregate(GROUP BY:([ASBU].[dbo].[WUSU_SUOLITest_Table].[SensorCode]) DEFINE:([Expr1005]=MAX([ASBU].[dbo].[WUSU_SUOLITest_Table].[ID])))
| |--Index Scan(OBJECT:([ASBU].[dbo].[WUSU_SUOLITest_Table].[IX_WUSU_SUOLITest_Table_SensorCode]), ORDERED FORWARD)
|--Clustered Index Seek(OBJECT:([ASBU].[dbo].[WUSU_SUOLITest_Table].[PK_WUSU_SUOLITest_Table] AS [a]), SEEK:([a].[ID]=[Expr1005]) ORDERED FORWARD)

CPU 时间 = 31 毫秒，占用时间 = 40 毫秒。

;with cte
as
(
select ROW_NUMBER()over(partition by sensorcode order by id desc) as rownum,id
from WUSU_SUOLITest_Table
)
select * from cte where rownum=1
|--Parallelism(Gather Streams)
|--Filter(WHERE:([Expr1003]=(1)))
|--Sequence Project(DEFINE:([Expr1003]=row_number))
|--Segment
|--Sort(ORDER BY:([ASBU].[dbo].[WUSU_SUOLITest_Table].[SensorCode] ASC, [ASBU].[dbo].[WUSU_SUOLITest_Table].[ID] DESC))
|--Parallelism(Repartition Streams, Hash Partitioning, PARTITION COLUMNS:([ASBU].[dbo].[WUSU_SUOLITest_Table].[SensorCode]))
|--Index Scan(OBJECT:([ASBU].[dbo].[WUSU_SUOLITest_Table].[IX_WUSU_SUOLITest_Table_SensorCode]))
CPU 时间 = 358 毫秒，占用时间 = 168 毫秒。

select *
from WUSU_SUOLITest_Table a
where not exists(select top 1 * from WUSU_SUOLITest_Table b where a.SensorCode=b.SensorCode and a.id<b.ID)

|--Parallelism(Gather Streams)
|--Nested Loops(Left Anti Semi Join, OUTER REFERENCES:([a].[ID], [a].[SensorCode], [Expr1004]) WITH UNORDERED PREFETCH)
|--Clustered Index Scan(OBJECT:([ASBU].[dbo].[WUSU_SUOLITest_Table].[PK_WUSU_SUOLITest_Table] AS [a]))
|--Index Seek(OBJECT:([ASBU].[dbo].[WUSU_SUOLITest_Table].[IX_WUSU_SUOLITest_Table_SensorCode] AS [b]), SEEK:([b].[SensorCode]=[ASBU].[dbo].[WUSU_SUOLITest_Table].[SensorCode] as [a].[SensorCode] AND [b].[ID] > [ASBU].[dbo].[WUSU_SUOLITest_Table].[ID] as [a].[ID]) ORDERED FORWARD)
CPU 时间 = 670 毫秒，占用时间 = 230 毫秒。

select * from WUSU_SUOLITest_Table where id in (select max(id) from WUSU_SUOLITest_Table group by SensorCode)
|--Nested Loops(Inner Join, OUTER REFERENCES:([Expr1006], [Expr1008]) WITH UNORDERED PREFETCH)
|--Sort(DISTINCT ORDER BY:([Expr1006] ASC))
| |--Stream Aggregate(GROUP BY:([ASBU].[dbo].[WUSU_SUOLITest_Table].[SensorCode]) DEFINE:([Expr1006]=MAX([ASBU].[dbo].[WUSU_SUOLITest_Table].[ID])))
| |--Index Scan(OBJECT:([ASBU].[dbo].[WUSU_SUOLITest_Table].[IX_WUSU_SUOLITest_Table_SensorCode]), ORDERED FORWARD)
|--Clustered Index Seek(OBJECT:([ASBU].[dbo].[WUSU_SUOLITest_Table].[PK_WUSU_SUOLITest_Table]), SEEK:([ASBU].[dbo].[WUSU_SUOLITest_Table].[ID]=[Expr1006]) ORDERED FORWARD)
CPU 时间 = 46 毫秒，占用时间 = 47 毫秒。

;with cte_id
as
(
select max(id) as id
from WUSU_SUOLITest_Table
group by SensorCode
)
select * from cte_id a cross apply (select top 1 * from WUSU_SUOLITest_Table b where a.id=b.ID order by b.id desc) b

|--Nested Loops(Inner Join, OUTER REFERENCES:([Expr1003], [Expr1007]) WITH UNORDERED PREFETCH)
|--Stream Aggregate(GROUP BY:([ASBU].[dbo].[WUSU_SUOLITest_Table].[SensorCode]) DEFINE:([Expr1003]=MAX([ASBU].[dbo].[WUSU_SUOLITest_Table].[ID])))
| |--Index Scan(OBJECT:([ASBU].[dbo].[WUSU_SUOLITest_Table].[IX_WUSU_SUOLITest_Table_SensorCode]), ORDERED FORWARD)
|--Top(TOP EXPRESSION:((1)))
|--Clustered Index Seek(OBJECT:([ASBU].[dbo].[WUSU_SUOLITest_Table].[PK_WUSU_SUOLITest_Table] AS [b]), SEEK:([b].[ID]=[Expr1003]) ORDERED FORWARD)
CPU 时间 = 31 毫秒，占用时间 = 46 毫秒。

建议楼主多看看实际的执行计划，基本上第一，四，五种的是一样的。row_number为什么慢，主要是因为要按照SensorCode，ID desc进行排序.exists慢主要是因为利用nested loops的时候需要聚集扫描ID
看上面的执行计划，是第一种是最好的写法，