觉得自己的ETL过程很慢（存储过程实现）来讨论一下大家有什么高招?

Reasoncool 2008-11-16 09:30:04

我大概说一下我的ETL，用SQL编程实现的，我做过一个网站流量统计项目，比如我想获得每个访问者来源地区，我的处理方式是利用游标去处理上一个小时的数据，遍历每一条数据查询IP数据库获取地区编号。现在数据量每小时3、4万，处理时间3分钟。如果数据量再大，我估计我的处理方式就太慢了，不能应付。

大家有什么好办法？

班主使编程实现讲讲经验好吗？万分感谢！！！！

...全文

648 15 打赏收藏转发到动态举报

写回复

用AI写文章

15 条回复

切换为时间正序

请发表友善的回复…

发表回复

zhangyanxxxx 2008-11-24

打赏
举报

另外利用MOLAP+ROLAP这种解决方案也可以解决你说的问题,这是有成功案例的

zhangyanxxxx 2008-11-24

打赏
举报

在做ETL的时候,如果涉及到了大量的计算或复杂的判断逻辑等内容时,最好编写外部应用程序,而不使用TSQL存储过程,尤其是游标,性能非常低下,因为CLR程序更适合处理复杂计算和多分支判断情况,你说这种情况我以前也遇见过,你不防试一下

Reasoncool 2008-11-21

打赏
举报

感谢yuhr61，pxboy，owx，MSTOP 地回答。我受益匪浅！

大家都在说我举的例子从这个例子改变了我以前编程的习惯，是程序的效率提高了很多。

大家都是用存储过程、自定义函数在原始数据中分解出各维度值吗？我就是这么做的不知道是否正确是否合理希望大家提点意见帮助成长赫赫

华芸智森 2008-11-21

打赏
举报

1。将IP全部处理成整数。

ALTER    FUNCTION DBO.FUN_IP2INT( 

@IP CHAR(20) 

)RETURNS BIGINT 

AS 

BEGIN 

DECLARE @RE BIGINT 

SET @RE=0 

SELECT @RE=@RE+LEFT(@IP,CHARINDEX('.',@IP+'.')-1)*[ID] 

,@IP=STUFF(@IP,1,CHARINDEX('.',@IP+'.'),'') 

FROM( 

SELECT [ID]=CAST(16777216 AS BIGINT) 

UNION ALL SELECT 65536 

UNION ALL SELECT 256 

UNION ALL SELECT 1)A 

RETURN(@RE) 

END

2。有一个开始的IP列（整型）int_begip，一个结束的IP列（整形）int_endip 。还有一个 DiffIp(两IP整形差值）int_diffip
在记录IP时，将IP全部转化，并计算出差值。

3。一般情况下，一个IP有可能匹配多个IP段的。如：
段一 128.5.6.1 128.5.6.230
段二 128.5.6.8 128.5.6.30
一个值是 128.5.6.20 ,应该匹配的是 128.5.6.8 128.5.6.30 ,而不是 128.5.6.1 128.5.6.230 .
要取出最匹配的IP,必须要用到IP差值.



  DECLARE @INT_IP INT 

  SET @INT_IP=DBO.FUN_IP2INT('128.5.6.20') 

  SELECT top 1 Var_IP from ( 

      select Var_IP,Int_DiffIp from IPTABLE WHERE @INT_IP>= INT_BEGIP AND @INT_IP <=INT_ENDIP 

  ) as t order by  Int_DiffIp

owx 2008-11-18

打赏
举报

做一个地区编码IP映射表,从事实表中根据IP,直接得到,组合成视图

Reasoncool 2008-11-16

打赏
举报

我测试过了 30万数据

SQL查询方法:11秒
SELECT [dbo].[FN_GetNewsId] ([url_join]) as newsid
FROM TempOpenPV

游标方法:28秒

DECLARE @i int
set @i=0;
DECLARE @ipno varchar(500)
--定义游标
DECLARE Infosss CURSOR FOR

SELECT [url_join]
FROM [dbo].[TempOpenPV]
OPEN Infosss

FETCH NEXT FROM Infosss
INTO @ipno
WHILE @@FETCH_STATUS = 0
BEGIN
set @i=[dbo].[FN_GetNewsId] (@ipno)
FETCH NEXT FROM infosss
INTO @ipno
END
--关闭游标
CLOSE infosss
DEALLOCATE infosss

Reasoncool 2008-11-16