如何开发一个高效率的统计脚本？高手进来！

Devidzhang 2006-12-22 03:13:45

是想做一个网站IP回访率统计的脚本
file1是每天网站访问日志，file2是一个ip库，需要统计file1中的ip是否在file2中出现过，file2大概有50万的记录。file1大概有20万条记录。下面是我的脚本

#!/bin/bash

#...
#前面略过一些脚本

#incount是回访的IP数，newcount是新的访问IP数

incount=0
newcount=0

#file1每行记录的第3列是待检索的ip
while read a1 a2 a3 a4
do
if grep "$a3" file2 > /dev/null >&1
then
incount=`expr $incount + 1`
else
newcount=`expr $newcount + 1`
fi
done < $file1

echo "incount=$incount"
echo "newcount=$newcount"

但是这个遍历的脚本效率很慢，是否有更好的方法，比如用awk的操作，请教高手，100分奉上！

...全文

263 11 打赏收藏转发到动态举报

写回复

用AI写文章

11 条回复

切换为时间正序

请发表友善的回复…

发表回复

playmud 2006-12-25

打赏
举报

的确如此啊，数据量可不算小了，当然也不算大。
我觉得应该分时了，不能集中在一个时间去处理。
你可以没10分钟生成一个文件，然后导出去做一下处理。
另外，ip是从一个int类型来的，如果不当作字符串比较，
而是当作int类型去比较，应该能快不少，你可以写一个专门的程序替代这个grep,
这样效率能高不少。而且你的file2应该是排序的，这样可以折半查找。
一条记录是4byts,50万条就是
2,000,000byte,2M？全部读入内存也不慢。
总之单纯用shell，应该没有质的提高。

gangjh 2006-12-25

打赏
举报

使用Query Analyzer，查看SQL语句的查询计划和评估分析是否是优化的SQL
是否可以优化. SQL Server的优化不怎么懂.
可以说说机器配置,负载,以及现在处理需要多少时间么.
上百万的记录,用shell脚本处理有点冒险.

Devidzhang 2006-12-25

打赏
举报

前面说的“数据库更不理想”，是在一个小级别数据量情况下测了一下，shell快些

Devidzhang 2006-12-25

打赏
举报

我是用sql server，目前公司没有用oracle

阿飞，数据入库由于有索引也比较慢，我们的file1，file2越来越大了，现在都是百万级别。脚本也就是简单的：select ip from table1 where ip in (select ip from table2)，没有其他配置。

目前，我只是觉得数据库处理和我写的shell都慢。还没有比较过谁优谁劣。我只是觉得自己写的shell脚本不够好，肯定有更好的方法。

gangjh 2006-12-25

打赏
举报

數據庫生來就是為了處理大量數據.如果它更不行. Oracle, Mysql,bdb使用者該哭泣了.
你用的是什麼數據庫測試的?如何配置?,Table是否建立索引? 腳本是否有優化潛力 ?
20萬與50萬筆記錄連接操作在Oracle中操作該是輕量級的.

Devidzhang 2006-12-25

打赏
举报

阿飞，数据库更不理想，所以才用shell处理，但是似乎shell循环仍很慢，期待更好的方法...

感谢playmud，阿飞

gangjh 2006-12-23

打赏
举报

我覺得grep 20萬次,很耗io時間.
需讀取,搜索文檔 20萬次.

也許用將文檔按行插入數據庫,用數據庫處理性能更好.

playmud 2006-12-23

打赏
举报

楼上说得俺考虑了，只是觉得排序的过程太浪费时间了，或许得不偿失，否则排序去重file1以后在用楼上的方法，速度肯定快。

gangjh 2006-12-23

打赏
举报

可否先將file1,file2排序.
line1,line2分別對應file1,file2中第一行.
line1 >line2 : 不存在:line2 讀file2下一行.
line1 <line2 : 不存在.line1 讀file1下一行
line1 = line2 : 存在, line1讀file1下一行
這樣效率比較高,設計復雜了點.

仰望星空WU 2006-12-22

打赏
举报

呵，学习

playmud 2006-12-22

打赏
举报

while read a1 a2 a3 a4
do
grep -q "$a3" file2
if [ $? == 0 ]
then
incount=`expr $incount + 1`
else
newcount=`expr $newcount + 1`
fi
done < $file1
注意[]的空格，不过似乎比你的效率不高，不过有可能因为不用写入 /dev/null效率稍微有些提高

.NET关于string转换的一个小Bug Regular Expressions 完整的在.net后台执行javascript脚本集合 ASP.NET 中的正则表达式常用的匹配正则表达式和实例经典正则表达式 delegate vs. event 我是谁？[C#] 表达式计算引擎...

哥们别逗了，写个脚本那真不叫运维自动化! 2014-12-16 http://3060674.blog.51cto.com/3050674/1590803 好久没写文章了，最近要来刷下存在感，近两年，运维自动化被炒的火的不行，行业趋势不可挡，...

微软亚洲技术中心的面试题！...(2)并发性：不仅进程之间可以并发执行，同一个进程的多个线程之间也可并发执行 (3)拥有资源：进程是拥有资源的独立单位，线程不拥有系统资源，但可以访问隶属于进程的资源. (4

哥们别逗了，写个脚本那真不叫运维自动化! 2014-12-16 http://3060674.blog.51cto.com/3050674/1590803 好久没写文章了，最近要来刷下存在感，近两年，运维自动化被炒的火的不行，行业趋势不可挡，现在企业...

了解发音是有意义的，您不是第一个为此困惑的人，当然，也不会是最后一个：）大多数的美国人读 ubuntu 时，将 u 作为元音发音，类似单词 who 或者 boo ，重音在第二个音节即 u'buntu ，oo-boon-too 。如果您...