请问如何加快shell处理日志文件的速度

x1060601 2018-09-03 09:30:21

我想请问大家一下，如何加快处理脚本文件的速度，脚本代码如下，感激！
insert_nat(){
echo $1 $2
v=""
sed 's/DF//g'
for((i=1; i<=$2; ++i))
do
((row=$i+$1))
values=($(awk -F '[= ]' 'NR=='$row' {print $3, $12, $14, $16, $26, $28, $30}' /var/log/natLog-$YESTERDAY))
src_ip=${values[1]}
dst_ip=${values[2]}
len=${values[3]}
proto=${values[4]}
src_port=${values[5]}
dst_port=${values[6]}
record_time=$(date -d "YESTERDAY ${values[0]}" +%s)
v="(inet_aton("\"$src_ip\""),
cast("\"$src_port\"" as signed),
inet_aton("\"$dst_ip\""),
cast("\"$dst_port\"" as signed),
"\"$proto\"",
cast("\"$len\"" as signed),
cast("\"$record_time\"" as unsigned)), "${v}
done
mysql -u$DBUSER -p$DBPASSWD tzw -e "insert into tzw_nat_log(src_ip, src_port, dst_ip, dst_port, proto, len, record_time)
values${v%,*}"
}

...全文

938 9 打赏收藏转发到动态举报

写回复

9 条回复

切换为时间正序

请发表友善的回复…

发表回复

x1060601 2018-09-10

打赏
举报

回复

引用 7 楼 Runnerchin 的回复:

你的处理逻辑是每一行都读取一次文本文件吗？10W行就是读取和关闭10W次？IO开销很大啊。为什么不直接对awk -F 的结果进行循环处理？一次打开，处理10W行数据，而不是10W次打开，每次处理一行

每500行调用一次此函数，这个函数里面确实是每一行都读取一次

X-i-n 2018-09-08

打赏
举报

回复

你的处理逻辑是每一行都读取一次文本文件吗？10W行就是读取和关闭10W次？IO开销很大啊。为什么不直接对awk -F 的结果进行循环处理？一次打开，处理10W行数据，而不是10W次打开，每次处理一行

x1060601 2018-09-08

打赏
举报

回复

引用 4 楼 ljc007 的回复:

你得先搞清楚哪里慢，20w条记录每条记录都要调用一次insert_nat吗？那肯定慢啊。
应该先生成sql文件，最后用mysql命令一次执行。

您好，感谢您的回答，我试过将插入数据库的语句注释掉，速度几乎不变。应该是awk取日志字段的时候慢，这个能再优化嘛

x1060601 2018-09-08

打赏
举报

回复

引用 3 楼 Runnerchin 的回复:

不要直接在循环里插sql，改成把sql语句存到文本文件里，最后用mysql命令执行这个文本文件

您好，感谢您的回答，我试过将插入数据库的语句注释掉，速度几乎不变。应该是awk取日志字段的时候慢，这个能再优化嘛

ljc007 2018-09-05

打赏
举报

回复

你得先搞清楚哪里慢，20w条记录每条记录都要调用一次insert_nat吗？那肯定慢啊。
应该先生成sql文件，最后用mysql命令一次执行。

李庆海 2018-09-03

打赏
举报

回复

你好，建议用python写吧

x1060601 2018-09-03

打赏
举报

回复

日志记录20w条左右，还会增加

X-i-n 2018-09-03

打赏
举报

回复

不要直接在循环里插sql，改成把sql语句存到文本文件里，最后用mysql命令执行这个文本文件

有时候，我们需要对一些程序的日志文件进行数据分析，如果是我们自己处理和分析的情况下一般是使用程序读取对应日志文件按照对应规则保存到数据库然后再进行分析。如果我们直接到日志文件进行分析，我们没有办法记录以及分析过的。因为日志文件是随时在增加的。但是我们程序读取到和处理一次时，没有办法确定是否有新的日志追加到里面。那么如果直接读取第一行后删除第一行后再写入文件中。这样会造成日志丢失，所以这个方法

问题描述：在大流量线上服务中，日志系统会产生数量庞大的日志，动辄就是几十G。在如此之大的文件中快速搜索日志是运维人员经常遇见的问题。我们经常遇见的问题是查询一段时间内的某些条日志。比如，今天有一个访问失败了，大约是在上午9点，把这条日志找出来，然后查找失败原因。常见处理方式及缺点：1.如果文件比较小，100m以内使用grep、awk或者sed进行逐条匹配比较方便，但是文件非常大时，其查找效率是非常...

问题描述：在大流量线上服务中，日志系统会产生数量庞大的日志，动辄就是几十G。在如此之大的文件中快速搜索日志是运维人员经常遇见的问题。我们经常遇见的问题是查询一段时间内的某些条日志。比如，今天有一个访问失败了，大约是在上午9点，把这条日志找出来。查找失败原因。常见处理方式及缺点： 1.如果文件比较小，100m以内使用grep、awk或者sed进行逐条匹配比较方便，但是文

深入了解Nginx高级优化shell脚本日志分割设置连接超时Nginx深入优化更改进程数配置网页压缩配置防盗链 shell脚本日志分割 ●随着Nginx运行时间的增加，产生的日志也会逐渐增加，为了方便掌握 Nginx的运行状态，需要时刻关注Nginx日志文件。太大的日志文件对监控是一个大灾难，不便于分析排查，需要定期的进行日志文件的切割。 ●编写脚本/opt/fenge.sh## 把Nginx的日志文件/usr/local/nginx/logs/access.log移动到,目录/var/log/ngin

一、先说一下Shell脚本语言自身的局限性作为解释型的脚本语言，天生就有效率上边的缺陷。尽管它调用的其他命令可能效率上是不错的。 Shell脚本程序的执行是顺序执行，而非并行执行的。这很大程度上浪费了可能能利用上的系统资源。 Shell每执行一个命令就创建一个新的进程，如果脚本编写者没有这方面意识，编写脚本不当的话，是非常浪费系统资源的。二、我们在Shell脚本语言的局限性上尽可能的通过我们有

Linux/Unix社区

18,772

社区成员

11,463

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章