【awk】数组排序

LeonTown 2011-08-03 02:50:25

该awk应用的需求是：

awk脚本文件的输入是一个文件路径，
遍历该文件的各行，提取出信息，记录在一个数组里。

该信息可以认为是一个key-value的形式，
然后，根据key进行排序，
最后将排好序的数组输出。

请问这样的awk脚本该如何写呢？
主要是key-value数组的存储，和排序，及按序输出。

谢谢！！

...全文

389 12 打赏收藏转发到动态举报

写回复

用AI写文章

12 条回复

切换为时间正序

请发表友善的回复…

发表回复

LeonTown 2011-08-04

打赏
举报

再就是，增加该行的x的数量这个字段，
因为，x的数量肯呢个很多，用眼数不过来。。。

[Quote=引用 11 楼 leontown 的回复:]

cnt=0;这一句不可以放在BEGIN段里吗？

不是说，awk脚本只是对一行进行处理吗？
放在BEGIN段里应该不会有影响吧？

另外，为什么要用asorti啊？

再就是，能不能给数组的内容再增加一些字段，比如当前文件名等？
[/Quote]

LeonTown 2011-08-04

打赏
举报

cnt=0;这一句不可以放在BEGIN段里吗？

不是说，awk脚本只是对一行进行处理吗？
放在BEGIN段里应该不会有影响吧？

另外，为什么要用asorti啊？

再就是，能不能给数组的内容再增加一些字段，比如当前文件名等？

delphiwcdj 2011-08-04

打赏
举报







# test.awk



BEGIN{

	#myarray[-1]=ARGV[1];# awk -f test.awk data

	#print myarray[-1];  # print data	

}

{

	cnt=0;

	for(i=0; i<NF; ++i){

	# debug

	#	printf("%c ",$(i+1));

		if($(i+1)=="x"){

			++cnt;

		}

	}		

	#printf("\n");

	myarray[cnt]=$0;

}

END{

	n=asorti(myarray, dest);#  asorti(gawk3.1.2)

	for(i=1; i<=n; ++i){

		print myarray[dest[i]]; #print value of array

	}

	#for(i=0; i<=NF; ++i){

	#	if(myarray[i]){

	#		print myarray[i];

	#	}

	#}

}

delphiwcdj 2011-08-03

打赏
举报

修改下



# test.awk



#BEGIN{

#	myarray[-1]=ARGV[1];# awk -f test.awk data

#	print myarray[-1];  # print data	

#}

{

	cnt=0;

	for(i=0; i<NF; ++i){

	# debug

	#	printf("%c ",$(i+1));

		if($(i+1)=="x"){

			++cnt;

		}

	}		

	#printf("\n");

	myarray[cnt]=$0;

}

END{

	#n=asorti(myarray);#  asorti(gawk3.1.2)

	#for(i=1; i<=n; ++i){

	#	print myarray[i]; #print value of array

	#}

	for(i=0; i<=NF; ++i){

		if(myarray[i]){

			print myarray[i];

		}

	}

}



测试：data.txt

a b x c d

b x c x x

c x x d v



awk -f test.awk data



输出：

a b x c d

c x x d v

b x c x x

LeonTown 2011-08-03

打赏
举报

[Quote=引用 7 楼 delphiwcdj 的回复:]

gawk -f test.awk data

data文件：
a b x c d
x a c x x
c x x d v
输出：
a b x c d
c x x d v
x a c x x
Perl code

# test.awk
BEGIN{
cnt=0;
}
{
for(i=0; i<NF; ++i){
# printf("%c ",$(……
[/Quote]

非常感谢！

有没有可能给数组增加一个当前文件名（data）的字段呢？

delphiwcdj 2011-08-03

打赏
举报

gawk -f test.awk data

data文件：
a b x c d
x a c x x
c x x d v
输出：
a b x c d
c x x d v
x a c x x



# test.awk

BEGIN{

	cnt=0;

}

{

	for(i=0; i<NF; ++i){

	#	printf("%c ",$(i+1));

		if($(i+1)=="x"){

			++cnt;

		}

	}		

	#printf("\n");

	myarray[$cnt]=$0;

}

END{

	n=asort(myarray);

	for(i=1; i<=n; ++i){

		print myarray[i];

	}

}

LeonTown 2011-08-03

打赏
举报

[Quote=引用 5 楼 joan8363 的回复:]

key是当前行中"x"的数量，value记录行号等信息。

key是x的数量？这样key不就不唯一了？
[/Quote]

哦，这个数组不能认为就是个map，
这里的key仅供排序之用。

或许，数组存储的是一个struct，其中有x的数量、行号等信息，
并且，根据x的数量排序。

joan8363 2011-08-03

打赏
举报

key是当前行中"x"的数量，value记录行号等信息。

key是x的数量？这样key不就不唯一了？

LeonTown 2011-08-03

打赏
举报

[Quote=引用 3 楼 joan8363 的回复:]

awk -F'x' '{print NF-1,$0}' | sort -n
[/Quote]

这是个很有趣的技巧！
不过，我更希望通过遍历字段，将结果备份到数组里，
还要记录当前的行号，文件名等信息。

类似于：
for (x=1; x<=NF; x++) {
if($x == "x")
num_null = num_null + 1
}

主要是，这里的数组该如何表示呢？
key是当前行中"x"的数量，value记录行号等信息。
并且按照key对数组进行排序。

joan8363 2011-08-03