关于高效的大表关联查找问题
1、文本文件 a 是一列数字, 50 W 的记录量 :
2
5
12
14
17
2、文件 b 有 5列,1200W 的记录量,字段分别是 文件 a 的start范围、文件 a 的end范围, col3, col4, col5
1 2 c13 c14 c15
3 3 c23 c24 c25
7 9 c33 c34 c35
13 20 c43 c44 c45
3、需求:a中的元素如果在b中的第一列与第二列之间,就算匹配成功,然后输出后面的3、4、5列到文件 c
例如 运行程序后,c中的内容应该是:
c13 c14 c15
c43 c44 c45
c43 c44 c45
4、环境:suse linux
5、由于机器性能内存、cpu所限,自己写的awk处理太慢了,一秒钟才出来一个结果,看大家有没有更高效简洁的办法,谢谢!