求大规模数据索引方案
每天产生超过10G的数据量 太大 没用数据引擎 直接用txt存的
数据结构大概如下
field1 field2 field3 field4 ....
0001 20001 54003 'abc'
0007 20009 67085 'skjdflk'
0003 30005 58092 'jhsjk'
0001 20008 54063 'abc'
0005 20001 12345 'abcde'
...........................
总共有40几个fields 由于是txt 没有任何索引 这些field类型是int型或者字符串 字符串很短的 一般不超过10个字符
现在从一个月的数据中找出 field2 等于20001的数据 用的时间要用小时来计算 这只是最简单的数据查找 一旦有复杂的数据分析 那简直是噩梦 没办法 只有寻找索引方案了
考虑过lucence的自动化索引方案 但它的索引文件是数据文件的2倍 也就是需要增加200%的硬盘容量 而我们的硬盘增加比例不能超过30% 也就是索引文件不能超过原数据量的30% 该怎么建索引?
希望大家各抒己见 提供点思路
现在不要求建立的索引多么强大 折中点的就成 毕竟也要考虑硬盘和服务器成本