求大规模数据索引方案

kkkss1 2009-12-01 10:05:11
每天产生超过10G的数据量 太大 没用数据引擎 直接用txt存的
数据结构大概如下
field1 field2 field3 field4 ....
0001 20001 54003 'abc'
0007 20009 67085 'skjdflk'
0003 30005 58092 'jhsjk'
0001 20008 54063 'abc'
0005 20001 12345 'abcde'
...........................

总共有40几个fields 由于是txt 没有任何索引 这些field类型是int型或者字符串 字符串很短的 一般不超过10个字符

现在从一个月的数据中找出 field2 等于20001的数据 用的时间要用小时来计算 这只是最简单的数据查找 一旦有复杂的数据分析 那简直是噩梦 没办法 只有寻找索引方案了
考虑过lucence的自动化索引方案 但它的索引文件是数据文件的2倍 也就是需要增加200%的硬盘容量 而我们的硬盘增加比例不能超过30% 也就是索引文件不能超过原数据量的30% 该怎么建索引?

希望大家各抒己见 提供点思路

现在不要求建立的索引多么强大 折中点的就成 毕竟也要考虑硬盘和服务器成本
...全文
155 18 打赏 收藏 转发到动态 举报
写回复
用AI写文章
18 条回复
切换为时间正序
请发表友善的回复…
发表回复
小坏猪猪 2009-12-01
  • 打赏
  • 举报
回复
建议你对数据库进行分区,然后采用索引的方式提高访问速度
Adechen 2009-12-01
  • 打赏
  • 举报
回复
关注学习的。。。。
happy664618843 2009-12-01
  • 打赏
  • 举报
回复
建立索引 表的分区
kkkss1 2009-12-01
  • 打赏
  • 举报
回复
自己顶下
guoweihrh 2009-12-01
  • 打赏
  • 举报
回复
学习,没弄过这么大数据量的
悔说话的哑巴 2009-12-01
  • 打赏
  • 举报
回复
大项目啊
happyboyxq 2009-12-01
  • 打赏
  • 举报
回复
路过学习
  • 打赏
  • 举报
回复
额,没做过这么狠的项目。mark一下学习知识。
kkkss1 2009-12-01
  • 打赏
  • 举报
回复
[Quote=引用 5 楼 zzxap 的回复:]
10G的数据量对数据引擎来说不算什么
[/Quote]

风哥哥 是每台服务器一天10G 总共15台服务器
zzxap 2009-12-01
  • 打赏
  • 举报
回复
10G的数据量对数据引擎来说不算什么
CosmoKey 2009-12-01
  • 打赏
  • 举报
回复
帮顶
tkscascor 2009-12-01
  • 打赏
  • 举报
回复
up
liaoyukun111 2009-12-01
  • 打赏
  • 举报
回复
不会,友情帮顶
buller 2009-12-01
  • 打赏
  • 举报
回复
数据问题,帮顶
Jack2013tong 2009-12-01
  • 打赏
  • 举报
回复
为什么非要用txt?效率高吗?
eternityzhu 2009-12-01
  • 打赏
  • 举报
回复
这样做很累,用lucene吧
lemong 2009-12-01
  • 打赏
  • 举报
回复
[Quote=引用 15 楼 kkkss1 的回复:]
引用 14 楼 jerryjbiao 的回复:
建议你对数据库进行分区,然后采用索引的方式提高访问速度

没有数据库  大哥  并且决策层也不打算采用任何数据库引擎  不过数据分区确实要做的  我们现在分析其实已经精确到怎么合理利用每个扇区的IO上了  主要是尽可能的减少IO
[/Quote]

学习了,等待牛人吧,没做过这样的。。。
估计得自己写索引算法了,lucene解决不了,又不能用数据库
kkkss1 2009-12-01
  • 打赏
  • 举报
回复
[Quote=引用 14 楼 jerryjbiao 的回复:]
建议你对数据库进行分区,然后采用索引的方式提高访问速度
[/Quote]
没有数据库 大哥 并且决策层也不打算采用任何数据库引擎 不过数据分区确实要做的 我们现在分析其实已经精确到怎么合理利用每个扇区的IO上了 主要是尽可能的减少IO

62,265

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术交流专区
javascript云原生 企业社区
社区管理员
  • ASP.NET
  • .Net开发者社区
  • R小R
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

.NET 社区是一个围绕开源 .NET 的开放、热情、创新、包容的技术社区。社区致力于为广大 .NET 爱好者提供一个良好的知识共享、协同互助的 .NET 技术交流环境。我们尊重不同意见,支持健康理性的辩论和互动,反对歧视和攻击。

希望和大家一起共同营造一个活跃、友好的社区氛围。

试试用AI创作助手写篇文章吧