500万条记录,每个表有40个字段,总共15G数据如何做web上的全文检索和统计?
MS Sql server 2000的数据库,一共500万条记录,每个表有40个字段,总共15G数据。
现状:我对数据进行了分表处理,建立了一模一样的50个数据表,每个表大概10万条记录,并对ID进行了索引。剩下的就不知道从哪里下手了。
功能:
1 我要做全文检索,也就是随便输入一个关键词,可以在500万条记录中的40个字段里面进行查询,并返回全部结果。
这个功能要做在web上,提供浏览者使用,所以返回的时间控制在1秒以内。
2 还要做统计汇总功能,根据不同的条件,将检索后的结果进行统计,以排名,报表的形式进行统计输出。
这个功能也要求返回的时间控制在1秒以内。
问题:
1 本人没有做过这么大数据量的查询和统计,没有一点经验,所以对很多问题不是很明白。
2 首先在硬件上,对服务器应该有一定的要求吧?
3 对于编程语言上,选用asp还是php,还是.net比较合适呢?
4 我考虑将500万条记录全部输出成静态的html页面,然后再建立索引。如果这样,该如何建立索引,如何保证速度呢?
5 直接从数据库查询,然后输出,程序怎么判断这50个表,怎么选择这40个字段?
6 关于缓存问题,这种数据库形式的数据库检索和统计,怎么做缓存呢?一点头绪都没有。
也请各位做过的人提供范例或者可能的解决方法。