求海量数据,分析,处理 解决方案????????

Reasoncool 2006-08-14 02:04:50
情况:1、每天要有上百万的的数据写入数据库(时时)2、要对数据进行汇总,分析,处理,查询。

这样速度很慢 请问高手 怎么解决此类问题
...全文
320 15 打赏 收藏 转发到动态 举报
写回复
用AI写文章
15 条回复
切换为时间正序
请发表友善的回复…
发表回复
zhaozhao110 2006-08-15
  • 打赏
  • 举报
回复
可考滤一下搜索引擎的理论,用分词......
Reasoncool 2006-08-15
  • 打赏
  • 举报
回复
公司要的数据 是 某项目某地区某周几各个时间段的数据 不好切成各个小表吧

我有这样一个想法 大家看看 是否可行???

建立三个数据库
1.公用数据库(一些通用表 如iP表)
2.每天临时数据库(原始数据表和统计分析后的表)
3.汇总库 (表结构和每天临时数据库一样)

每天定时从临时数据库中追加昨天的数据到汇总库,追加完毕后,删除临时数据库中昨天的数据。 如此循环下去
oldcsdn 2006-08-15
  • 打赏
  • 举报
回复

比较简单的方法是:
1.合量地将大数据量的表纵向或横向切分成多个数据量小的表,(如按地区,时间等,总之将同时进行关联查询操作较少的数据分散,以减轻查询负荷)
2.使用备份数据库作统计,分析。(这大的数据库不可能没有备份数据库支持),备份数据库和主数据库使用数据库技术进行同步.
yan63 2006-08-15
  • 打赏
  • 举报
回复
这么牛的网站啊,一天一个多g,是蜘蛛吗?
看看能不能在临时表中储存更新的数据,然后在某个空闲时段批量写入,对大数据量非索引字段使用group by需要大的开销,若是大数据量更新是需要频繁更新索引,那还是将索引删除后更新,然后重建索引来的核算,
对于:
2.要对数据进行汇总,分析,处理,查询。对于大数据量的是不是考虑预处理,实时还是有难度,如果采用上面的临时表缓存的策略的话。
Reasoncool 2006-08-15
  • 打赏
  • 举报
回复
yan63() 说的是分布式数据库处理吧 我们公司目前要用不到

我说一下大体情况 网站做推广 网站的日流量上百万 有一天数据增加了一个多G

统计系统 马上出现zbdzjx(zbdzjx) 所说的情况 大量数据的写入 让其他查询之类的操作 不能进行
fattycat 2006-08-14
  • 打赏
  • 举报
回复

mark
zbdzjx 2006-08-14
  • 打赏
  • 举报
回复
我们公司的系统也不小,现在有9个G的数据库大小,每天增加近百兆的数据.

曾经对两个大数据量的表进行group by ,再连接,导致企业管理器和查询分析器断网.至今原因不明,只好用临时表.
yan63 2006-08-14
  • 打赏
  • 举报
回复
通过负载平衡将用户请求分流到地区镜像,数据库使用集群来增加并发量。在数据库设计的时候考虑依照地区,时间等作横向切割,减少统计运算量
Reasoncool 2006-08-14
  • 打赏
  • 举报
回复
应该算是一个 网站统计系统 就像统计 网易 新浪 这样的门户网站流量

做年 月 日 周 小时段 地区 分析
Reasoncool 2006-08-14
  • 打赏
  • 举报
回复
时时有大量数据 插入 对同一个数据库操作 就很慢了 甚至超时
Reasoncool 2006-08-14
  • 打赏
  • 举报
回复
应用数据仓库 是否可以解决???
oldcsdn 2006-08-14
  • 打赏
  • 举报
回复
lz 做什么应用,这多数据,要真有这样的需求,恐怕也不是单纯软件程序能解决问题的了,硬件、数据库都得跟上,还得使用负载均衡技术,恐怕lz得请一大帮专家都帮你设计解决方案、数据库方案了.
Teng_s2000 2006-08-14
  • 打赏
  • 举报
回复
1.sql优化
2.存储过程
3.服务器配置在高点
bccu 2006-08-14
  • 打赏
  • 举报
回复
关注
Reasoncool 2006-08-14
  • 打赏
  • 举报
回复
  本书从hadoop的缘起开始,由浅入深,结合理论和实践,全方位地介绍hado叩这一高性能处理海量数据集的理想工具。全书共14章,3个附录,涉及的主题包括:haddoop简介:mapreduce简介:hadoop分布式文件系统;hadoop的i/o、mapreduce应用程序开发;mapreduce的工作机制:mapreduce的类型和格式;mapreduce的特性:如何安装hadoop集群,如何管理hadoop;pig简介:hbase简介:zookeeper简介,最后还提供了丰富的案例分析。   本书是hadoop权威参考,程序员可从中探索如何分析海量数据集,管理员可以从中了解如何安装与运行hadoop集群。   什么是谷歌帝国的基石?mapreduce算法是也!apache hadoop架构作为mapreduce算法的一种开源应用,是应对海量数据的理想工具。项目负责人tomwhite透过本书详细阐述了如何使用hadoop构建可靠、可伸缩的分布式系统,程序员可从中探索如何分析海量数据集,管理员可以从中了解如何安装和运行hadoop集群。   本书结合丰富的案例来展示如何用hadoop解决特殊问题,它将帮助您:    ·使用hadoop分布式文件系统(hdfs)来存储海量数据集,   通过mapreduce对这些数据集运行分布式计算    ·熟悉hadoop的数据和ilo构件,用于压缩、数据集成、序列化和持久处理    ·洞悉编~mapreduce实际应用时的常见陷阱和高级特性    ·设计、构建和管理一个专用的hadoop集群或在云上运行hadoop    ·使用高级查询语言pig来处理大规模数据    ·利用hadoop数据库hbase来保存和处理结构化/半结构化数据    ·学会使用zookeeper来构建分布式系统   如果您拥有海量数据,无论是gb级还是pb级,hadoop都将是您的完美解决方案

62,046

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术交流专区
javascript云原生 企业社区
社区管理员
  • ASP.NET
  • .Net开发者社区
  • R小R
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

.NET 社区是一个围绕开源 .NET 的开放、热情、创新、包容的技术社区。社区致力于为广大 .NET 爱好者提供一个良好的知识共享、协同互助的 .NET 技术交流环境。我们尊重不同意见,支持健康理性的辩论和互动,反对歧视和攻击。

希望和大家一起共同营造一个活跃、友好的社区氛围。

试试用AI创作助手写篇文章吧