求海量数据，分析，处理解决方案？？？？？？？？

Reasoncool 2006-08-14 02:04:50

情况：1、每天要有上百万的的数据写入数据库（时时）2、要对数据进行汇总，分析，处理，查询。

这样速度很慢请问高手怎么解决此类问题

...全文

320 15 打赏收藏转发到动态举报

写回复

15 条回复

切换为时间正序

请发表友善的回复…

发表回复

zhaozhao110 2006-08-15

打赏
举报

回复

可考滤一下搜索引擎的理论,用分词......

Reasoncool 2006-08-15

打赏
举报

回复

公司要的数据是某项目某地区某周几各个时间段的数据不好切成各个小表吧

我有这样一个想法大家看看是否可行？？？

建立三个数据库
1.公用数据库（一些通用表如iP表）
2.每天临时数据库（原始数据表和统计分析后的表）
3.汇总库（表结构和每天临时数据库一样）

每天定时从临时数据库中追加昨天的数据到汇总库，追加完毕后，删除临时数据库中昨天的数据。如此循环下去

oldcsdn 2006-08-15

打赏
举报

回复

比较简单的方法是：
1.合量地将大数据量的表纵向或横向切分成多个数据量小的表,(如按地区，时间等,总之将同时进行关联查询操作较少的数据分散，以减轻查询负荷)
2.使用备份数据库作统计，分析。（这大的数据库不可能没有备份数据库支持），备份数据库和主数据库使用数据库技术进行同步.

yan63 2006-08-15

打赏
举报

回复

这么牛的网站啊，一天一个多g，是蜘蛛吗？
看看能不能在临时表中储存更新的数据，然后在某个空闲时段批量写入，对大数据量非索引字段使用group by需要大的开销，若是大数据量更新是需要频繁更新索引，那还是将索引删除后更新，然后重建索引来的核算，
对于:
2.要对数据进行汇总，分析，处理，查询。对于大数据量的是不是考虑预处理，实时还是有难度，如果采用上面的临时表缓存的策略的话。

Reasoncool 2006-08-15

打赏
举报

回复

yan63() 说的是分布式数据库处理吧我们公司目前要用不到

我说一下大体情况网站做推广网站的日流量上百万有一天数据增加了一个多G

统计系统马上出现zbdzjx(zbdzjx) 所说的情况大量数据的写入让其他查询之类的操作不能进行

fattycat 2006-08-14

打赏
举报

回复

mark

zbdzjx 2006-08-14

打赏
举报

回复

我们公司的系统也不小,现在有9个G的数据库大小,每天增加近百兆的数据.

曾经对两个大数据量的表进行group by ,再连接,导致企业管理器和查询分析器断网.至今原因不明,只好用临时表.

yan63 2006-08-14

打赏
举报

回复

通过负载平衡将用户请求分流到地区镜像，数据库使用集群来增加并发量。在数据库设计的时候考虑依照地区，时间等作横向切割，减少统计运算量

Reasoncool 2006-08-14

打赏
举报

回复

应该算是一个网站统计系统就像统计网易新浪这样的门户网站流量

做年月日周小时段地区分析

Reasoncool 2006-08-14

打赏
举报

回复

时时有大量数据插入对同一个数据库操作就很慢了甚至超时

Reasoncool 2006-08-14

打赏
举报

回复

应用数据仓库是否可以解决？？？

oldcsdn 2006-08-14

打赏
举报

回复

lz 做什么应用，这多数据，要真有这样的需求，恐怕也不是单纯软件程序能解决问题的了，硬件、数据库都得跟上,还得使用负载均衡技术,恐怕lz得请一大帮专家都帮你设计解决方案、数据库方案了.

Teng_s2000 2006-08-14

打赏
举报

回复

1.sql优化
2.存储过程
3.服务器配置在高点

bccu 2006-08-14

打赏
举报

回复

关注

Reasoncool 2006-08-14

打赏
举报

回复

顶

　　本书从hadoop的缘起开始，由浅入深，结合理论和实践，全方位地介绍hado叩这一高性能处理海量数据集的理想工具。全书共14章，3个附录，涉及的主题包括：haddoop简介：mapreduce简介：hadoop分布式文件系统；hadoop的i／o、mapreduce应用程序开发；mapreduce的工作机制：mapreduce的类型和格式；mapreduce的特性：如何安装hadoop集群，如何管理hadoop；pig简介：hbase简介：zookeeper简介，最后还提供了丰富的案例分析。　　本书是hadoop权威参考，程序员可从中探索如何分析海量数据集，管理员可以从中了解如何安装与运行hadoop集群。　　什么是谷歌帝国的基石?mapreduce算法是也!apache hadoop架构作为mapreduce算法的一种开源应用，是应对海量数据的理想工具。项目负责人tomwhite透过本书详细阐述了如何使用hadoop构建可靠、可伸缩的分布式系统，程序员可从中探索如何分析海量数据集，管理员可以从中了解如何安装和运行hadoop集群。　　本书结合丰富的案例来展示如何用hadoop解决特殊问题，它将帮助您：　　 ·使用hadoop分布式文件系统(hdfs)来存储海量数据集，　　通过mapreduce对这些数据集运行分布式计算　　 ·熟悉hadoop的数据和ilo构件，用于压缩、数据集成、序列化和持久处理　　 ·洞悉编~mapreduce实际应用时的常见陷阱和高级特性　　 ·设计、构建和管理一个专用的hadoop集群或在云上运行hadoop 　　 ·使用高级查询语言pig来处理大规模数据　　 ·利用hadoop数据库hbase来保存和处理结构化／半结构化数据　　 ·学会使用zookeeper来构建分布式系统　　如果您拥有海量数据，无论是gb级还是pb级，hadoop都将是您的完美解决方案。

一、海量数据，为高效查询，如何处理？分库分表会带来哪些副作用？可能的解决方式有哪些？目前经常使用的关系型数据库如 MySQL、SQL Server 等，都是以“行”为单位进行存储，为了快速检索，也都采用了B树或其他索引技术。 1️⃣从原理上来讲，表中的数据越多，索引树的范围越大，磁盘读取也越多，性能也就越低。 2️⃣从实践角度来看，一般以百万到千万作为一个表的存储量级，超出该范围之后，性能就会下降，需要采用其他技术手段解决。【读写分离】首先想到的就是能否将读和写分离，主数据库用于写入，读数据库(多个)

智慧水务通过数采仪、无线网络、水质水压表等在线监测设备实时感知城市供排水系统的运行状态，并采用可视化的方式有机整合水务管理部门与供排水设施，形成“城市水务物联网”，并可将海量水务信息进行及时分析与处理，...

海量数据存储难点：数据量过大，数据中什么情况都可能存在；软硬件要求高，系统资源占用率高；要求很高的处理方法和技巧。海量数据存储处理经验: 一、选用优秀的数据库工具现在的数据库工具厂家比较多，对海量数据的处理对所使用的数据库工具要求比较高，一般使用Oracle或者DB2，微软公司最近发布的SQL Server 2005性能也不错。另外在BI领域：数据库，数据仓库，多维数据库，数据挖

海量数据的主要用途，就是支撑离线分析类业务的查询，根据数据量规模不同，由小到大可选：关系型数据库，列式数据库和一些大数据存储系统。TB量级下数据，若可接受相对较贵的硬件成本，ES很好。对于海量数据来说，存储系统无银弹，重要的是思想，根据业务对数据查询方式，反推数据应该使用什么存储系统、如何分片，以及如何组织。即使是同样一份数据，也要根据不同的查询需求，组织成不同的数据结构，存放在适合的存储系统中，才能在每一种业务中都达到理想的查询性能。

62,046

社区成员

669,048

社区内容

发帖

与我相关

我的任务

javascript云原生企业社区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

.NET 社区是一个围绕开源 .NET 的开放、热情、创新、包容的技术社区。社区致力于为广大 .NET 爱好者提供一个良好的知识共享、协同互助的 .NET 技术交流环境。我们尊重不同意见，支持健康理性的辩论和互动，反对歧视和攻击。

希望和大家一起共同营造一个活跃、友好的社区氛围。

试试用AI创作助手写篇文章吧

+ 用AI写文章