由Hadoop引发的几点思考
P星人 2014-04-14 06:01:02 Hadoop是大家广泛接受的主流体系结构。其设计理念从硬件层面有两个重要的哲学理念:
1) Share Nothing – 即每个硬件节点的完全独立,CPU/内存/本地盘完全私有,以追求每个节点效率的最大化。
2) Data Exchange through distributed file system – 数据的共享通过分布式文件系统来实现间接的远程访问(一个节点需要访问远程数据块要通过DataNode代理实现)。
这个体系工作得不错。最大的优点是“Scalability”几乎可扩展到无穷大。
但在论坛上少有人提到Hadoop 之外的大数据分析的架构 --- 是否这是大数据分析的唯一架构选择?无限的scalability是否是数据分析的最重要或唯一目标?
首先要问的是:你的大数据真的很大吗?真的需要几万台装满硬盘的服务器才能装得下?
其次要问的是:你的大数据是否需要多次迭代分析逐步优化,每次迭代数据量是否在大大地精简?
再次要问的是:你的大数据是否有实时性?处理节点之间要分析的数据是否很少量,还是要大量地进行交换?
抛砖引玉,欢迎各位大拿一块儿来聊聊。