物联网将巨大无比,Hadoop也是
大数据挑战所有关于数据存储、处理和分析的一切假设。但是,这并不意味着关系型数据库和其他现存的技术很快就过时。
那是Cloudera 联合创始人Mike Olson最近和Bosch的Dirk Slama一起讨论物联网和像分布式处理框架Hadoop的新数据技术相互作用时的观点。Slama正在写一本关于物联网热潮的书,时常著作白皮书和谈论相关的话题。因此,他是向Olson提出值得深思的问题并得出一些有见地的回答的最佳人选,
值得庆幸的是,我聆听了这次对话。下面是一些集锦。
不仅大,而且变得更大
然而“大数据”是一个误称,大多数企业尽全力获得万花筒式的数据多样性而不是巨大的数据量,但毫无疑问数据量一直在增加。
Olson表示同意:
我们只看到很早以前的物联网数据流,而这些已有的数据流已经是巨大量的。以巨大的智能电网流动数据为例,从每月1次到1分钟10次:每个月每个仪表盘可以观察到150,000x多次数据。这些数据流肯定加速产生。我们将通过更多的设备来更细粒度地收集更多的数据。
正如Olson的最后一条答复,机器是罪魁祸首。他认为,机器产生数据已经强迫我们重新思考如何获取、存储和处理数据,建立大规模、高并行计算平台都是很常见的。
越来越多地新一代开发者正在“重新思考”。而目前仅仅300,000个开发者为物联网做贡献,最近来自VisionMobile项目的报告称,2020年将多达450万开发者,意味着57%的复合年增长率和巨大的市场机会。
关系数据库的角色
开发者依旧使用传统关系数据库获取和存储所有的数据吗?是或不是。
Olson很快指出关系型数据库的持续相关性:
将来世界上的数据达到目前数据量的1000倍,这很容易相信,因为它是由依据的,关系型数据库继续在市场上活跃,在子数据集上获取和传送商业应用。
但是,他同样很快地展示出像Hadoop等现代数据基础设施的巨大机遇:
新一代数据库技术的重大机遇不是去破坏现有的OLTP或OLAP市场。重要的是,解放新数据流和以前不可用数据的分析能力,去理解世界上以前不能理解的事物,因为我们没有信息。所以,我不认为这是传统数据库的厄运和低谷。我觉得,这是由物联网驱动的大数据新市场和新机遇,为一类新技术创造重大机遇。
企业作为大数据项目一部分的大量数据是事务交易产生的,所以很多是传统数据库的范围。但是,当新类型数据需要新的分析时,那将有所改变。
没有万能的解决方案
所有这一切意味着,我们拥有一个多语种的未来,企业数据仓库与Hadoop并存,甚至NoSQL数据库和它们的关系数据库同胞将共同存在。
毕竟,大数据很大。根据它的定义,它太广泛而多样,以致于任何技术都无法完全解决它。
不过,Olson和其他人提供了新的数据技术,认为Hadoop的数据处理量和分析灵活性意味着你可以做以前不可能的事情,因此它为所有的数据给出新的机遇。新的机遇推动数十亿美元估值的Cloudera和其他初创企业,吸引了Bosch和其他重要的产品投资。
转自
The Internet Of Things Will Be Huge, And So Will Hadoop