谷歌大数据论文读后感

weixin_44939391 2019-04-18 07:39:55
谷歌是一家美国的跨国科技企业,成立于1998年9月4日,被公认为全球最大的搜索引擎。公司致力于互联网搜索、云计算、广告技术等领域,开发并提供大量基于互联网的产品与服务,主要利润来自于AdWords等广告服务。 2019年4月9日,谷歌宣布了第一个大型混合云服务平台Anthos,能够让客户透过Google云端、数据中心使用应用程序,打入混合云市场。这样一个以盈利为目的的互联网企业,一直处于互联网行业的领军者,他们的技术发展直面实际需求。当面领巨大的挑战时,他们花费巨资进行研究。这三篇论文所提及的三大技术——编程/算法、文件系统、存储系统恰恰是互联网时代受到挑战最大、最直接的基础技术。 这些挑战来源于海量的大数据,来源由于输入的数据量巨大,因此要想在可接受的时间内完成运算,只有将这些计算分布在成百上千的主机上。如何处理并行计算、如何分发数据、如何处理错误?所有这些问题综合在一起,需要大量的代码处理,因此也使得原本简单的运算变得难以处理。来源于昂贵的机器维护费用。 这三篇论文介绍的正是面向需求的新技术。这些新技术最有价值是他们与众不同的设计思想。首先是新的分布式概念,虽然 GFS 的设计目标与许多传统的分布式文件系统有很多相同之处,但是,他们的设计还是以他们对自己的应用的负载情况和技术环境的分析为基础的,不管现在还是将来,GFS 和早期的分布式文件系统的设想都有明显的不同。所以他们重新审视了传统文件系统在设计上的折衷选择,衍生出了完全不同的设计思路。GFS 完全满足了对存储的需求。GFS 作为存储平台已经被广泛的部署在 Google 内部,存储他们的 服务产生和处理的数据,同时还用于那些需要大规模数据集的研究和开发工作。目前为止,他们最大的一个集群利用数千台机器的数千个硬盘,提供了数百 TB 的存储空间,同时为数百个客户机服务。在论文中,他们展示了能够支持分布式应用的文件系统接口的扩展。其次Google在系统中会人为设置一个权限较高的角色,充当领导者,完成本应该是程序员完成的任务分配或者重新分配,这使得整个系统看上去有自我管理的能力,不至于因为一些必然会发生的错误,导致系统崩溃。 这三篇论文给我的启示是无论是硬件设计还是软件设计,一个好的系统应当是一适用性广泛、高性能、可靠性非常高的。为了达到这样一个并不容易的目的,我们除了付出不懈努力,去提高单一部件的性能,也可以考虑通过科学的任务分配,让一个由成本低廉的部件的集群共同分担风险。尤其是在当前硬件技术濒临极限,性能需求水涨船高的当下,用数量保证质量,靠概率保证性能不失为一种可靠的选择。
...全文
70 2 打赏 收藏 转发到动态 举报
写回复
用AI写文章
2 条回复
切换为时间正序
请发表友善的回复…
发表回复
leo_lesley 2019-04-19
  • 打赏
  • 举报
回复
吉普赛的歌 2019-04-18
  • 打赏
  • 举报
回复
感谢分享, 建议写成博客

11,850

社区成员

发帖
与我相关
我的任务
社区描述
MS-SQL Server 非技术版
社区管理员
  • 非技术版社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧