Google三大理论有感

以八千岁为春 2019-04-18 10:55:47

三篇论文介绍了Google-Bigtable,Google-MapReduce,Google-File-System三个谷歌的重要工具。三个工具都有一个共同的特征——分布式系统，分布式既将一个业务分拆多个子业务，部署在不同的服务器上。 Google-Bigtable是一个分布式的结构化存储系统，被Google用来存储很多项目的数据，这些项目对Bigtable需求差异很大，Bigtable还是能提供很灵活的服务，提现了其功能的强大。论文对Bigtable的主要组件及功能做了详细介绍：“Bigtable 包括了三个主要的组件：链接到客户程序中的库、一个 Master 服务器和多个 Tablet 服务器。针对系统工作负载的变化情况，BigTable 可以动态的向集群中添加（或者删除）Tablet服务器。 Master 服务器主要负责以下工作：为 Tablet 服务器分配 Tablets、检测新加入的或者过期失效的 Table 服务器、对Tablet服务器进行负载均衡、以及对保存在 GFS上的文件进行垃圾收集。除此之外，它还处理对模式的相关修改操作，例如建立表和列族。每个Tablet服务器都管理一个Tablet的集合（通常每个服务器有大约数十个至上千个 Tablet）。每个Tablet服务器负责处理它所加载的Tablet的读写操作，以及在Tablets过大时，对其进行分割。”，从这些可以大致了解到Bigtable的工作原理。随着科技的进步，电脑，手机越来越普及了，上网人数也越来越多了，在网上产生的数据越来越多。而且随着科技进步处理这些大量的数据也成为了人们的需要。现在的热门词汇“云计算大数据”就是在处理海量数据算法突破后带来的。要想了解这个词汇，我门必须了解”大数据“是什么？如何处理大数据？Google大数据三篇著名论文能帮助我们了解这个问题。下面为我学习Google大数据三篇著名论文后的一些想法。大数据来源与生活中的种种产生的信息。对这些大数据进行分析处理，在电子商务、物流配送等领域的发展有巨大的作用。从大数据中能得到对于消费者行为的判断，产品销售量的预测，存货的补给。处理大数据的算法，要面对海量的数据，要为大量客户机服务。因此计算往往由几千台机器组成、处理以 TB 计算的数据。为了能大量使用这些计算都是在廉价的普遍硬件设备上进行。首先在大数据的计算处理中组件失效被认为是常态事件，而不是意外事件。面对大量的数据和客户机出现程序bug是不可避免的。因此持续的监控、错误侦测、灾难冗余以及自动恢复的机制必须集成在GFS中。处理大量的数据高性能的稳定网络带宽远比低延迟重要，处理大数据的程序中要求能够高速率的、大批量的处理数据，程序对单一的读写操作有严格的响应时间要求不是必要的。同时将通过充分利用每台机器的带宽，避免网络瓶颈和高延时的连接，最小化推送所有数据的延时。面对海量的数据，处理的文件数据更新很快，但操作日志不同，它包含了关键的元数据变更历史记录，因此它是元数据唯一的持久化存储记录，它也作为判断同步操作顺序的逻辑时间基线。在面对各种意外风险时，系统都要通过它来重新恢复系统。 Google File System是"一个面向大规模数据密集型应用的、可伸缩的分布式文件系统"。GFS与传统分布式文件系统比较明显的差异是它是设计以用于大规模数据处理，它不需要很强大的硬件支持就可以提供高性能的服务。GFS系统由单个Master和大量块服务器构成，Master存放文件系统的所有元数据包括名字空间、存取控制、文件分块信息、文件块的位置信息等，但客户端不通过Master读取数据，客户端从Master获取目标数据块的位置信息后，直接和块服务器交互进行读操作。GFS为了保证文件的可靠性采用了冗余存储的方法，每份数据在系统中保存3个以上的备份；为了保证数据的一致性，对于数据的所有修改需要在所有的备份上进行，并用版本号的方式来确保所有备份处于一致的状态。

...全文