读完GFS论文后的感悟

姚黎慧 2019-04-18 05:12:04
作为gfs的论文,必然是对已有功能的总结,对未足部分的改进,对欠缺功能的探索。而其实用性与适用性也是其论文好坏的重要判断表准。 在不看论文前,文件本身、并发、数据一致性、容错,机器挂掉、磁盘损坏、系统错误、单点故障、并发下可能产生数据overlap是必须考虑的事情。 而这篇文章着重从容错、可伸缩性、数据储存、集群储存上来进行讨论、禅述 。 容错:组件失效是设计GFS时遇到的最大挑战之一。但机器的稳定性和硬盘的可靠性也并不能给予绝对的保障。但组件失效所带来的后果及影响往往是致命性的,直接导致系统无法运作,因此GFS自带工具诊断系统故障。GFS诊断工具是通过保存各日志事件来重演进行追踪分析。但对于GFS诊断工具具体运作是否会占大量空间容量还需进一步讨论。 可伸缩性:什么是可伸缩性?简而言之就是做更多的事情,此论文通过设想单一的Master节点来在没有任何代价情况下,避免客户端和Master节点可能发生的通讯、选择Chunk尺寸64MB降低了工作负载、减少了网络负载减少了Master 节点所需要保存元数据的数量等等来增加了gfs的可伸缩性。但同时也存在着惰性空间分配的问题。而这篇论文也很好的提出了设想:允许客户端从其他客户端读取数据,然而允许客户端从其他客户端读取数据是否会造成已隐私问题又将会是一个面临的巨大挑战。 数据储存:元数据是数据的数据,而在master服务器中原数据保存在内存中,使得master的服务器操作速度非常快,尽管会存在 chunk等数量,以及整个系统的承载能力,都受限与master服务器所拥有的内存大小的问题。但总体而言,利将大于弊,在其中所提出的操作日志是记录元数据、文件、chunk的永久标识,哪怕在master服务器损坏后可重演,通过操作日志恢复。在储存的安全持久方面就重要作用。而GFS一致性保障机制则保障了数据的准确性,并且通过chunk服务器独立维护checksum来校验自己保存数据是否损坏。 谷歌文件系统展示了一个使用普通硬件支持大规模数据处理的系统的特质 。其设计对网络协议栈的优化,将会提升当前对每个客户端的写入吞吐量限制。大数据将会有无限潜能。
...全文
64 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

2,208

社区成员

发帖
与我相关
我的任务
社区描述
其他数据库开发 其他数据库
社区管理员
  • 其他数据库社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧