gfs的数据一致性

namewchwch 2013-09-13 06:20:41

论文描述 client写数据由pri-chunk返回所有chunk服务器上 chunk更新状态。当有些 chunk更新失败，由client重新写尝试写。

这种一致性不可靠吧，当有些 chunk更新失败时，client挂了 (断电停机，或者其他的等等)这时候就产生了 chunk数据不一致。

这种数据一致性依赖于客户端的健康太不可靠了，求高手解释

...全文

441 4 打赏收藏转发到动态举报

写回复

用AI写文章

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

namewchwch 2013-10-09

打赏
举报

引用 2 楼 ruishenh 的回复:

说一下个人愚见，本人最近学习hadoop，可能理解有误，还望指出，就hadoop的本身会有一种心跳发送机制来看任务是否完成，还有数据验证功能，如果数据错误，它有可能会新启动一个job去完成这个，这个也会重新跑的，谁先跑完数据对，就会把非成功的所有job任务kill掉的，所以说当一个client失败了，会有其他的机器来启动这些任务，而且数据都是有分片的备份的。

我说的是 gfs 不是hadoop的 mapper reducer。对应是应该是 hdfs

zuochanxiaoheshang 2013-10-09

打赏
举报

对于每一个chunk会产生一个CRC校验码，所以如果client挂掉是可以判断该chunk是否正确完成。

幸运小侯子 2013-10-08

打赏
举报

说一下个人愚见，本人最近学习hadoop，可能理解有误，还望指出，就hadoop的本身会有一种心跳发送机制来看任务是否完成，还有数据验证功能，如果数据错误，它有可能会新启动一个job去完成这个，这个也会重新跑的，谁先跑完数据对，就会把非成功的所有job任务kill掉的，所以说当一个client失败了，会有其他的机器来启动这些任务，而且数据都是有分片的备份的。

namewchwch 2013-09-17