gfs的数据一致性

namewchwch 2013-09-13 06:20:41
论文描述 client写数据 由pri-chunk返回所有chunk服务器上 chunk更新 状态。当有些 chunk更新失败 ,由client重新写尝试写 。

这种一致性不可靠吧,当有些 chunk更新失败时,client挂了 (断电 停机,或者其他的等等)这时候就产生了 chunk数据不一致。

这种数据一致性依赖于客户端的 健康 太不可靠了,求高手解释
...全文
436 4 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
namewchwch 2013-10-09
  • 打赏
  • 举报
回复
引用 2 楼 ruishenh 的回复:
说一下个人愚见,本人最近学习hadoop,可能理解有误,还望指出,就hadoop的本身会有一种心跳发送机制来看任务是否完成,还有数据验证功能,如果数据错误,它有可能会新启动一个job去完成这个,这个也会重新跑的,谁先跑完数据对,就会把非成功的所有job任务kill掉的,所以说当一个client失败了,会有其他的机器来启动这些任务,而且数据都是有分片的备份的。
我说的是 gfs 不是hadoop的 mapper reducer。对应是应该是 hdfs
zuochanxiaoheshang 2013-10-09
  • 打赏
  • 举报
回复
对于每一个chunk会产生一个CRC校验码,所以如果client挂掉是可以判断该chunk是否正确完成。
幸运小侯子 2013-10-08
  • 打赏
  • 举报
回复
说一下个人愚见,本人最近学习hadoop,可能理解有误,还望指出,就hadoop的本身会有一种心跳发送机制来看任务是否完成,还有数据验证功能,如果数据错误,它有可能会新启动一个job去完成这个,这个也会重新跑的,谁先跑完数据对,就会把非成功的所有job任务kill掉的,所以说当一个client失败了,会有其他的机器来启动这些任务,而且数据都是有分片的备份的。
namewchwch 2013-09-17
  • 打赏
  • 举报
回复
没有人能回答 ?

20,848

社区成员

发帖
与我相关
我的任务
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
  • 分布式计算/Hadoop社区
  • 涤生大数据
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧