OneFlow:从头开始重新设计分布式深度学习框架

OneFlow深度学习框架 2021-11-01 14:11:08
加精

#OneFlow:从头开始重新设计分布式深度学习框架# TensorFlow 和 PyTorch 等深度学习框架提供了一个高效的API接口,用于在单个设备上训练 DNN 模型或使用数据并行。即便如此,在分布式设备上训练大规模型模型时,原有深度学习框架不够灵活、高效,这需要比数据并行更复杂的并行性。这些框架开发了插件来强化这些框架在模型或流水并行的能力,但这使得分布式深度学习的使用和实现进一步复杂化。

为此,一流科技研发出具有各种并行范式的OneFlow#分布式深度学习框架# ,基于 SBP(split, broadcast和partial-value)抽象和actor模型而开发。SBP 使数据并行和模型并行的编程比现有框架更容易,并且actor提供了一套简洁的运行时机制来管理分布式深度学习中的资源约束、数据搬运和计算所施加的复杂依赖关系。

通过案例研究和大量实验证明,#OneFlow# 在训练各种大型 #DNN# 模型方面的普遍适用性和效率。结果表明,OneFlow 的性能优于许多建立在原有框架之上的知名定制库。

#深度学习#  #机器学习#  #TensorFlow# #PyTorch# 

论文:https : //arxiv.org/pdf/2110.15032.pdf;代码: https : //github.com/Oneflow-Inc/oneflow

 

    

...全文
278 点赞 收藏 回复
写回复
回复
切换为时间正序
请发表友善的回复…
发表回复
相关推荐
发帖
OneFlow深度学习框架
创建于2021-07-12

186

社区成员

不止于成为世界上最快的开源深度学习框架
帖子事件
创建了帖子
2021-11-01 14:11
社区公告
暂无公告