219
社区成员
发帖
与我相关
我的任务
分享
#OneFlow:从头开始重新设计分布式深度学习框架# TensorFlow 和 PyTorch 等深度学习框架提供了一个高效的API接口,用于在单个设备上训练 DNN 模型或使用数据并行。即便如此,在分布式设备上训练大规模型模型时,原有深度学习框架不够灵活、高效,这需要比数据并行更复杂的并行性。这些框架开发了插件来强化这些框架在模型或流水并行的能力,但这使得分布式深度学习的使用和实现进一步复杂化。
为此,一流科技研发出具有各种并行范式的OneFlow#分布式深度学习框架# ,基于 SBP(split, broadcast和partial-value)抽象和actor模型而开发。SBP 使数据并行和模型并行的编程比现有框架更容易,并且actor提供了一套简洁的运行时机制来管理分布式深度学习中的资源约束、数据搬运和计算所施加的复杂依赖关系。
通过案例研究和大量实验证明,#OneFlow# 在训练各种大型 #DNN# 模型方面的普遍适用性和效率。结果表明,OneFlow 的性能优于许多建立在原有框架之上的知名定制库。
#深度学习# #机器学习# #TensorFlow# #PyTorch#
论文:https : //arxiv.org/pdf/2110.15032.pdf;代码: https : //github.com/Oneflow-Inc/oneflow