2
社区成员




课时名称 | 课时知识点 |
---|---|
DLRover 训练故障自愈:大幅提升大规模AI训练的算力效率 | 当前大规模语言模型训练需要大量的加速卡来训练,例如 GPU和NPU等。由于GPU 机器的故障率较高,频繁的故障会导致训练中断、计算浪费和集群空转,从而造成大量的时间和算力浪费。为此,DLRover 开源了训练故障自愈技术,通过快速的节点状态检测、弹性扩缩容、动态组网和Flash Checkpoint 等技术,最大程度地降低故障导致的算力浪费。当前,在蚂蚁千卡规模的训练上,在故障频率为每天一次的情况下,有效训练时间占比达到97%。除了支持GPU,DLRover 故障自愈还支持国产加速卡的分布式训练,如华为昇腾芯片和阿里平头哥芯片。项目地址:https://github.com/intellige |