张辰-摩尔线程全功能GPU大规模语言模型分布式训练性能优化探索

m0_74120090 2025-04-23 14:55:07

课时名称	课时知识点
张辰-摩尔线程全功能GPU大规模语言模型分布式训练性能优化探索	摩尔线程资深算法工程师在大模型训练的浪潮中，国产全功能GPU的分布式训练能力正迎来前所未有的突破。摩尔线程 AI Infra 组深耕大语言模型训练技术近三年，在 CLUE 评测中跻身 Top 10，成功适配几乎所有主流模型训练框架，并构建国产大规模显卡集群，借助 FP8 加速，达成业界顶级水平 MFU。同时，我们率先完成 DeepSeek 模型的高效适配，实现卓越的训练性能。在本次演讲中，我们将深入剖析国产全功能GPU在大模型训练中的兼容性优势，分享从 Dense 模型到 MoE 模型优化的核心实践，并探讨国产 AI 计算硬件在未来大规模训练中的突破方向，为开发者提供实战经验与深度思考。

课时名称

课时知识点

摩尔线程资深算法工程师在大模型训练的浪潮中，国产全功能GPU的分布式训练能力正迎来前所未有的突破。摩尔线程 AI Infra 组深耕大语言模型训练技术近三年，在 CLUE 评测中跻身 Top 10，成功适配几乎所有主流模型训练框架，并构建国产大规模显卡集群，借助 FP8 加速，达成业界顶级水平 MFU。同时，我们率先完成 DeepSeek 模型的高效适配，实现卓越的训练性能。在本次演讲中，我们将深入剖析国产全功能GPU在大模型训练中的兼容性优势，分享从 Dense 模型到 MoE 模型优化的核心实践，并探讨国产 AI 计算硬件在未来大规模训练中的突破方向，为开发者提供实战经验与深度思考。

...全文