大模型基础技术资料集合.rar下载

weixin_39821746 2023-09-19 09:00:40

大模型训练的目标公式超大模型训练的总体目标就是提升总的训练速度，减少大模型的训练时间，你知道啦，毕竟训练一个大模型基本上从按下回车的那一刻开始要1到2个月，是很蛋疼的。下面主要看一下在大模型训练中的总训练速度的公式：总训练速度 ∝ 单卡速度 * 加速芯片数量 * 多卡加速比上面公式当中，单卡速度主要由单块AI加速芯片的运算速度、数据IO来决定；而加速芯片数量这个很清楚，数量越多增加训练速度；而多卡加速比则是有计算和通讯效率决定。我们再把使用到技术跟这个公式关联在一起： 1、单卡速度：单卡速度既然是运算速度和数据IO的快慢来决定，那么就需要对单卡训练进行优化，于是主要的技术手段有精度训练、算子融合、梯度累加来加快单卡的训练性能。 2、加速芯片数量：理论上，AI芯片数量越多，模型训练越快。但是，随着训练数据集规模的进一步增长，加速比的增长并不明显。如数据并行就会出现局限性，当训练资源扩大到一定规模时，由于通信瓶颈的存在，增加计算资源的边际效应并明显，甚至增加资源也没办法进行加速。这时候需要通讯拓扑进行优化，例如通过ring-all-reduce的通讯方式来优化训练模式。 , 相关下载链接：https://download.csdn.net/download/Gefangenes/88291797?utm_source=bbsseo

...全文