2,537
社区成员




我的模型具有了良好的范化能力,怎么让这个模型的泛化能力转移到小模型身上去呢
知识蒸馏。
简单地说,知识蒸馏就是把大模型对样本输出的概率向量作为软目标“soft targets”,去让小模型的输出尽量去和这个软目标靠(原来是和One-hot编码上靠)。知识蒸馏过程所用的训练样本可以和训练大模型用的训练样本一样,或者另找一个独立的Transfer集也行。因为“soft targets”比One-hot编码所携带的信息更多,所以我们在训练小模型时可以用比训练大模型时更少的训练集和更大的学习率。