3,769
社区成员




你好,请问一下,我基于Tutorial_for_Llama3_Compute demo,将llama3改成qwen2.5模型,整个流程测试通过,模型将线性层转换conv层,导出的onnx模型验证都没有,但是采用### 8.5 Sequential MSE applying sequential MSE technique to optimize parameter encodings。量化前后的PPL损失较大,由原来的12变成了46,而demo中用的Llama3模型,其用相同的量化方法,是没有这么大变化的。请问针对qwen量化前后PPL变化这么大,可能是什么原因导致的呢,想麻烦你给我提供一些优化方向。
感谢!
在将Tutorial_for_Llama3_Compute demo中的Llama3模型替换为Qwen2.5模型后,量化前后的困惑度(PPL)损失较大,可能由以下多种原因导致,下面为你详细分析并给出优化方向: