2,851
社区成员




我在 AI 100 上运行 Llama3 8b 模型,但token输出的速度非常慢,解码时大约 6 个令牌/秒。你能帮我找出可能的原因吗?谢谢!我的代码版本是 repo 的 release/1.15
感谢您提供详细信息;我们能够重现性能结果。
为了提高性能,您可以使用 --mxfp6 标志。此标志将恒定 MatMul 权重压缩为 MXFP6 E2M3,从而以略微增加计算量为代价减少内存流量。
在最新版本/1.16 中,我们引入了另一个性能优化标志 --mxint8。此标志将 KV 缓存压缩为 mxint8 精度,同时减少内存流量,但计算要求略有增加。
关于您提到的输出问题,我们没有遇到输出中的连续点。输出按预期显示。请确保您使用的是正确版本的 transformers 和 tokenizers 包。