在 AI 100 上运行 Llama3 时输出token的速度真的很慢, 请问是什么问题啊?

家有柯基 2024-12-20 10:51:31

我在 AI 100 上运行 Llama3 8b 模型，但token输出的速度非常慢，解码时大约 6 个令牌/秒。你能帮我找出可能的原因吗？谢谢！我的代码版本是 repo 的 release/1.15

...全文

921 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

weixin_38498942 2024-12-26

打赏
举报

回复

感谢您提供详细信息；我们能够重现性能结果。
为了提高性能，您可以使用 --mxfp6 标志。此标志将恒定 MatMul 权重压缩为 MXFP6 E2M3，从而以略微增加计算量为代价减少内存流量。
在最新版本/1.16 中，我们引入了另一个性能优化标志 --mxint8。此标志将 KV 缓存压缩为 mxint8 精度，同时减少内存流量，但计算要求略有增加。
关于您提到的输出问题，我们没有遇到输出中的连续点。输出按预期显示。请确保您使用的是正确版本的 transformers 和 tokenizers 包。

调整微调过程中的超参数，确保合理的训练设置和数据集质量。调整生成时的max_tokens和top_k等参数，尝试增大这些参数来增加生成的文本长度。修改提示词，提供更详细或具体的上下文，让模型生成更多的文本。确保加载的检查点是完整和正确的，避免因模型加载问题导致的生成异常。检查 tokenizer 设置是否正确，尤其是在处理中文时。避免生成过程中过早的终止标志，例如。通过这些调整，应该可以解决 LLaMA3 中文版生成 token 很短的问题，并提升模型生成的文本长度和质量。

北京时间4月19日凌晨，Meta在官网上官宣了Llama-3，作为继Llama1、Llama2和CodeLlama之后的第三代模型，Llama3在多个基准测试中实现了全面领先，性能优于业界同类最先进的模型，你有没有第一时间体验上呢，这篇文章就分享下如何在Groq上以超过 800 tokens/s 的魔鬼推理速度体验Llama3，会同时分享Web端、移动端、API方式以及集成到LangChain中4种体验方案。

Llama 3 系列简介：语言模型的新时代。凭借 8B 和 70B 大小的预训练基础和聊天模型，它带来了重大进步。其中包括扩展的词汇量，现在为 128k 令牌，提高令牌编码效率并实现更好的多语言文本生成。此外，它还在所有模型中实施了分组查询注意力（GQA），确保与其前身相比，响应更加连贯和扩展。此外，Meta 严格的训练方案，仅为 8B 模型就使用了 15 万亿个代币，这表明它致力于突破自然语言处理的界限。

4.19日凌晨正准备睡觉时，突然审稿项目组的文弱同学说：Meta发布Llama 3系列大语言模型了一查，还真是本文以大模型开发者的视角，帮你迅速梳理下LLama的关键特征，并对比上一个版本的LLama2，且本文后续，将更新用我司paper-review数据集微调llama3的训练过程。

现代人工智能（AI）系统由基础模型提供支持。本文提出了一套新的基础模型，称为Llama 3。它是一组原生支持多语言、编码、推理和工具使用的语言模型。我们最大的模型是一个具有405B个参数和高达128K个token的上下文窗口的密集Transformer。本文对Llama 3进行了广泛的实证评估。我们发现，Llama 3在大量任务上提供了与GPT-4等领先语言模型相当的质量。我们公开发布了Llama 3，包括405B参数语言模型的预训练和后训练版本，以及用于输入和输出安全的Llama Guard 3模型。

高通开发者论坛

4,794

社区成员

5,888

社区内容

发帖

与我相关

我的任务

人工智能物联网机器学习技术论坛（原bbs）北京·东城区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章