如何在 Qualcomm® Cloud AI 100 上利用推测解码 (SpD) 和微缩放 (MX) 格式将 LLM 解码性能提高四倍

weixin_32413029 2024-04-18 15:00:49

如何在 Qualcomm® Cloud AI 100 上利用推测解码 (SpD) 和微缩放 (MX) 格式将 LLM 解码性能提高四倍

...全文

1481 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

weixin_38498942 2024-04-18

打赏
举报

回复

将待解码视频转换成MX格式，获取MX格式的视频文件。
将MX格式的视频文件放置到Qualcomm® Cloud AI 100的存储空间中。
配置AI 100的编解码器，使其支持MX格式。
在AI 100上利用推测解码和微缩放格式进行视频解码。
比较MX格式和传统LLM格式的解码性能，可以发现MX格式能够提高LLM解码性能四倍。
推测采样 (SpS)也称为推测解码 (SpD) 和通过 MXFP6 微缩放格式进行权重压缩，这两种先进技术可显着提高 LLM 推理 AI 工作负载的大语言模型 (LLM) 解码速度。这两种技术均可用于 Qualcomm Technologies 数据中心 AI 加速器上的 LLM 加速。

本文探讨了两种高级技术在两个大语言模型上的应用：CodeGen 1-7B 和 Llama 2-7B-Chat-FT，展示了加速 AI 处理和效率的潜力。我们将为您揭开这一进步的细节，您也可以先浏览高通云人工智能 Github 上的推测解码功能文档。

大模型（LLMs）以其卓越的性能在多个应用场景中大放异彩。然而，随着应用的深入，这些模型的推理速度问题逐渐凸显。为了解决这一挑战，推测性解码（Speculative Decoding, SPD）技术应运而生。本文深入探讨了SPD在多模态大型语言模型（MLLMs）中的应用，尤其是针对LLaVA 7B模型的优化。MLLMs通过融合视觉和文本数据，极大地丰富了模型与用户的互动，但同时也面临着自回归生成和内存带宽的瓶颈。SPD技术通过小型草稿模型预测未来标记，并由目标LLM进行快速验证，有效提升了推理效率。

日志记录是嵌入式系统中关键的调试和监控手段。在选择合适的日志库时，性能往往是重要的考量因素。本文对比了 Spdlog 和 Glog 这两个流行的日志库，以及标准的 ofstream 流在嵌入式平台上的性能表现。测试包括同步和异步模式，以全面评估它们在高频日志记录场景下的性能表现。

@ 源文件和行号 (使用 SPDLOG_TRACE(..)、SPDLOG_INFO(...) 等，而不是 spdlog::trace(...)) 与 %g:%# 相同 /some/dir/my_file.cpp:123。%g 源文件的完整或相对路径，与 __FILE__ 宏中的形式相同 (使用 SPDLOG_TRACE(..)、SPDLOG_INFO(...) 等) /some/dir/my_file.cpp。如果您需要使用类似 %s、%g、%#、%!

`spdlog` 是一个快速、简单、功能丰富的 C++ 日志库，专为现代 C++ 开发设计。它支持多种日志后端（如控制台、文件、syslog 等），并提供灵活的格式化和线程安全的日志输出。

高通开发者论坛

4,661

社区成员

5,858

社区内容

发帖

与我相关

我的任务

人工智能物联网机器学习技术论坛（原bbs）北京·东城区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章