如何在 Qualcomm® Cloud AI 100 上利用推测解码 (SpD) 和微缩放 (MX) 格式将 LLM 解码性能提高四倍

weixin_32413029 2024-04-18 15:00:49

如何在 Qualcomm® Cloud AI 100 上利用推测解码 (SpD) 和微缩放 (MX) 格式将 LLM 解码性能提高四倍
 

...全文
129 1 打赏 收藏 转发到动态 举报
写回复
用AI写文章
1 条回复
切换为时间正序
请发表友善的回复…
发表回复
  • 打赏
  • 举报
回复
  1. 将待解码视频转换成MX格式,获取MX格式的视频文件。
  2. 将MX格式的视频文件放置到Qualcomm® Cloud AI 100的存储空间中。
  3. 配置AI 100的编解码器,使其支持MX格式。
  4. 在AI 100上利用推测解码和微缩放格式进行视频解码。
  5. 比较MX格式和传统LLM格式的解码性能,可以发现MX格式能够提高LLM解码性能四倍。
  6. 推测采样 (SpS)也称为推测解码 (SpD) 和通过 MXFP6 微缩放格式进行权重压缩,这两种先进技术可显着提高 LLM 推理 AI 工作负载的大语言模型 (LLM) 解码速度。这两种技术均可用于 Qualcomm Technologies 数据中心 AI 加速器上的 LLM 加速。

949

社区成员

发帖
与我相关
我的任务
社区描述
为开发者提供高通丰富的解决方案及全面技术下载内容。本版以AI人工智能、WoS移动笔记本、XR、IoT 物联网、Auto 汽车、生成式AI等核心板块组成,为开发者提供一个便捷及高效的学习交流平台。
人工智能物联网机器学习 企业社区 北京·东城区
社区管理员
  • Qualcomm开发
  • csdnsqst0050
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧