【InternLM】书生·浦语大模型全链路开源体系实战营 第5课笔记

缘起...即灭 2024-04-17 11:17:12

LMDeploy部署

目录

LMDeploy部署

 一、大模型部署背景

 二、大模型部署方法

三、LMDeploy简介


 一、大模型部署背景

 大模型部署面临的挑战 :

 二、大模型部署方法

三、LMDeploy简介

LMDeploy 由 MMDeploy 和 MMRazor 团队联合开发,是涵盖了 LLM 任务的全套轻量化、部署和服务解决方案。 这个强大的工具箱提供以下核心功能:

  • 高效推理引擎 TurboMind:基于 FasterTransformer,我们实现了高效推理引擎 TurboMind,支持 InternLM、LLaMA、vicuna等模型在 NVIDIA GPU 上的推理。

  • 交互推理方式:通过缓存多轮对话过程中 attention 的 k/v,记住对话历史,从而避免重复处理历史会话。

  • 多 GPU 部署和量化:我们提供了全面的模型部署和量化支持,已在不同规模上完成验证。

  • persistent batch 推理:进一步优化模型执行效率。

 

支持的模型

LMDeploy 支持 TurboMind 和 Pytorch 两种推理后端。运行lmdeploy list可查看支持模型列表

 

TurboMind

Note
W4A16 推理需要 Ampere 及以上架构的 Nvidia GPU

模型模型并行FP16KV INT8W4A16W8A8
LlamaYesYesYesYesNo
Llama2YesYesYesYesNo
SOLARYesYesYesYesNo
InternLM-7BYesYesYesYesNo
InternLM-20BYesYesYesYesNo
QWen-7BYesYesYesYesNo
QWen-14BYesYesYesYesNo
Baichuan-7BYesYesYesYesNo
Baichuan2-7BYesYesYesYesNo
Code LlamaYesYesNoNoNo

Pytorch

模型模型并行FP16KV INT8W4A16W8A8
LlamaYesYesNoNoNo
Llama2YesYesNoNoNo
InternLM-7BYesYesNoNoNo

 

 

 

 

 

 

 

 

...全文
154 回复 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

533

社区成员

发帖
与我相关
我的任务
社区描述
构建国际领先的计算机视觉开源算法平台
社区管理员
  • OpenMMLab
  • jason_0615
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧