【InternLM】书生·浦语大模型全链路开源体系实战营第5课笔记

缘起...即灭 2024-04-17 11:17:12

LMDeploy部署

目录

一、大模型部署背景

二、大模型部署方法

三、LMDeploy简介

一、大模型部署背景

大模型部署面临的挑战：

二、大模型部署方法

三、LMDeploy简介

LMDeploy 由 MMDeploy 和 MMRazor 团队联合开发，是涵盖了 LLM 任务的全套轻量化、部署和服务解决方案。这个强大的工具箱提供以下核心功能：

高效推理引擎 TurboMind：基于 FasterTransformer，我们实现了高效推理引擎 TurboMind，支持 InternLM、LLaMA、vicuna等模型在 NVIDIA GPU 上的推理。
交互推理方式：通过缓存多轮对话过程中 attention 的 k/v，记住对话历史，从而避免重复处理历史会话。
多 GPU 部署和量化：我们提供了全面的模型部署和量化支持，已在不同规模上完成验证。
persistent batch 推理：进一步优化模型执行效率。

支持的模型

LMDeploy 支持 TurboMind 和 Pytorch 两种推理后端。运行lmdeploy list可查看支持模型列表

TurboMind

Note
W4A16 推理需要 Ampere 及以上架构的 Nvidia GPU

模型	模型并行	FP16	KV INT8	W4A16	W8A8
Llama	Yes	Yes	Yes	Yes	No
Llama2	Yes	Yes	Yes	Yes	No
SOLAR	Yes	Yes	Yes	Yes	No
InternLM-7B	Yes	Yes	Yes	Yes	No
InternLM-20B	Yes	Yes	Yes	Yes	No
QWen-7B	Yes	Yes	Yes	Yes	No
QWen-14B	Yes	Yes	Yes	Yes	No
Baichuan-7B	Yes	Yes	Yes	Yes	No
Baichuan2-7B	Yes	Yes	Yes	Yes	No
Code Llama	Yes	Yes	No	No	No

Pytorch

模型	模型并行	FP16	KV INT8	W4A16	W8A8
Llama	Yes	Yes	No	No	No
Llama2	Yes	Yes	No	No	No
InternLM-7B	Yes	Yes	No	No	No

...全文

193 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

作业】-CSDN博客书生·浦语大模型全链路开源体系【大模型第4课-笔记】-CSDN博客书生·浦语大模型全链路开源体系【大模型第4课-作业】-CSDN博客书生·浦语大模型全链路开源体系【大模型第5课-笔记】-C

本文为实战营第一次课程笔记，主要分为两个部分，第一部分从书生·浦语大模型发展、分类、组成进行详细介绍，方便大家理解。第二部分为对 InternLM2技术报告解读，后续系列会继续更新，欢迎大家交流！

本系列文章是参与书生浦语全链路开源体系学习的笔记文章。B站视频教程地址：# 笔记正文## 大模型成为热门关键词LLM受到高关注，因为大模型成为发展通用人工只能的重要途经。专用模型：针对特定任务，一个模型解决一...

书生浦语大模型的开源之路始于去年7月，从7B模型的开源开始，逐步迭代到如今的2.5版本，性能不断提升，甚至在某些方面可以与GPT-4媲美...书生浦语大模型全链路开源开放体系的不断完善，为AI领域的发展注入了新的活力。

本次课程链接在GitHub上：InternLM/Tutorial at camp2 (github.com)第一次课程录播链接：书生·浦语大模型全链路开源体系_哔哩哔哩_bilibiliInternLM2技术报告：arxiv.org/pdf/2403.17297.pdf2023年6月7日，InternLM...

535

社区成员

1,595

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章