【InternLM】书生·浦语大模型全链路开源体系实战营第7课笔记

缘起...即灭 2024-04-22 09:18:49

OpenCompass介绍

上海人工智能实验室科学家团队正式发布了大模型开源开放评测体系 “司南” (OpenCompass2.0)，用于为大语言模型、多模态模型等提供一站式评测服务。其主要特点如下：

开源可复现：提供公平、公开、可复现的大模型评测方案
全面的能力维度：五大维度设计，提供 70+ 个数据集约 40 万题的的模型评测方案，全面评估模型能力
丰富的模型支持：已支持 20+ HuggingFace 及 API 模型
分布式高效评测：一行命令实现任务分割和分布式评测，数小时即可完成千亿模型全量评测
多样化评测范式：支持零样本、小样本及思维链评测，结合标准型或对话型提示词模板，轻松激发各种模型最大性能
灵活化拓展：

工具架构

模型层：大模型评测所涉及的主要模型种类，OpenCompass以基座模型和对话模型作为重点评测对象。
能力层：OpenCompass从本方案从通用能力和特色能力两个方面来进行评测维度设计。在模型通用能力方面，从语言、知识、理解、推理、安全等多个能力维度进行评测。在特色能力方面，从长文本、代码、工具、知识增强等维度进行评测。
方法层：OpenCompass采用客观评测与主观评测两种评测方式。客观评测能便捷地评估模型在具有确定答案（如选择，填空，封闭式问答等）的任务上的能力，主观评测能评估用户对模型回复的真实满意度，OpenCompass采用基于模型辅助的主观评测和基于人类反馈的主观评测两种方式。
工具层：OpenCompass提供丰富的功能支持自动化地开展大语言模型的高效评测。包括分布式评测技术，提示词工程，对接评测数据库，评测榜单发布，评测报告生成等诸多功能。

OpenCompass采取客观评测与主观评测相结合的方法。针对具有确定性答案的能力维度和场景，通过构造丰富完善的评测集，对模型能力进行综合评价。针对体现模型能力的开放式或半开放式的问题、模型安全问题等，采用主客观相结合的评测方式。

...全文

279 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

书生·浦语大模型全链路开源体系来自上海ailab、商汤科技，由原OpenMMLab团队打造。该体系覆盖数据、预训练、微调、部署、评测五大环节，包含InternLM语言模型、InternEvo训练框架、XTuner微调工具包等多个组件，能助力开发者高效完成大模型开发任务。

本书介绍书生·浦语大模型的全链路开源体系，涵盖从数据集到模型部署全流程，包括预训练、微调、测评及应用。通过改进Transformer架构，并采用特定的数据处理和训练策略，该模型展现出强大的性能。

本文详细介绍了书生·浦语大模型全链路开源体系的实战部署过程，包括InternLM2-Chat模型的环境配置、下载、运行案例（CLI和Web），以及图文创作和视觉问答的部署。教程涵盖了1.8B和7B模型，还展示了如何利用Huggingface和Lagent工具进行相关操作。

本文详细介绍了书生·浦语大模型全链路开源体系的第五课，包括配置LMDeploy环境、运行InternLM2模型、使用Transformer、量化模型、调整KVCache策略、API服务器与Web客户端对话，以及视觉多模态模型llava的集成方法。

本文详细介绍了书生·浦语大模型的开源体系，包括其2.0版本InternLM2的架构、发展路径、数据处理、预训练方法、SFT和RLHF的应用，以及LMDeploy部署工具。模型性能在多项评测中表现出色，特别强调了数据质量和处理技术对模型性能的关键作用。

535

社区成员

1,595

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章