书生·浦语大模型实战营第二期-lesson7-笔记 lesson7的主角是opencompass，opencompass依赖于lmdeploy进行推理，所以如果lmdeploy无法正常运行，opencompass也不会正常工作，并且他并不会提示你是o-CSDN社区

kv-chiu 2024-04-25 06:14:53

书生·浦语大模型实战营第二期-lesson7-笔记 lesson7的主角是opencompass，opencompass依赖于lmdeploy进行推理，所以如果lmdeploy无法正常运行，opencompass也不会正常工作，并且他并不会提示你是opencompass有问题…这算是一个小坑吧，经历过才会有领悟回到opencompass上，opencompass是我关注最早的一个书生·浦语社区产品，在去年六月份c—eval推出时我就注意到了，但是主要纠结一个问题，如何把主观的大模型用客观标准评价，事实上人类的智慧确实是无穷的，基于prompt的选择题让计算混淆矩阵得到了实现而如今，大模型竞技场似乎又成为了新宠，opencompass也推出了相关工具包。回顾整个书生·浦语全链路开源体系，最明显的特点就是开箱即用，opencompass是，agent也是在opencompass使用ceval测评1.8b的任务中，可以看到，ceval实际上是分出来不同领域，有数学、物理、法律等等，也是类似batch一样，分批推理，计算指标，最后汇总，得益于lmdeploy，推理速度还是非常快的，书生浦语的star，名副其实，值得点赞

...全文

228 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

本文介绍了一个全面的大模型评测体系OpenCompass，涵盖多种评测方法和技术，包括客观评测、主观评测、提示词工程、小样本学习等，并提供了详细的代码实现指南。

本文是《书生·浦语大模型实战营》第七节课《OpenCompass大模型评测实战》课程笔记。介绍了大语言模型评测的方法、挑战，司南大模型评测体系的开源历程、特点，还阐述了评测大模型的类型、方式，以及社区工具、基准和榜单等内容，最后说明了实战的相关要点。

本文是《书生·浦语大模型实战营》第七节课《OpenCompass大模型评测实战》的实践笔记。包含基础作业，如环境配置、安装、获取代码、评测等，以评测模型在数据集上的性能；还有进阶作业，将自定义数据集提交至OpenCompass官网，涵盖规划、搜索、评测及提交等步骤。

本文围绕OpenCompass大模型开源开放评测体系展开。介绍了研究大模型评测的原因，阐述了OpenCompass的特点、评测对象、架构、设计思路和评测方法。还给出快速开始的步骤，包括环境配置、安装等，以及自定义数据集评测、数据污染评估等内容，并布置了相关作业。

本文详细介绍了书生·浦语大模型的全链路开源体系，包括专用模型与通用模型的区别，预训练、微调、数据处理、评测、部署和智能体框架等内容，重点讲解了XTuner、OpenCompass和LMDeploy等工具在实践中的应用。

535

社区成员

1,595

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章