书生·浦语大模型实战营第二期-lesson7-笔记
lesson7的主角是opencompass,opencompass依赖于lmdeploy进行推理,所以如果lmdeploy无法正常运行,opencompass也不会正常工作,并且他并不会提示你是opencompass有问题…这算是一个小坑吧,经历过才会有领悟
回到opencompass上,opencompass是我关注最早的一个书生·浦语社区产品,在去年六月份c—eval推出时我就注意到了,但是主要纠结一个问题,如何把主观的大模型用客观标准评价,事实上人类的智慧确实是无穷的,基于prompt的选择题让计算混淆矩阵得到了实现
而如今,大模型竞技场似乎又成为了新宠,opencompass也推出了相关工具包。回顾整个书生·浦语全链路开源体系,最明显的特点就是开箱即用,opencompass是,agent也是
在opencompass使用ceval测评1.8b的任务中,可以看到,ceval实际上是分出来不同领域,有数学、物理、法律等等,也是类似batch一样,分批推理,计算指标,最后汇总,得益于lmdeploy,推理速度还是非常快的,书生浦语的star,名副其实,值得点赞
...全文