寻宝小分队——大模型评测作业Q&A

寻宝小分队 2025-10-30 23:25:51
这个作业属于哪个课程202501福大-软件工程实践-W班
这个作业要求在哪里软件工程实践——大模型评测作业
这个作业的目标针对答辩时提出的问题,撰写Q&A博客
团队名称寻宝小分队

目录

  • Q:雷达图上的指标是如何计算的?请给出计算公式
  • Q:你们的相关性的计算公式是不是有点问题?为什么两个模型的分数都很低?

Q:雷达图上的指标是如何计算的?请给出计算公式

A:指标分数计算公式:相关性评分+完整性评分+结构化评分+理由充分性评分+实用性评分(满分为1)

1.相关性评分(25%)-"有没有答非所问"

检查回答是否包含问题中的关键词、有没有偏离主题、是否直接回答了用户的问题
提取回答中的关键词、检查关键词并计算总分
分数=(找到的关键词数量÷总关键词数量)×0.7+直接回答问题加分
加分项:
回答中包含"推荐"、"建议"、"车型"等词语:+0.3分
完全围绕用户需求回答:+0.2分
扣分项:
严重跑题:直接0分
包含"错误"信息:直接0分

2.完整性评分(25%)-"内容够不够丰富"
检查回答的长度、包含的信息种类、是否全面覆盖用户需求
具体打分标准:
第一步:长度评分(占30%)
长度分数=min(回答字符数÷800,0.3)
第二步:内容丰富度评分(占70%)
检查是否包含以下7类信息,每类得0.1分:
车型推荐-有没有推荐具体车型
推荐理由-为什么推荐这个车
具体配置-发动机、油耗等参数
价格信息-具体价格或价格范围
优缺点分析-车的优点和缺点
对比建议-多个车型的比较
适合场景-为什么适合用户需求
内容丰富度分数=(包含的信息种类数÷7)×0.7
总分计算:
完整性分数=长度分数+内容丰富度分数

3.结构化评分(20%)-"条理清不清晰"
检查内容:有没有分段和编号、有没有表格或对比、有没有总结
具体打分标准(每项独立加分):
编号结构(0.2分)
使用1、2、3或一、二、三等编号:+0.2分
没有编号:0分
分段结构(0.2分)
回答分成3段以上:+0.2分
2段:+0.1分
1大段:0分
表格对比(0.3分)
有表格线(|、---):+0.3分
有"对比"、"表格"词语:+0.2分
都没有:0分
总结结构(0.2分)
有"总结"、"综上"、"建议"等总结性词语:+0.2分
没有:0分
标题结构(0.1分)
使用":"或分类标题:+0.1分
没有:0分
总分计算:
把所有加分项相加,最高1分

4.理由充分性评分(15%)-"为什么推荐这个车"
检查内容:有没有合理的推理过程、理由是否多样化、是否考虑了多个方面
具体打分标准:
第一部分:推理模式(40%)
检查是否使用推理句式、
推理分数=(找到的推理模式数量÷5)×0.4
第二部分:理由种类(60%)
检查是否从以下5个方面给出理由:
性能方面:动力、加速、油耗、电耗
安全方面:气囊、ABS、辅助驾驶、碰撞测试
经济方面:价格、保值率、维护成本、保险
舒适方面:空间、座椅、空调、噪音、悬挂
智能方面:导航、车联网、自动驾驶、智能配置
理由种类分数=(涉及的方面数量÷5)×0.6
总分计算:
理由充分性分数=推理分数+理由种类分数

5.实用性评分(15%)-"建议实不实用"
检查内容:有没有具体数值、有没有多个选择、有没有明确建议
具体打分标准(每项独立加分):
具体价格(0.2分)
有"18万"、"15-20万"等具体价格:+0.2分
只有"价格合适":0分
具体配置(0.2分)
有"1.8L发动机"、"6气囊"等具体配置:+0.2分
只有"配置不错":0分
多个车型(0.3分)
推荐2个以上车型:+0.3分
只推荐1个车型:0分
对比分析(0.2分)
有"对比"、"比较"、"vs"等词语:+0.2分
没有对比:0分
明确建议(0.1分)
有"建议"、"推荐"等明确建议:+0.1分
没有明确建议:0分
总分计算:
把所有加分项相加,最高1分

Q:你们的相关性的计算公式是不是有点问题?为什么两个模型的分数都很低?

A:我们测试的两个模型的相关性得分都很低,我们反思了一下,很可能不是模型回答真的不相关,而是我们的评估方法存在局限性。目前的评估主要基于关键词重叠和简单规则,这种方法对语言多样性的适应能力不足。比如模型可能用“纯电车”代替“新能源车”,用“续航里程”描述“行驶距离”,但关键词匹配无法捕捉这类语义关联。
此外,当前算法对问题意图的解析也不够深入。当用户询问“适合家用的SUV”时,模型可能会详细讨论空间、安全性和舒适性,但这些内容如果没能匹配到“家用”这个关键词,就会被系统低估。真正的相关性评估应该关注回答是否解决了用户的底层需求,而不是表面的词汇匹配。

...全文
22 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

110

社区成员

发帖
与我相关
我的任务
社区描述
202501福大-软件工程实践-W班
软件工程团队开发结对编程 高校 福建省·福州市
社区管理员
  • 202501福大-软件工程实践-W班
  • 离离原上羊羊吃大草
  • MiraiZz2
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧