软件工程实践——软件评测作业

102300228杨欣潼 2025-10-21 22:16:38

这个作业属于哪个课程	2501_CS_SE_FZU
这个作业要求在哪里	软件工程实践——软件评测作业邹欣老师的案例分析作业要求
这个作业的目标	调研，评测，分析两个大模型，自动化测试目前市面上的一些大模型
其他参考文献	《构建之法（第三版)》

这个作业属于哪个课程

2501_CS_SE_FZU

这个作业要求在哪里

软件工程实践——软件评测作业

邹欣老师的案例分析作业要求

这个作业的目标

调研，评测，分析两个大模型，

自动化测试目前市面上的一些大模型

其他参考文献

《构建之法（第三版)》

第一部分调研，评测
大模型评测报告：通义千问Qwen2.5 vs Llama3.2
大模型1：通义千问Qwen2.5
体验
介绍和使用要测试的模型
优缺点分析
采访另一个用户
自动化测试
设计统一的评测标准表
设计统一的问题描述
Qwen2.5:0.5b 评测结论报告
📊 总体表现概览
🔍 分项能力分析
1. 技术能力表现
2. 知识理解表现
3. 创意与安全
⚡ 性能指标分析
响应时间
回答质量
🚨 主要问题识别
技术局限性
📈 改进建议
短期优化
长期发展
🎯 适用场景评估
💡 总结结论
大模型2：Llama3.2
体验
介绍和使用要测试的模型
优缺点分析
采访另一个用户
自动化测试
设计统一的评测标准表
设计统一的问题描述
Llama3.2 评测结论报告
📊 总体表现概览
🔍 分项能力分析
1. 技术能力表现
2. 知识理解表现
3. 创意与安全
⚡ 性能指标分析
响应时间
回答质量
🚨 主要问题识别
技术局限性
📈 改进建议
短期优化
长期发展
🎯 适用场景评估
💡 总结结论
第二部分分析
同类产品对比排名
Qwen2.5与Llama3.2对比分析
软件工程方面的建议
架构优化
开发流程改进
大模型性能不同的原因分析
技术因素
工程因素
市场概况
市场规模
直接用户数量
潜在用户规模
产品规划
新功能设计：智能指令理解与执行助手
NABCD分析
项目经理
团队配置（6人）
16周详细规划
团队存在的问题与改进建议
当前问题识别
改进建议
需要向团队提问的问题

第一部分调研，评测

大模型评测报告：通义千问Qwen2.5 vs Llama3.2

大模型1：通义千问Qwen2.5

体验

介绍和使用要测试的模型

模型介绍：
通义千问Qwen2.5是阿里巴巴达摩院开发的大语言模型，支持多轮对话、代码生成、逻辑推理、多语言翻译等功能。本次测试的Qwen2.5-7B版本在保持较强能力的同时，对硬件要求相对友好。

主要功能体验：

对话交互 - 能够进行流畅的中文对话，理解上下文
代码编写 - 支持Python、Java等多种编程语言代码生成
知识问答 - 涵盖科学、技术、人文等多个领域
逻辑推理 - 能够进行简单的数学推理和逻辑分析
多语言支持 - 中英文混合处理能力较好

优缺点分析

使用过程描述：
测试过程中主要体验了代码生成、技术问答和创意写作功能。模型在理解中文指令方面表现良好，响应速度较快。

解决的问题：

✅ 快速生成基础代码框架
✅ 解答技术概念问题
✅ 提供学习建议和方案

各维度优缺点：

维度	优点	缺点
数据量	中文训练数据丰富，对中文理解好	专业领域知识深度有限
界面	通过Ollama部署简单易用	需要命令行操作，对新手不友好
功能	功能全面，支持多种任务	复杂推理能力相对较弱
准确度	基础问题回答准确率较高	专业问题可能出现错误信息
用户体验	响应速度快，交互流畅	错误提示不够明确

改进意见：

增强专业领域的知识准确性
提供更友好的图形界面
增加实时纠错和反馈机制
优化长文本生成的质量

采访另一个用户

a. 采访对象背景

姓名：张同学
专业：软件工程大三学生
选择原因：作为计算机专业学生，有技术背景但非AI专家，代表典型用户
需求：需要辅助编程学习、技术文档理解和项目开发指导

b. 使用的产品栏目

代码生成功能（Python算法实现）
技术概念解释（面向对象编程）
学习路线咨询（后端开发技能树）

c. 使用过程中的问题和亮点

亮点：
- 代码注释详细，易于理解
- 响应速度快，几乎无延迟
- 中文解释清晰，适合初学者
问题：
- 复杂算法实现有逻辑错误
- 需要多次调整提示词才能获得理想结果
- 对最新技术栈了解有限

d. 用户体验改进建议

增加代码调试和错误修复功能
提供更多实际项目案例
优化提示词指导，降低使用门槛
增加学习进度跟踪功能

自动化测试

设计统一的评测标准表

评测指标（8个及以上）可以包括文本的连贯性、对话上下文记忆、数学推理能力、代码生成能力、知识的准确性等等
需要对该指标进行量化处理，如满分10分然后可以对该模型对应的能力进行打分1-10

在这里插入图片描述

设计统一的问题描述

针对评测指标来设计对应的问题拷打大模型
编写自动测试脚本对问题自动读取、打分
生成可视化表格（如csv格式等等）

在这里插入图片描述

Qwen2.5:0.5b 评测结论报告

📊 总体表现概览

Qwen2.5:0.5b模型在中文评测中表现良好，平均得分6.7/10，平均响应时间3.7秒。模型在8个测试案例中展现出稳定的性能，在数学计算和编程任务上表现优异，但在复杂指令遵循和创意写作方面有待提升。

🔍 分项能力分析

1. 技术能力表现

数学能力（9.2/10）：方程求解完美，数学维度得分10.0
编程能力（8.0/10）：算法实现优秀（编程得分10.0），但指令遵循仅3.0分
逻辑推理（6.0/10）：基础推理合格，知识维度得分5.0

2. 知识理解表现

知识广度（5.6/10）：学科知识掌握程度中等，连贯性得分5.5
多语言处理（6.3/10）：基础翻译得分7.0，但指令遵循较差（3.0分）

3. 创意与安全

创意写作（5.6/10）：创意得分4.9，连贯性5.5
安全合规（8.0/10）：安全知识满分（10.0），表现优秀

⚡ 性能指标分析

响应时间

最快响应2.6秒（多语言任务），最慢5.4秒（逻辑推理）
平均响应时间3.7秒，表现高效稳定

回答质量

一致性：3.0-8.0分，存在一定波动
连贯性：5.0-6.0分，整体表现中等

🚨 主要问题识别

技术局限性

指令遵循能力弱：多个任务中指令得分仅3.0分
创意生成能力有限：创意写作得分偏低（4.9分）
复杂任务处理不足：复杂指令任务总分仅4.8/10

📈 改进建议

短期优化

加强指令理解训练，提升复杂指令处理能力
优化创意生成模块，提高故事连贯性
增强多步骤任务的执行能力

长期发展

扩展专业知识库，提升知识深度
引入更多创意写作训练数据
优化多语言任务的指令理解能力

🎯 适用场景评估

推荐场景：

数学计算和方程求解
编程算法实现
网络安全合规建议

限制场景：

复杂多步骤指令任务
创意写作和故事生成
需要深度专业知识分析的任务

💡 总结结论

Qwen2.5:0.5b在技术性任务上表现优秀，响应速度快，适合数学计算、编程等基础应用场景。但在指令理解和创意生成方面需要改进，建议在技术性任务中优先使用，对于复杂指令和创意需求需配合其他工具或人工干预。

大模型2：Llama3.2