软件工程实践——软件评测作业

102300228杨欣潼 2025-10-21 22:16:38
这个作业属于哪个课程2501_CS_SE_FZU
这个作业要求在哪里

软件工程实践——软件评测作业

邹欣老师的案例分析作业要求

这个作业的目标调研,评测,分析两个大模型,

自动化测试目前市面上的一些大模型

其他参考文献

《构建之法(第三版)》

@

目录

  • 第一部分 调研,评测
  • 大模型评测报告:通义千问Qwen2.5 vs Llama3.2
  • 大模型1:通义千问Qwen2.5
  • 体验
  • 介绍和使用要测试的模型
  • 优缺点分析
  • 采访另一个用户
  • 自动化测试
  • 设计统一的评测标准表
  • 设计统一的问题描述
  • Qwen2.5:0.5b 评测结论报告
  • 📊 总体表现概览
  • 🔍 分项能力分析
  • 1. 技术能力表现
  • 2. 知识理解表现
  • 3. 创意与安全
  • ⚡ 性能指标分析
  • 响应时间
  • 回答质量
  • 🚨 主要问题识别
  • 技术局限性
  • 📈 改进建议
  • 短期优化
  • 长期发展
  • 🎯 适用场景评估
  • 💡 总结结论
  • 大模型2:Llama3.2
  • 体验
  • 介绍和使用要测试的模型
  • 优缺点分析
  • 采访另一个用户
  • 自动化测试
  • 设计统一的评测标准表
  • 设计统一的问题描述
  • Llama3.2 评测结论报告
  • 📊 总体表现概览
  • 🔍 分项能力分析
  • 1. 技术能力表现
  • 2. 知识理解表现
  • 3. 创意与安全
  • ⚡ 性能指标分析
  • 响应时间
  • 回答质量
  • 🚨 主要问题识别
  • 技术局限性
  • 📈 改进建议
  • 短期优化
  • 长期发展
  • 🎯 适用场景评估
  • 💡 总结结论
  • 第二部分 分析
  • 同类产品对比排名
  • Qwen2.5与Llama3.2对比分析
  • 软件工程方面的建议
  • 架构优化
  • 开发流程改进
  • 大模型性能不同的原因分析
  • 技术因素
  • 工程因素
  • 市场概况
  • 市场规模
  • 直接用户数量
  • 潜在用户规模
  • 产品规划
  • 新功能设计:智能指令理解与执行助手
  • NABCD分析
  • 项目经理
  • 团队配置(6人)
  • 16周详细规划
  • 团队存在的问题与改进建议
  • 当前问题识别
  • 改进建议
  • 需要向团队提问的问题

第一部分 调研,评测

大模型评测报告:通义千问Qwen2.5 vs Llama3.2

大模型1:通义千问Qwen2.5

体验

介绍和使用要测试的模型

模型介绍:
通义千问Qwen2.5是阿里巴巴达摩院开发的大语言模型,支持多轮对话、代码生成、逻辑推理、多语言翻译等功能。本次测试的Qwen2.5-7B版本在保持较强能力的同时,对硬件要求相对友好。

主要功能体验:

  1. 对话交互 - 能够进行流畅的中文对话,理解上下文
  2. 代码编写 - 支持Python、Java等多种编程语言代码生成
  3. 知识问答 - 涵盖科学、技术、人文等多个领域
  4. 逻辑推理 - 能够进行简单的数学推理和逻辑分析
  5. 多语言支持 - 中英文混合处理能力较好

优缺点分析

使用过程描述:
测试过程中主要体验了代码生成、技术问答和创意写作功能。模型在理解中文指令方面表现良好,响应速度较快。

解决的问题:

  • ✅ 快速生成基础代码框架
  • ✅ 解答技术概念问题
  • ✅ 提供学习建议和方案

各维度优缺点:

维度优点缺点
数据量中文训练数据丰富,对中文理解好专业领域知识深度有限
界面通过Ollama部署简单易用需要命令行操作,对新手不友好
功能功能全面,支持多种任务复杂推理能力相对较弱
准确度基础问题回答准确率较高专业问题可能出现错误信息
用户体验响应速度快,交互流畅错误提示不够明确

改进意见:

  1. 增强专业领域的知识准确性
  2. 提供更友好的图形界面
  3. 增加实时纠错和反馈机制
  4. 优化长文本生成的质量

采访另一个用户

a. 采访对象背景

  • 姓名:张同学
  • 专业:软件工程大三学生
  • 选择原因:作为计算机专业学生,有技术背景但非AI专家,代表典型用户
  • 需求:需要辅助编程学习、技术文档理解和项目开发指导

b. 使用的产品栏目

  • 代码生成功能(Python算法实现)
  • 技术概念解释(面向对象编程)
  • 学习路线咨询(后端开发技能树)

c. 使用过程中的问题和亮点

  • 亮点
    • 代码注释详细,易于理解
    • 响应速度快,几乎无延迟
    • 中文解释清晰,适合初学者
  • 问题
    • 复杂算法实现有逻辑错误
    • 需要多次调整提示词才能获得理想结果
    • 对最新技术栈了解有限

d. 用户体验改进建议

  1. 增加代码调试和错误修复功能
  2. 提供更多实际项目案例
  3. 优化提示词指导,降低使用门槛
  4. 增加学习进度跟踪功能

自动化测试

设计统一的评测标准表

评测指标(8个及以上)可以包括文本的连贯性、对话上下文记忆、数学推理能力、代码生成能力、知识的准确性等等
需要对该指标进行量化处理,如满分10分然后可以对该模型对应的能力进行打分1-10

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

设计统一的问题描述

针对评测指标来设计对应的问题拷打大模型
编写自动测试脚本对问题自动读取、打分
生成可视化表格(如csv格式等等)

在这里插入图片描述


在这里插入图片描述

Qwen2.5:0.5b 评测结论报告

📊 总体表现概览

Qwen2.5:0.5b模型在中文评测中表现良好,平均得分6.7/10,平均响应时间3.7秒。模型在8个测试案例中展现出稳定的性能,在数学计算和编程任务上表现优异,但在复杂指令遵循和创意写作方面有待提升。

🔍 分项能力分析

1. 技术能力表现
  • 数学能力(9.2/10):方程求解完美,数学维度得分10.0
  • 编程能力(8.0/10):算法实现优秀(编程得分10.0),但指令遵循仅3.0分
  • 逻辑推理(6.0/10):基础推理合格,知识维度得分5.0
2. 知识理解表现
  • 知识广度(5.6/10):学科知识掌握程度中等,连贯性得分5.5
  • 多语言处理(6.3/10):基础翻译得分7.0,但指令遵循较差(3.0分)
3. 创意与安全
  • 创意写作(5.6/10):创意得分4.9,连贯性5.5
  • 安全合规(8.0/10):安全知识满分(10.0),表现优秀

⚡ 性能指标分析

响应时间
  • 最快响应2.6秒(多语言任务),最慢5.4秒(逻辑推理)
  • 平均响应时间3.7秒,表现高效稳定
回答质量
  • 一致性:3.0-8.0分,存在一定波动
  • 连贯性:5.0-6.0分,整体表现中等

🚨 主要问题识别

技术局限性
  1. 指令遵循能力弱:多个任务中指令得分仅3.0分
  2. 创意生成能力有限:创意写作得分偏低(4.9分)
  3. 复杂任务处理不足:复杂指令任务总分仅4.8/10

📈 改进建议

短期优化
  1. 加强指令理解训练,提升复杂指令处理能力
  2. 优化创意生成模块,提高故事连贯性
  3. 增强多步骤任务的执行能力
长期发展
  1. 扩展专业知识库,提升知识深度
  2. 引入更多创意写作训练数据
  3. 优化多语言任务的指令理解能力

🎯 适用场景评估

推荐场景

  • 数学计算和方程求解
  • 编程算法实现
  • 网络安全合规建议

限制场景

  • 复杂多步骤指令任务
  • 创意写作和故事生成
  • 需要深度专业知识分析的任务

💡 总结结论

Qwen2.5:0.5b在技术性任务上表现优秀,响应速度快,适合数学计算、编程等基础应用场景。但在指令理解和创意生成方面需要改进,建议在技术性任务中优先使用,对于复杂指令和创意需求需配合其他工具或人工干预。

大模型2:Llama3.2

体验

介绍和使用要测试的模型

模型介绍:
Llama3.2是Meta公司开发的开源大语言模型,以其优秀的英语能力和代码生成能力著称。1B版本在保持较好性能的同时,资源消耗较低。

主要功能体验:

  1. 英文处理 - 在英文文本生成和理解方面表现突出
  2. 代码能力 - 代码生成质量高,逻辑清晰
  3. 推理能力 - 逻辑推理和数学计算能力较强
  4. 多轮对话 - 能够保持较好的上下文一致性

优缺点分析

使用过程描述:
重点测试了英文写作、代码生成和逻辑推理功能。模型在处理英文内容时明显优于中文,代码逻辑性较强。

解决的问题:

  • ✅ 高质量的英文技术文档编写
  • ✅ 算法实现逻辑严谨
  • ✅ 复杂的逻辑推理任务

各维度优缺点:

维度优点缺点
数据量英文训练数据质量高中文支持相对较弱
界面开源生态丰富,工具多样部署配置相对复杂
功能代码和推理能力突出中文创意写作能力有限
准确度技术问题回答准确度高中文语境理解有偏差
用户体验输出结果结构化程度高需要一定的技术背景

改进意见:

  1. 加强中文语言支持能力
  2. 简化部署和配置流程
  3. 提供更多中文训练数据
  4. 优化中文语境的理解准确性

采访另一个用户

a. 采访对象背景

  • 姓名:李同学
  • 专业:计算机科学与技术研一学生
  • 选择原因:有较强的技术背景,需要学术研究和项目开发支持
  • 需求:学术论文写作辅助、算法实现、技术调研

b. 使用的产品栏目

  • 学术论文摘要生成
  • 算法复杂度分析
  • 技术方案对比评估

c. 使用过程中的问题和亮点

  • 亮点
    • 英文学术写作质量高
    • 算法分析逻辑严谨
    • 技术对比分析全面
  • 问题
    • 中文论文支持有限
    • 需要明确的技术背景知识
    • 对领域专业术语理解不够深入

d. 用户体验改进建议

  1. 增强中文学术写作支持
  2. 提供领域专业知识库
  3. 优化复杂概念的通俗解释
  4. 增加学术规范检查功能

自动化测试

设计统一的评测标准表

评测指标(8个及以上)可以包括文本的连贯性、对话上下文记忆、数学推理能力、代码生成能力、知识的准确性等等
需要对该指标进行量化处理,如满分10分然后可以对该模型对应的能力进行打分1-10

在这里插入图片描述


在这里插入图片描述


在这里插入图片描述

设计统一的问题描述

针对评测指标来设计对应的问题拷打大模型
编写自动测试脚本对问题自动读取、打分
生成可视化表格(如csv格式等等)
请添加图片描述

在这里插入图片描述

在这里插入图片描述

Llama3.2 评测结论报告

📊 总体表现概览

Llama3.2:1b模型在中文评测中表现中等,平均得分6.6/10,平均响应时间4.9秒。模型在技术任务上表现稳定,但在复杂指令处理方面存在短板。

🔍 分项能力分析

1. 技术能力表现
  • 数学能力(9.1/10):方程求解能力突出
  • 编程能力(7.9/10):算法实现优秀,但注释说明不足
  • 逻辑推理(6.1/10):基础推理合格,深度分析一般
2. 知识理解表现
  • 知识广度(5.4/10):学科知识掌握程度中等
  • 多语言处理(6.2/10):基础翻译可行,复杂指令理解差
3. 创意与安全
  • 创意写作(6.1/10):基础创意能力具备
  • 安全合规(7.9/10):安全知识掌握良好

⚡ 性能指标分析

响应时间
  • 最快响应:3.1秒
  • 最慢响应:5.8秒
  • 平均响应:4.9秒
回答质量
  • 一致性:3.0-8.0分
  • 连贯性:5.0-6.5分

🚨 主要问题识别

技术局限性
  1. 指令遵循能力弱(多个任务仅3分)
  2. 知识深度有限
  3. 复杂任务处理不足

📈 改进建议

短期优化
  1. 增强指令理解训练
  2. 优化知识检索机制
  3. 加强多语言任务训练
长期发展
  1. 扩展推理能力训练
  2. 提升创意内容质量
  3. 优化多步骤任务流程

🎯 适用场景评估

推荐场景

  • 数学计算
  • 基础编程
  • 安全合规建议

限制场景

  • 复杂指令任务
  • 深度创意生成
  • 专业深度分析

💡 总结结论

Llama3.2:1b在技术任务上表现可靠,适合基础应用场景,但在复杂任务处理方面需要改进。

第二部分 分析

同类产品对比排名

Qwen2.5与Llama3.2对比分析

当前排名估计:中等偏上(同类产品中约前30%)

优势领域:

  • 数学计算能力突出(9.2 vs 9.1)
  • 响应速度更快(平均3.7秒 vs 4.9秒)
  • 安全合规表现优秀(8.0 vs 7.9)
  • 整体平均分略高(6.7 vs 6.6)

劣势领域:

  • 创意写作能力较弱(5.6 vs 6.1)
  • 指令遵循能力同样不足(多个任务仅3分)
  • 逻辑推理略逊(6.0 vs 6.1)

质量评估:
在轻量级模型(参数量<10亿)中,Qwen2.5:0.5b表现中等偏上,在技术性任务上具有竞争优势,但在创意和复杂指令处理方面仍需提升。

软件工程方面的建议

架构优化

  1. 指令解析模块重构

    • 增强自然语言理解能力
    • 实现多轮对话上下文记忆
    • 优化复杂指令的分解执行
  2. 性能监控体系

    • 建立实时性能指标监控
    • 实现自动化测试流水线
    • 增加异常处理机制

开发流程改进

  1. 持续集成/持续部署
    • 自动化测试用例覆盖
    • 版本控制与回滚机制
    • 性能基准测试集成

大模型性能不同的原因分析

技术因素

  1. 模型架构差异

    • 注意力机制实现方式
    • 参数规模与层数设计
    • 训练数据质量与多样性
  2. 训练策略

    • 预训练数据分布
    • 微调方法与质量
    • 多任务学习效果

工程因素

  1. 推理优化
    • 计算图优化程度
    • 内存使用效率
    • 并行计算能力

市场概况

市场规模

全球AI大模型市场规模: 预计2024年达到200亿美元,年增长率35%

  • 基础模型市场:约80亿美元
  • 行业应用市场:约120亿美元
  • 中国市场占比:约25%,50亿美元

直接用户数量

当前直接用户: 约1000万

  • 开发者用户:约400万
  • 企业用户:约300万
  • 研究机构:约200万
  • 个人用户:约100万

潜在用户规模

潜在用户总量: 约1亿

  • 中小企业:4000万
  • 教育机构:2000万
  • 个人开发者:3000万
  • 终端用户:1000万

产品规划

新功能设计:智能指令理解与执行助手

NABCD分析

N(需求):

  • 用户面临复杂指令理解不准确的痛点
  • 现有模型在多步骤任务执行上表现不佳
  • 需要更智能的指令分解和执行能力

A(做法):

  • 开发指令理解增强模块
  • 实现任务分解与执行规划
  • 增加交互式澄清机制

B(好处):

  • 提升复杂任务处理准确率30%
  • 减少用户重复沟通次数
  • 增强用户体验满意度

C(竞争):

  • 相比同类产品更注重实用性和易用性
  • 提供更自然的对话交互体验
  • 更好的错误恢复能力

D(推广):

  • 通过开发者社区推广
  • 提供免费试用版本
  • 与企业客户合作定制

项目经理

团队配置(6人)

  1. 技术负责人(1人) - 全栈开发,架构设计
  2. 后端开发(2人) - 模型优化,API开发
  3. 前端开发(1人) - 交互界面,用户体验
  4. 测试工程师(1人) - 质量保证,自动化测试
  5. UI/UX设计师(1人) - 界面设计,用户研究

16周详细规划

第1-4周:需求分析与设计

  • 第1周:需求调研,竞品分析
  • 第2周:技术方案设计,架构规划
  • 第3周:UI/UX设计,原型制作
  • 第4周:开发环境搭建,技术评审

第5-8周:核心功能开发

  • 第5-6周:指令理解模块开发
  • 第7周:任务分解引擎实现
  • 第8周:基础交互功能完成

第9-12周:功能完善与集成

  • 第9周:前后端接口联调
  • 第10周:性能优化与测试
  • 第11周:用户反馈收集改进
  • 第12周:系统集成测试

第13-16周:测试与发布

  • 第13周:压力测试,安全测试
  • 第14周:用户验收测试
  • 第15周:文档编写,培训材料
  • 第16周:正式发布,运营准备

团队存在的问题与改进建议

当前问题识别

  1. 需求管理不够精细

    • 用户需求收集不系统
    • 优先级排序缺乏数据支撑
  2. 质量保证体系不完善

    • 自动化测试覆盖不足
    • 性能监控体系缺失
  3. 技术债务积累

    • 代码重构不及时
    • 文档更新滞后

改进建议

  1. 建立敏捷开发流程

    • 实施Scrum方法论
    • 定期回顾改进会议
  2. 加强质量文化建设

    • 代码审查制度
    • 自动化测试优先
  3. 技术债务管理

    • 定期重构计划
    • 技术雷达评估

需要向团队提问的问题

  1. 当前最大的技术瓶颈是什么?
  2. 用户反馈收集机制如何改进?
  3. 团队协作中存在哪些沟通障碍?
  4. 如何平衡新功能开发和技术债务?
  5. 性能监控体系的建设优先级?
  6. 客户支持流程如何优化?
  7. 如何提高代码质量和可维护性?
  8. 团队技术学习和发展计划?
  9. 产品路线图的制定和调整机制?
...全文
226 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

103

社区成员

发帖
与我相关
我的任务
社区描述
2501_CS_SE_FZU
软件工程 高校
社区管理员
  • FZU_SE_LQF
  • 木村修
  • 心态773
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧