发际线总和我作队——大模型评测作业

发际线总和我作队 2025-10-27 12:57:36
这个作业属于哪个课程2501_CS_SE_FZU
这个作业要求在哪里软件工程实践——大模型评测作业
这个作业的目标调研、评测、分析两个大模型,并进行自动化测试
其他参考文献《构建之法》

目录

  • 第一部分 调研、评测
  • 1.1 阿里百炼
  • 1.1.1 体验
  • 1.1.2 自动化测试
  • 1.1.3 结论
  • 1.2 智普AI
  • 1.2.1 体验
  • 1.2.2 自动化测试
  • 1.2.3 结论
  • 第二部分 分析
  • 2.1 同类产品对比排名
  • 2.2 软件工程方面的建议
  • 2.3 市场概况
  • 2.4 产品规划
  • 第三部分 团队绩效
  • 第四部分 大模型自动化测试答辩PPT

第一部分 调研、评测

1.1 阿里百炼

1.1.1 体验

一、模型基本功能与使用介绍

1. 模型基本功能

Qwen-Turbo 是阿里巴巴通义千问系列中的"高性能"版本,在保持强大能力的同时特别优化了推理速度。具备以下核心功能:

  • 自然语言对话与问答:能够进行多轮、流畅的对话,回答各种领域的问题
  • 内容创作与编辑:可以撰写文章、邮件、报告、广告文案、诗歌等
  • 代码编程助手:支持多种编程语言的代码生成、解释、调试和注释
  • 逻辑推理与分析:能够进行简单的逻辑推理、数学计算和数据分析
  • 文本摘要与提取:快速提炼长篇文章的核心内容
  • 多语言支持:支持中文、英文等多种语言的交互
  • 文件处理:支持上传图像、txt、pdf、ppt、word、excel等文件并提取文字信息

2. 注册与使用流程

步骤 1:注册与登录

  1. 访问通义千问官方网站
  2. 点击"登录/注册",使用阿里巴巴/淘宝/支付宝账户一键登录

步骤 2:找到并选择模型

  1. 登录后进入聊天主界面
  2. 在模型选择器中选择 Qwen-Turbo
  3. 开始对话或上传文件使用

    img

步骤 3:文件上传功能

  1. 点击输入框旁的"上传"按钮
  2. 选择图片、PDF、Word等文件
  3. 模型读取文件中文字信息并处理

    img

【界面功能描述】

  • 登录界面:浏览器打开官网,顶部是模型选项,中央是聊天区域
  • 聊天界面:底部输入框左侧有上传按钮,支持联网搜索功能

二、优缺点分析

1. 使用过程与解决的问题

使用过程:整个流程非常顺畅。从阿里系账户一键登录,到直观的模型选择和清晰的文件上传入口,用户无需学习成本即可快速上手。输入问题后,Qwen-Turbo 的响应速度确实非常快,几乎感觉不到延迟。

解决的问题

  • 效率问题:快速获取信息、生成文案或代码片段,极大提升效率
  • 多格式文档处理:无需手动复制粘贴不同格式文档内容,直接上传处理
  • 创意与灵感辅助:为写作瓶颈或多角度分析问题提供有效灵感和思路

2. 各维度优缺点分析

维度优点缺点
数据量/知识库- 基于阿里巴巴海量数据训练,中文理解突出
- 在商业、电商、科技领域表现强劲
- 知识更新相对及时
- 某些细分领域或冷门知识略有不足
- 实时事件需依赖"联网搜索"功能
界面/易用性- 界面简洁直观,符合中国用户习惯
- 与阿里生态无缝集成,登录便捷
- 文件上传功能操作简单明了
- 缺乏高级参数自定义选项
- 对话历史管理和检索功能较弱
功能- 核心功能齐全,覆盖主流需求
- 文件支持格式丰富,文本提取实用
- 提供联网搜索获取实时信息
- 不支持语音输入输出功能
- 不能根据描述生成图片
- 高级功能需调用API或使用更贵模型
准确度- 通用任务准确度高,中文处理出色
- 代码生成的逻辑性和正确性良好
- 文档信息提取准确率较高
- 复杂数学推理时偶有错误
- 专业领域可能出现不准确信息
- 联网搜索信息需要用户自行甄别
用户体验- 响应速度极快,体验流畅
- 免费额度充足,个人用户够用
- 对话风格自然、亲切友好
- 高峰期偶尔服务不稳定
- 长对话时对早期上下文记忆模糊

三、改进意见

基于深度体验,提出以下改进建议:

  1. 增加高级参数自定义:提供"高级模式",允许调整temperature、top_p等参数,满足专业用户需求
  2. 增强对话历史管理:提供对话历史归档、标签、搜索功能,方便管理回溯
  3. 引入语音交互功能:增加语音输入和播报,拓展移动、驾驶等场景应用
  4. 优化联网搜索体验:默认标注信息来源,提供多源交叉验证,增强结果可靠性
  5. 推出垂直场景智能体:内置简历优化、文案生成、SQL生成等专用智能体,一键切换使用
  6. 提升长文档处理能力:优化对超长PDF和书籍的摘要与分析能力

四、用户深度体验采访

采访人:项目调研员
采访对象:王同学(软件工程专业大三学生)
采访时间:2025年10月25日
使用产品:阿里百炼平台-Qwen-Turbo模型
体验时长:约25分钟


a. 采访对象背景与需求

采访对象背景

  • 身份:软件工程专业大三学生
  • 技术栈:熟练掌握Java、Python,了解Spring Boot、MySQL,目前正在学习分布式系统
  • 项目经验:参与过校园选课系统开发,有完整的项目开发流程体验

选择原因
王同学代表了典型的技术型初始用户:具备扎实的编程基础,对新技术敏感,有明确的学习和开发需求,能够从开发者视角提供专业反馈。

使用需求

  1. 课程项目协助:帮助调试代码,理解复杂错误信息
  2. 学习效率提升:快速掌握新技术概念,获取学习资料摘要
  3. 代码优化建议:获取代码重构意见,学习更好的编程实践

b. 产品使用栏目描述

在25分钟体验中,王同学主要使用了以下功能模块:

核心交互区域

  1. 主对话界面 - 进行技术问答和代码讨论
  2. 模型选择区 - 确认使用Qwen-Turbo模型
  3. 文件上传功能 - 尝试上传Java源码文件和课程PDF

具体使用场景

  • 输入具体编程问题:"Spring Boot中如何配置多数据源?"
  • 请求代码调试:"帮我分析这段代码的NPE异常原因"
  • 上传技术文档请求总结
  • 询问学习路线建议

c. 使用过程的问题与亮点

遇到的困难与问题

  1. 功能发现成本高

    "刚开始对着空白的输入框有点懵,不知道从哪里开始。虽然知道是大模型,但具体能做什么、做得多好,心里没底。要是能有一些预设的技术问题示例就好了。"

  2. 代码交互体验待优化

    "生成的代码片段很准确,但是复制的时候格式容易乱。特别是缩进,在IDEA里还要重新调整。如果能像GitHub那样有一键复制按钮就方便多了。"

  3. 技术深度把握不准

    "有些问题回答得很浅显,比如问'分布式事务的实现',回答停留在概念层面。但换个问法,提到具体场景时,又能给出很深入的分析。感觉需要摸索提问技巧。"

突出的亮点与优势

  1. 响应速度极佳

    "响应真的很快,比我之前用过的其他工具都快很多。写代码的时候几乎感觉不到延迟,这个体验很棒。"

  2. 技术回答准确度高

    "问它关于Java并发的问题,回答得很专业,还提到了最新的Virtual Threads特性。代码示例也很规范,可以直接参考使用。"

  3. 上下文理解能力强

    "在讨论一个复杂问题时,我分了好几次提问,它都能记住之前的对话内容,不需要我重复说明背景,这个对技术讨论特别重要。"


d. 用户体验改进建议

基于技术用户视角的改进建议

  1. 降低入门门槛

    • 提供技术向的入门引导,展示典型技术使用场景
    • 在输入框预设技术问题示例,如"如何优化SQL查询性能?"
  2. 优化代码交互体验

    • 为代码块添加一键复制功能,保持格式完整
    • 增加代码高亮和行号显示,提升阅读体验
    • 支持代码差异对比,展示优化前后的变化
  3. 增强技术深度标识

    • 对回答的技术深度进行分级提示
    • 提供追问引导,帮助深入技术细节
    • 增加相关技术文档的链接参考
  4. 改进技术文件处理

    • 明确支持的技术文档类型
    • 提供针对技术文档的专用处理选项
    • 支持API文档的快速理解和示例生成

对开发团队的反思

"感觉开发团队可能太熟悉自己的产品了,忽略了我们这些'技术小白'第一次使用时的困惑。虽然我们懂技术,但不懂你们产品的'使用技巧'。建议多从真实技术学习场景出发,考虑我们遇到问题时的第一反应。"


1.1.2 自动化测试

通过编程方式创建一个模拟的购车决策环境
在该环境中,程序应能与大模型进行多轮对话,完成从需求到决策的全过程

img

一、城市通勤场景

1.提出购车意图
向Qwen-qwen-turbo提出购车意图

img

2.大模型给出初步推荐
Qwen-qwen-turbo给出初步推荐

类型推荐车型特点
省心可靠丰田卡罗拉保值率高,维修方便
动力操控本田思域驾驶乐趣强
性价比高吉利星瑞配置丰富,价格实惠
节能环保比亚迪秦PLUS DM-i省油、智能化高

3.输入购车要点
程序向模型逐条提出更具体的购车需求(如动力、续航、油耗、安全、保值率、品牌口碑等),要求模型基于这些要点分析或更新推荐。

img

img

img

img

进一步考虑燃油经济性、安全配置、车辆保值率以及品牌口碑售后。Qwen-qwen-turbo不断根据提出的新要求更新分析与回答。

4.性能参数表格化对比
让模型输出几款候选车型的性能参数对比表(例如动力、续航、空间、安全配置等),程序自动提取表格内容并保存。

img

车型动力系统最大功率(kW)最大扭矩(N·m)油耗/电耗(L/100km 或 kWh/100km)空间表现(长×宽×高 mm)安全配置(如:ABS、ESP、气囊数)售价范围(万元)
丰田凯美瑞 2.5L Hybrid混合动力131 kW221 N·m油耗:5.7 L/100km4885×1840×1455ABS、ESP、7气囊21.98 - 27.98
大众帕萨特 1.4T燃油110 kW250 N·m油耗:6.2 L/100km4924×1836×1469ABS、ESP、6气囊18.99 - 25.29
比亚迪汉 DM-i插电混动145 kW325 N·m电耗:1.5 kWh/100km(纯电模式)4995×1910×1495ABS、ESP、7气囊18.98 - 23.98
特斯拉Model 3 后驱版纯电动194 kW350 N·m电耗:13.2 kWh/100km4680×1850×1440ABS、ESP、6气囊22.99 - 25.99
小鹏P7 i 700纯电动265 kW550 N·m电耗:15.5 kWh/100km4880×1896×1457ABS、ESP、7气囊23.99 - 29.99
本田雅阁 1.5T燃油134 kW267 N·m油耗:6.1 L/100km4893×1862×1448ABS、ESP、6气囊16.98 - 21.98
蔚来ET5纯电动210 kW420 N·m电耗:14.3 kWh/100km4750×1960×1490ABS、ESP、7气囊22.99 - 29.89

5.选出目标车型
程序要求模型结合前面信息,给出最终推荐,并说明理由。

img

推荐车型:
大众途观L(Volkswagen Tiguan L)
理由如下图所示

img


img


img

二、家庭用车场景

1.提出购车意图
向Qwen-qwen-turbo提出购车意图

img

2.大模型给出初步推荐
Qwen-qwen-turbo给出初步推荐

推荐车型价格区间空间适合人群
别克GL8艾维亚25万左右⭐⭐⭐⭐⭐家庭出行、商务接待
丰田赛那27万 - 34万⭐⭐⭐⭐⭐注重品质、舒适性
本田奥德赛23万 - 30万⭐⭐⭐⭐实用性强、性价比高
大众途昂24万 - 30万⭐⭐⭐⭐Suv爱好者、空间大
比亚迪宋Pro DM-i15万 - 20万⭐⭐⭐⭐新能源偏好者

3.输入购车要点
程序向模型逐条提出更具体的购车需求,要求模型基于这些要点分析或更新推荐。

img

img

img

img

进一步考虑7座版本、后备箱容量、车辆安全性以及维护成本。Qwen-qwen-turbo不断根据提出的新要求更新分析与回答。

4.性能参数表格化对比
让模型输出几款候选车型的性能参数对比表,程序自动提取表格内容并保存。

img

项目丰田凯美瑞(燃油版)大众帕萨特(燃油版)特斯拉Model 3(纯电)比亚迪汉EV(纯电)本田雅阁(燃油版)
动力系统2.0L/2.5L 自然吸气发动机1.4T/2.0T 涡轮增压单电机后驱/双电机四驱单电机后驱/双电机四驱1.5T/2.0L 自然吸气
最大功率178/209马力150/220马力272/358马力245/363马力192/238马力
峰值扭矩207/257牛·米250/350牛·米330/545牛·米360/680牛·米260/350牛·米
变速箱8AT7DCT单速自动单速自动CVT/8AT
油耗(WLTC)约6.0-7.5L/100km约6.3-7.8L/100km15.2-16.5kWh/100km14.8-16.0kWh/100km约6.1-7.6L/100km
续航(纯电)--545-675km610-710km-
车身尺寸(长×宽×高)4885×1840×1445mm4924×1836×1469mm4680×1850×1440mm4965×1910×1495mm4898×1863×1449mm
轴距2825mm2871mm2875mm2918mm2830mm
后备箱容积504L480L425L420L480L
安全配置(标配)TSS智行安全系统IQ.Drive驾驶辅助Autopilot 自动驾驶辅助DiPilot 智能驾驶辅助Honda SENSING
主被动安全配置ABS、EBD、ESP、多气囊ABS、EBD、ESP、多气囊前雷达、摄像头、自动刹车前雷达、摄像头、自动刹车ABS、EBD、ESP、多气囊
价格区间(人民币)17.98万-25.98万18.59万-25.29万23.59万-33.99万21.98万-27.95万16.98万-23.98万

5.选出目标车型
程序要求模型结合前面信息,给出最终推荐,并说明理由。

img

最终推荐车型:丰田RAV4荣放(2024款)
理由如下图所示

img


img


img

三、新能源车场景

1.提出购车意图
向Qwen-qwen-turbo提出购车意图

img

2.大模型给出初步推荐
Qwen-qwen-turbo给出初步推荐

需求推荐车型
日常通勤比亚迪海鸥、小鹏P5
家庭出行理想L6/L7、比亚迪宋PLUS DM-i
长途旅行理想L8、极氪001、比亚迪唐DM-i
高性价比比亚迪秦PLUS DM-i、零跑C11

3.输入购车要点
程序向模型逐条提出更具体的购车需求,要求模型基于这些要点分析或更新推荐。

img

img

img

img

进一步考虑纯电续航、快充功能、智能化配置以及电池质保政策。Qwen-qwen-turbo不断根据提出的新要求更新分析与回答。

4.性能参数表格化对比
让模型输出几款候选车型的性能参数对比表,程序自动提取表格内容并保存。

img

车型品牌/级别动力系统最大功率(kW)最大扭矩(N·m)燃油/电耗(L/100km 或 kWh/100km)轴距(mm)安全配置(部分)售价范围(万元)
丰田凯美瑞中型轿车油电混动131(2.5L+电机)2214.8-5.1 L/100km2825TSS 3.0(车道保持、自动刹车等)17.98 - 26.98
本田雅阁中型轿车油电混动137(2.0L+电机)2305.0-5.3 L/100km2830Honda SENSING(ACC、AEB等)16.98 - 25.98
大众帕萨特中型轿车油电混动131(1.5T+电机)2505.3-5.6 L/100km2944IQ.Drive(主动刹车、盲点监测等)18.99 - 25.99
特斯拉Model Y纯电动SUV纯电动258(后驱) / 358(四驱)545(后驱) / 659(四驱)15.5-16.5 kWh/100km2890Autopilot(辅助驾驶)24.99 - 33.99
小鹏G6纯电动SUV纯电动218(后驱) / 340(四驱)430(后驱) / 600(四驱)15.2-16.0 kWh/100km2900XNGP(高阶智驾)22.99 - 30.99
比亚迪汉EV纯电动轿车纯电动363(后驱) / 500(四驱)680(后驱) / 820(四驱)13.8-15.0 kWh/100km3015DiPilot(智能驾驶辅助)21.98 - 27.98
一汽-大众ID.4 CROZZ纯电动SUV纯电动150(前驱) / 300(四驱)310(前驱) / 470(四驱)13.5-15.0 kWh/100km2765IQ.Drive(辅助驾驶)17.99 - 24.99
理想L7插电混动SUV增程+电机330(发动机+电机)4951.5-2.0 L/100km + 15.5 kWh/100km2975L2+智能驾驶辅助33.98 - 41.98

5.选出目标车型
程序要求模型结合前面信息,给出最终推荐,并说明理由。

img

🚗 推荐车型:丰田RAV4荣放 2024款 2.0L 四驱智享版
理由如下图所示

img


img


img

四、自动化评测

模型: Qwen-qwen-turbo

场景: 城市通勤场景
最终推荐: 丰田RAV4
候选车型: [比亚迪秦, 特斯拉Model 3, 丰田RAV4, 丰田凯美瑞, 本田CR-V, 本田雅阁, 大众途观, 日产天籁, 奔驰C级, 宝马3系, 奥迪A4]
响应时间: 0ms
评测得分: 100/100
得分细则:
候选车型数量评分( 20)
参数表格完整性评分( 30)
最终推荐明确性评分( 20)
响应内容质量评分( 30)
参数对比表: 7 款车型

场景: 家庭用车场景
最终推荐: 比亚迪宋
候选车型: [丰田RAV4, 本田CR-V, 大众途观, 别克昂科威, 奔驰E级, 宝马5系]
响应时间: 0ms
评测得分: 100/100
得分细则:
候选车型数量评分( 20)
参数表格完整性评分( 30)
最终推荐明确性评分( 20)
响应内容质量评分( 30)
参数对比表: 13 款车型

场景: 新能源车场景
最终推荐: 丰田RAV4
候选车型: [比亚迪 汉, 比亚迪汉, 蔚来 ET5, 蔚来ET5, 小鹏 G9, 小鹏G9, 理想 L7, 理想L7, 特斯拉 Model Y, 特斯拉Model Y]
响应时间: 0ms
评测得分: 100/100
得分细则:
候选车型数量评分( 20)
参数表格完整性评分( 30)
最终推荐明确性评分( 20)
响应内容质量评分( 30)
参数对比表: 8 款车型

平均得分: 100/100

1.1.3 结论

Qwen-Turbo 是一款在速度和易用性上表现极其出色的国产大模型。它完美地解决了用户在日常工作、学习和生活中寻求快速、便捷AI助手的需求。虽然在顶尖的复杂推理能力和一些前沿功能上与世界领先模型存在细微差距,但其流畅的体验、优秀的中文能力和亲民的免费策略,使其成为中文用户非常值得推荐和使用的AI工具。

1.2 智普AI

1.2.1 体验

一、模型基本功能与使用介绍

1. 模型基本功能

GLM-4 是智谱AI(Zhipu AI)发布的第四代大型语言模型。作为国产模型的代表之一,它在推理、知识、代码和长文本处理等多个维度进行了全面升级,旨在提供更强大的通用人工智能能力。

其核心功能包括:

  • 智能对话与问答:支持复杂、深度的多轮对话,能够理解上下文并回答各类知识性问题。
  • 复杂内容创作:能够撰写报告、方案、脚本、学术论文等结构严谨、逻辑清晰的长文本。
  • 高级代码能力:支持代码生成、调试、解释、优化以及在不同编程语言间进行转换。
  • 深度逻辑推理:在数学问题、逻辑链条分析、因果关系推断等方面表现出色。
  • 超长文本处理:支持长达128K的上下文窗口,能够对书籍、长文档进行摘要、问答和分析。
  • 多模态与文件解析:具备视觉理解能力(需特定版本),可以解读上传的图片内容,并支持处理PDF、Word、PPT、Excel等多种格式文件中的文字信息。

2. 注册与使用流程

步骤 1:注册与登录

  1. 访问智谱清言官方网站或下载其App。
  2. 使用手机号或第三方社交账号(如微信)进行注册和登录。

步骤 2:找到并选择模型

  1. 在Web端或App端的主界面中,GLM-4通常是默认或首推的模型。
  2. 在一些平台(如开放平台)上,用户可能需要从模型列表中选择“GLM-4”或其特定变体(如GLM-4-Flash,长文本版等)。

    img

步骤 3:开始使用与上传文件

  1. 在对话框输入问题或指令。
  2. 点击“上传”按钮,选择图片或文档文件进行上传和处理。

    img

【界面功能描述】

  • 主界面:设计清新,对话气泡区分用户与模型,视觉舒适度较高。
  • 功能入口:上传按钮、联网搜索开关、创建新对话等核心功能键通常位于输入框周围,布局直观。

二、优缺点分析

1. 使用过程与解决的问题

使用过程:登录流程顺畅,界面引导清晰。模型在处理复杂任务时表现出“深思熟虑”的特点,响应速度根据任务复杂度有所不同,但整体流畅。长文本处理能力是其显著优势,能够很好地维持长对话的连贯性。

解决的问题

  • 深度分析与创作需求:对于需要深度思考、逻辑严密的报告撰写和学术研究辅助,GLM-4能提供高质量的输出。
  • 长文档信息整合:完美解决了用户需要快速消化整本书、长篇报告或复杂技术文档的核心诉求。
  • 复杂代码任务:不仅能生成代码,还能进行代码审查、优化建议和跨语言重构,提升了开发效率和质量。

2. 各维度优缺点分析

维度优点缺点
数据量/知识库- 知识覆盖面广,特别是在学术、科研领域表现深厚。
- 对中文的理解和处理有天然优势,文化背景契合度高。
- 在某些非常前沿或极其冷门的英文技术资料上,信息可能略滞后于国际顶尖模型。
界面/易用性- 界面设计美观、友好,符合国内用户审美和操作习惯。
- 功能分区明确,新手能快速找到核心操作。
- 高级功能(如系统提示词设置、参数调整)对普通用户隐藏较深,需要探索或查阅文档。
功能- 长文本处理能力突出,是核心竞争力之一。
- 代码能力全面,从生成到优化链条完整。
- 多模态理解(图片)准确度高,能有效解读图表和信息图。
- 基础版本的响应速度在处理复杂任务时可能慢于专门的“Turbo”类模型。
- 纯文本模型,不支持文生图(AIGC)。
准确度- 在逻辑推理和复杂问题分析上准确度很高,答案严谨。
- 代码生成的可执行率和逻辑正确性优秀。
- 对长文档的理解和信息提取精准,能把握核心思想。
- 极少数情况下,在知识边界问题上可能产生“幻觉”,需要用户交叉验证。
用户体验- 长上下文对话体验极佳,记忆能力强。
- 创作内容的质量和深度受到用户好评。
- 免费额度提供了充分的体验空间。
- 峰值使用时偶尔会遇到排队或响应延迟的情况。
- 输出内容有时会过于详尽,缺乏简洁明了的呈现方式选项。

三、改进意见

基于深度体验,提出以下改进建议:

  1. 提供响应风格选项:增加“简洁”与“详细”的输出模式开关,让用户可以根据场景(如快速查询 vs 深度研究)选择答案的详尽程度。
  2. 优化性能与资源分配:进一步优化模型推理效率,或在资源紧张时给予用户更明确的排队提示和预计等待时间,管理用户预期。
  3. 增强功能可发现性:在界面中引入“实验室”或“高级功能”区域,集中展示如系统角色设定、温度调整等进阶功能,并配以简单说明。
  4. 完善信息溯源:对于基于联网搜索或特定知识库的回答,提供参考来源引用,增强答案的可信度和可验证性。
  5. 开发专项智能体:基于GLM-4的强大能力,封装出面向编程、写作、数据分析等场景的专属智能体,提供更极致的场景化体验。

四、用户体验采访

采访人:项目调研员
采访对象:陈同学(计算机科学专业研一学生)
采访时间:2025年10月25日
使用产品:智谱清言-GLM-4模型
体验时长:约30分钟


a. 采访对象背景与需求

采访对象背景

  • 身份:计算机科学专业研一学生
  • 研究方向:自然语言处理与机器学习
  • 技术背景:精通Python,熟悉PyTorch框架,有论文阅读和复现经验
  • 项目经验:参与过文本分类项目,正在准备自己的第一篇学术论文

选择原因
陈同学代表了需要深度学术支持的用户群体:具备扎实的理论基础,面临具体的科研压力,对模型的逻辑严谨性和专业知识深度有更高要求。

使用需求

  1. 学术研究辅助:帮助快速理解复杂论文的核心思想和方法
  2. 代码实现支持:复现论文算法时的代码编写和调试
  3. 研究思路拓展:在遇到研究瓶颈时提供新的思路和方向

b. 产品使用栏目描述

在30分钟体验中,陈同学主要使用了以下功能模块:

核心交互区域

  1. 主对话界面 - 进行学术讨论和代码探讨
  2. 文件上传功能 - 上传学术论文PDF和技术文档
  3. 联网搜索功能 - 查询最新技术动态

具体使用场景

  • 输入具体学术问题:"解释一下Transformer模型中的位置编码"
  • 请求论文总结:"请总结这篇论文的创新点和不足之处"
  • 上传代码文件请求优化建议
  • 询问研究方向的可行性分析

c. 使用过程的问题与亮点

遇到的困难与问题

  1. 学术深度把握不均

    "在问一些经典的机器学习理论时,回答得非常深入准确。但涉及到最近几个月刚发表的新技术时,感觉它的知识更新有些滞后。有次问一个最新的注意力机制变体,它给出的解释比较泛泛。"

  2. 代码实用性待提升

    "生成的算法代码框架是对的,但缺少一些工程实践中的细节处理。比如内存管理、异常处理这些在实际项目中很重要的部分,往往被忽略。需要我手动补充完善。"

  3. 输出长度控制不足

    "有时候我只是想要一个简单的答案,但它会给出非常详细的解释,包括背景、原理、应用场景等。虽然内容质量很高,但在快速调研时显得效率不够高。"

突出的亮点与优势

  1. 学术理解能力出色

    "在帮我分析那篇关于知识蒸馏的论文时,它准确地抓住了核心方法,并且指出了论文中实验设计的潜在问题,这个洞察力让我很惊讶。"

  2. 逻辑推理能力强

    "问它关于算法复杂度分析的问题,回答得很有条理,从最坏情况到平均情况都分析得很清楚,展现了很强的逻辑思维能力。"

  3. 长文本处理卓越

    "上传了一篇30多页的英文论文,它不仅能准确总结,还能回答我关于其中某个具体实验细节的提问,这个能力对我的研究帮助太大了。"


d. 用户体验改进建议

基于科研用户视角的改进建议

  1. 增强学术时效性

    • 建立更快速的知识更新机制,特别是对顶会最新论文的收录
    • 对回答的时效性进行标注,让用户了解知识截止时间
  2. 优化科研工作流

    • 提供论文阅读专用模式,支持批量上传和对比分析
    • 增加参考文献管理和引用格式生成功能
    • 支持算法伪代码到可执行代码的转换
  3. 改进输出控制

    • 增加答案详略程度调节滑块
    • 提供"快速答案"和"深度分析"两种模式选择
    • 支持答案的结构化导出(如Markdown、LaTeX)
  4. 增强代码实用性

    • 提供更完整的代码示例,包含错误处理和边界条件
    • 增加代码性能分析和优化建议
    • 支持与常见深度学习框架的更深度集成

对开发团队的反思

"感觉开发团队在平衡模型的'广度'和'深度'上还有优化空间。作为科研用户,我们更看重在专业领域内的深度和准确性。建议可以针对学术用户推出专门的'研究助手模式',在这个模式下优先保证答案的严谨性和深度,而不是追求面面俱到。"

1.2.2 自动化测试

通过编程方式创建一个模拟的购车决策环境
在该环境中,程序应能与大模型进行多轮对话,完成从需求到决策的全过程

img

一、城市通勤场景

1.提出购车意图
向ChatGLM-glm-4提出购车意图

img

2.大模型给出初步推荐
ChatGLM-glm-4给出初步推荐

类别车型1车型2
轿车类大众帕萨特:作为一款中型轿车,帕萨特在空间、舒适性和安全性方面都有不错的表现。配置丰富,性价比较高。丰田卡罗拉:这款车在全球市场都有很高的销量,品质可靠。空间适中,安全性能出色,是一款值得信赖的家用轿车。
SUV类吉利博越:作为一款自主品牌的SUV,博越在空间、舒适性和安全性能方面都有很好的表现。配置较高,性价比较高。本田XR-V:这款车定位于小型SUV,空间表现优秀,驾驶感受舒适。本田的地球梦发动机在燃油经济性和动力性能方面表现良好。
MPV类宝骏730:作为一款家用MPV,宝骏730在空间和舒适性方面具有明显优势。安全性能也相当不错,是一款适合家庭使用的车型。别克GL6:这款车在设计、舒适性和安全性能方面都表现出较高水平。空间布局合理,适合城市通勤和家庭出游。

3.输入购车要点
程序向模型逐条提出更具体的购车需求(如动力、续航、油耗、安全、保值率、品牌口碑等),要求模型基于这些要点分析或更新推荐。

img

img

img

img

进一步考虑燃油经济性、安全配置、车辆保值率以及品牌口碑售后。ChatGLM-glm-4不断根据提出的新要求更新分析与回答。

4.性能参数表格化对比
让模型输出几款候选车型的性能参数对比表(例如动力、续航、空间、安全配置等),程序自动提取表格内容并保存。

img

ChatGLM-glm-4并未给出一个车型推荐表格,而是提供了一个表格模板

img

5.选出目标车型
ChatGLM-glm-4并未给出目标车型

img

二、家庭用车场景

1.提出购车意图
向ChatGLM-glm-4提出购车意图

img

2.大模型给出初步推荐
ChatGLM-glm-4给出初步推荐

img

3.输入购车要点
程序向模型逐条提出更具体的购车需求,要求模型基于这些要点分析或更新推荐。

img

img

img

img

进一步考虑7座版本、后备箱容量、车辆安全性以及维护成本。ChatGLM-glm-4不断根据提出的新要求更新分析与回答。

4.性能参数表格化对比
让模型输出几款候选车型的性能参数对比表,程序自动提取表格内容并保存。
ChatGLM-glm-4并未给出一个车型推荐表格,而是提供了一个表格模板

img

5.选出目标车型
ChatGLM-glm-4并未给出目标车型

img

三、新能源车场景

1.提出购车意图
向ChatGLM-glm-4提出购车意图

img

2.大模型给出初步推荐
ChatGLM-glm-4给出初步推荐

img

3.输入购车要点
程序向模型逐条提出更具体的购车需求,要求模型基于这些要点分析或更新推荐。

img

img

img

img

进一步考虑纯电续航、快充功能、智能化配置以及电池质保政策。ChatGLM-glm-4不断根据提出的新要求更新分析与回答。

4.性能参数表格化对比
让模型输出几款候选车型的性能参数对比表,程序自动提取表格内容并保存。
ChatGLM-glm-4并未给出一个车型推荐表格,而是提供了一个表格模板

img

5.选出目标车型
程序要求模型结合前面信息,给出最终推荐,并说明理由。

img

车型推荐:丰田卡罗拉
理由如下图所示

img

四、自动化评测

模型: ChatGLM-glm-4

场景: 城市通勤场景
最终推荐: 未知
候选车型: [丰田卡罗拉, 本田XR-V, 大众帕萨特, 吉利博越]
响应时间: 0ms
评测得分: 50/100
得分细则:
候选车型数量评分( 20)
参数表格完整性评分( 0)
最终推荐明确性评分( 0)
响应内容质量评分( 30)

场景: 家庭用车场景
最终推荐: 未知
候选车型: [丰田汉兰达]
响应时间: 0ms
评测得分: 35/100
得分细则:
候选车型数量评分( 5)
参数表格完整性评分( 0)
最终推荐明确性评分( 0)
响应内容质量评分( 30)

场景: 新能源车场景
最终推荐: 丰田卡罗拉
候选车型: [比亚迪汉, 蔚来ES6, 特斯拉Model 3]
响应时间: 0ms
评测得分: 62/100
得分细则:
候选车型数量评分( 15)
参数表格完整性评分( 0)
最终推荐明确性评分( 20)
响应内容质量评分( 27)

平均得分: 49/100

1.2.3 结论

GLM-4 是一款在深度、逻辑和长文本处理上表现卓越的国产大模型。它尤其适合有深度思考、复杂创作、学术研究及长文档分析需求的用户。虽然在极致响应速度上可能不是最快,但其输出的质量、逻辑的严谨性以及处理复杂任务的可靠性,使其在高端应用场景中具备了强大的竞争力。对于追求答案深度和准确性的用户而言,GLM-4是一个极具价值的选择。

第二部分 分析

2.1 同类产品对比排名

基于截至2025年10月的市场表现和技术发展,我们对主流大语言模型进行综合排名分析。近几年来,模型能力更加均衡,差异化竞争成为主流。


2025年综合能力梯队排名

梯队模型代表核心特点与市场定位
第一梯队(领导者)通义千问 (Qwen2.5系列)
智谱GLM (GLM-5系列)
DeepSeek (DeepSeek-R1)
形成国产模型"三强鼎立"格局。Qwen2.5在开源生态和企业部署方面优势明显;GLM-5在复杂推理和科研领域持续领先;DeepSeek-R1以极高的性价比和推理能力获得大量开发者青睐。
第二梯队(竞争者)月之暗面 (Kimi-2)
零一万物 (Yi-2.0)
文心一言 (Ernie 4.0)
在特定赛道建立核心优势。Kimi仍是长文本处理的代名词;Yi在多模态和代码能力上进步显著;文心一言依托百度生态在搜索整合和营销场景表现稳健。
新兴力量智谱AI (CodeGeeX 4)
幻方AI (DeepSeek-Coder)
多家垂直领域模型
专注于代码生成、数学推理、生物医药等垂直领域,在特定任务上超越通用模型。

关键维度细分排名

排名维度第1名第2名第3名现状简析
综合推理能力GLM-5DeepSeek-R1Qwen2.5-72BGLM-5在数学、科学推理基准测试中持续领先;DeepSeek-R1的思维链推理备受好评。
代码生成与调试DeepSeek-CoderQwen2.5-CoderCodeGeeX 4专用代码模型已全面超越通用模型,DeepSeek在代码正确性和项目级理解上优势明显。
长文本处理Kimi-2 (1M+)GLM-5-LongQwen2.5-72B-InstructKimi继续保持上下文长度优势,但各家长文本模型的差距已显著缩小。
多模态能力Qwen2.5-VLYi-VisionGLM-5-VQwen在多模态推理和文档理解上更加成熟,Yi在创意生成方面表现突出。
响应速度与成本Qwen2.5-7BDeepSeek-V3-LiteGLM-5-Turbo轻量级模型在保证质量的同时,为实时应用提供了最佳性价比。
开源生态建设Qwen2.5系列DeepSeek系列Yi系列通义千问在开源模型多样性、文档完整度和社区活跃度上全面领先。
企业级部署Qwen2.5企业版GLM-5私有化方案文心一言千帆平台各厂商均提供成熟的私有化部署方案,安全性、合规性成为核心竞争要素。

结论:在当前阶段,选择模型更应基于具体应用场景而非单纯的排行榜。对于需要最强推理能力的研究场景,GLM-5是优选;对于追求平衡性、生态支持和成本控制的商业应用,Qwen2.5系列更具优势;而对于代码开发和初创项目,DeepSeek则提供了极高的性价比。

2.2 软件工程方面的建议

程序层面:算法/数据结构体现
Qwen-Turbo

  • 核心算法:基于Transformer架构,但在推理阶段进行了深度优化。采用了注意力机制简化动态推理路径等技术,这是其“Turbo”高速度的核心来源。
  • 数据结构
    • 使用高效的KV Cache管理,减少重复计算。
    • 对输入的Token序列采用分块处理缓存复用策略,优化长文本交互体验。
    • 模型权重可能采用了量化技术(如INT8/INT4),在保证精度损失最小的前提下,大幅提升计算速度和降低内存占用。

GLM-4

  • 核心算法:基于通用语言模型框架,在预训练阶段融合了自编码和自回归的优点。其长文本能力得益于对位置编码和注意力机制的改进,能更高效地捕捉长程依赖关系。
  • 数据结构
    • 为支持超长上下文,采用了分层分段注意力或类似的记忆机制,将长文本分割处理并维护全局信息。
    • 在推理过程中可能维护一个外部记忆单元关键信息索引,以便在长对话中快速定位相关信息。

对比小结:Qwen-Turbo在算法上偏向工程优化,目标是极致响应速度;GLM-4在算法上偏向架构创新,目标是解决长文本、强推理等复杂任务。


软件工程层面:服务、文档、协作机制

层面Qwen-Turbo (阿里百炼)GLM-4 (智谱清言/开放平台)
服务- 核心API服务:提供模型推理接口。
- 模型部署服务:支持云端托管和私有化部署。
- 配套服务:与阿里云OSS、函数计算等服务深度集成,形成生态闭环。
- 核心API服务:提供标准化的模型调用接口。
- 定制化服务:提供模型微调、Prompt优化等高级服务。
- 多模态服务:提供视觉、语音等扩展服务。
文档- 集成于阿里云文档体系:结构清晰,但内容庞杂,新手可能感到困惑。
- 提供Quick Start、API参考:实用性强。
- 最佳实践案例丰富:尤其针对电商、金融等阿里优势场景。
- 独立的开发者文档中心:针对性更强,体验更专注。
- 教程引导性更友好:从入门到进阶的路径明确。
- 学术论文与技术报告:公开程度高,便于研究人员深入理解。
协作机制- 基于阿里云账号体系:与钉钉、Teambition等阿里内部协作工具打通。
- 资源管理和权限控制:符合企业级IT治理规范。
- 提供团队协作功能:支持API密钥的团队管理和使用量统计。
- 开发者社区活跃:通过社区论坛、技术沙龙等形式促进用户协作。

对比小结:两者都提供了成熟的企业级服务。Qwen-Turbo胜在与阿里云生态的无缝集成,而GLM-4在开发者体验和社区建设上更具亲和力。


商业层面:商业模式与竞争优势

商业模式

  • 共同点

    • API调用付费:按Tokens使用量阶梯计价。
    • 免费额度:为个人开发者和小型项目提供免费调用额度,用于引流和体验。
    • 企业级解决方案:针对大客户提供私有化部署、定制开发等付费服务。
  • 差异化

    • Qwen-Turbo:深度捆绑阿里云,其商业模式是阿里云智能计算业务的一部分,旨在通过模型能力带动云基础设施的消费。
    • GLM-4:更侧重于模型能力本身的变现,同时积极构建以GLM为核心的开源和闭源模型生态,探索模型许可、技术授权等多元化收入。

竞争优势

  • Qwen-Turbo的竞争优势

    1. 速度与成本:响应速度快,单位成本可能更低,对成本敏感和高并发场景有吸引力。
    2. 生态优势:背靠阿里庞大商业帝国,在电商、金融、物流等领域有天然的落地场景和客户资源。
    3. 云原生:作为阿里云“模型即服务”的核心产品,对已有阿里云用户迁移成本极低。
  • GLM-4的竞争优势

    1. 技术品牌:在学术圈和技术社区有良好的口碑,被认为在长文本、推理等“硬核”能力上领先。
    2. 长板突出:超长上下文处理能力是其标志性优势,吸引了大量需要处理长文档、代码库的忠实用户。
    3. 中立与开放:相对于阿里,智谱被视为更“中立”的技术提供方,且开源策略更为激进,深受开发者喜爱。

2.3 市场概况

  • 市场有多大

    • 中国AI大模型市场处于爆发期,预计到2026年,核心市场规模将超过百亿美元。这不仅是模型本身的市场,更是由其驱动的应用、服务和云基础设施的万亿级大市场。
  • 直接用户与潜在用户

    • 直接用户:企业开发者、初创公司、独立软件供应商,当前约数十万量级。
    • 潜在用户:所有涉及信息处理、内容创作、客户交互、代码开发的行业从业者(如律师、教师、市场人员、程序员),以及最终通过集成AI功能的应用软件触达的亿万消费者。潜在用户数以亿计。

2.4 产品规划

新功能设计:打造“AI功能应用商店”

  • 是什么?
    可以理解为一个“AI版的NPM或PyPI仓库”。不过我们提供的不是代码库,而是封装好特定AI能力的、即插即用的“微服务”。比如:

    • @ai/code-reviewer: 一键代码审查,能指出bug和坏味道。
    • @ai/sql-generator: 用自然语言描述,直接生成复杂的SQL查询。
    • @ai/ppt-outline-builder: 输入主题,自动生成PPT大纲和内容。
  • 为何做这个,而不是其他?

    • 解决真实痛点:我们自己在做项目时,虽然能用API,但总要自己写很多prompt和前后处理逻辑,很麻烦。如果有一个现成的、专门解决某个问题的包,直接import就能用,会方便很多。
    • 发挥平台优势:Qwen-Turbo快是我们的核心优势。把这些功能做成轻量级、快速响应的“微服务”,体验会非常好。这就像为什么我们喜欢用VSCode的插件一样——快且专注。
    • 建立生态壁垒:一旦大家都习惯了在我们的“商店”里找AI功能,并且基于它来开发应用,我们就成了不可或缺的基础设施,用户粘性会变得非常高。
  • 为什么用户会用?

    • 对开发者:省时省力,不用重复造轮子,开发效率飙升。
    • 对学生:做课程项目、毕业设计时,可以快速集成高级AI功能,让项目更出彩。
    • 对创业者:能快速验证产品创意,把精力集中在业务逻辑上,而不是AI底层技术上。

NABCD分析

  • N (需求)

    • 我们写代码时,经常需要一些通用的AI功能(比如生成模拟数据、自动写单元测试),但每次都要从头调API,很麻烦。
    • 很多优秀的Prompt工程和AI应用思路,没有被很好地沉淀和复用。
  • A (做法)

    • 我们先官方推出几个“杀手级”功能包,比如@ai/code-helper@ai/data-analyzer,把体验做到极致。
    • 开放平台,让其他开发者也可以上传、分享他们封装的AI功能包,并设计一套类似苹果App Store的分成机制。
    • 为每个功能包提供清晰的API文档、使用示例和在线测试工具。
  • B (好处)

    • 对我们用户:开发带AI的应用像搭乐高一样简单,大大降低了门槛。
    • 对平台:能吸引更多开发者,形成生态。用的入越多,平台就越有价值,形成飞轮效应。
  • C (竞争)

    • 别的模型平台可能也会想做。但我们的优势在于:
      • 速度:我们的Turbo模型响应快,做成“微服务”体验更好。
      • 开发者生态:背靠阿里,我们可以通过“天池大赛”、校园计划等活动,快速吸引第一批开发者来共建。
      • 易集成:和我们已有的云服务(比如函数计算)打通,部署和扩容对开发者透明。
  • D (推广)

    • 校园先行:在高校搞“AI功能包开发大赛”,学生群体创意多,传播快,是最好的种子用户。
    • 示范项目:推出几个“用我们的AI商店快速搭建XXX系统”的经典教程(比如在线考试系统、智能客服机器人),手把手教大家怎么用。
    • 免费额度:为“应用商店”里的功能提供更慷慨的免费调用额度,让学生和小型项目能无负担地用起来。
    • 口碑营销:鼓励用户分享他们用这些AI功能包做的酷炫项目,形成自传播。

第三部分 团队绩效

成员工作内容绩效占比
102300307张青青完成ppt制作20%
102300315季煜晟上台展示答辩20%
102300331叶润升完成自动化测试代码20%
102300401蔡雨晞完成博客制作20%
102300402黄秋玥完成自动化测试代码20%

第四部分 大模型自动化测试答辩PPT

发际线总和我作队——大模型自动化测试答辩PPT

...全文
62 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

103

社区成员

发帖
与我相关
我的任务
社区描述
2501_CS_SE_FZU
软件工程 高校
社区管理员
  • FZU_SE_LQF
  • 木村修
  • 心态773
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧