103
社区成员
发帖
与我相关
我的任务
分享| 这个作业属于哪个课程 | 2501_CS_SE_FZU |
|---|---|
| 这个作业要求在哪里 | 软件工程实践——大模型评测作业 |
| 这个作业的目标 | 调研、评测、分析两个大模型,并进行自动化测试 |
| 其他参考文献 | 《构建之法》 |
一、模型基本功能与使用介绍
1. 模型基本功能
Qwen-Turbo 是阿里巴巴通义千问系列中的"高性能"版本,在保持强大能力的同时特别优化了推理速度。具备以下核心功能:
2. 注册与使用流程
步骤 1:注册与登录
步骤 2:找到并选择模型

步骤 3:文件上传功能

【界面功能描述】
二、优缺点分析
1. 使用过程与解决的问题
使用过程:整个流程非常顺畅。从阿里系账户一键登录,到直观的模型选择和清晰的文件上传入口,用户无需学习成本即可快速上手。输入问题后,Qwen-Turbo 的响应速度确实非常快,几乎感觉不到延迟。
解决的问题:
2. 各维度优缺点分析
| 维度 | 优点 | 缺点 |
|---|---|---|
| 数据量/知识库 | - 基于阿里巴巴海量数据训练,中文理解突出 - 在商业、电商、科技领域表现强劲 - 知识更新相对及时 | - 某些细分领域或冷门知识略有不足 - 实时事件需依赖"联网搜索"功能 |
| 界面/易用性 | - 界面简洁直观,符合中国用户习惯 - 与阿里生态无缝集成,登录便捷 - 文件上传功能操作简单明了 | - 缺乏高级参数自定义选项 - 对话历史管理和检索功能较弱 |
| 功能 | - 核心功能齐全,覆盖主流需求 - 文件支持格式丰富,文本提取实用 - 提供联网搜索获取实时信息 | - 不支持语音输入输出功能 - 不能根据描述生成图片 - 高级功能需调用API或使用更贵模型 |
| 准确度 | - 通用任务准确度高,中文处理出色 - 代码生成的逻辑性和正确性良好 - 文档信息提取准确率较高 | - 复杂数学推理时偶有错误 - 专业领域可能出现不准确信息 - 联网搜索信息需要用户自行甄别 |
| 用户体验 | - 响应速度极快,体验流畅 - 免费额度充足,个人用户够用 - 对话风格自然、亲切友好 | - 高峰期偶尔服务不稳定 - 长对话时对早期上下文记忆模糊 |
三、改进意见
基于深度体验,提出以下改进建议:
四、用户深度体验采访
采访人:项目调研员
采访对象:王同学(软件工程专业大三学生)
采访时间:2025年10月25日
使用产品:阿里百炼平台-Qwen-Turbo模型
体验时长:约25分钟
a. 采访对象背景与需求
采访对象背景:
选择原因:
王同学代表了典型的技术型初始用户:具备扎实的编程基础,对新技术敏感,有明确的学习和开发需求,能够从开发者视角提供专业反馈。
使用需求:
b. 产品使用栏目描述
在25分钟体验中,王同学主要使用了以下功能模块:
核心交互区域:
具体使用场景:
c. 使用过程的问题与亮点
遇到的困难与问题:
功能发现成本高
"刚开始对着空白的输入框有点懵,不知道从哪里开始。虽然知道是大模型,但具体能做什么、做得多好,心里没底。要是能有一些预设的技术问题示例就好了。"
代码交互体验待优化
"生成的代码片段很准确,但是复制的时候格式容易乱。特别是缩进,在IDEA里还要重新调整。如果能像GitHub那样有一键复制按钮就方便多了。"
技术深度把握不准
"有些问题回答得很浅显,比如问'分布式事务的实现',回答停留在概念层面。但换个问法,提到具体场景时,又能给出很深入的分析。感觉需要摸索提问技巧。"
突出的亮点与优势:
响应速度极佳
"响应真的很快,比我之前用过的其他工具都快很多。写代码的时候几乎感觉不到延迟,这个体验很棒。"
技术回答准确度高
"问它关于Java并发的问题,回答得很专业,还提到了最新的Virtual Threads特性。代码示例也很规范,可以直接参考使用。"
上下文理解能力强
"在讨论一个复杂问题时,我分了好几次提问,它都能记住之前的对话内容,不需要我重复说明背景,这个对技术讨论特别重要。"
d. 用户体验改进建议
基于技术用户视角的改进建议:
降低入门门槛
优化代码交互体验
增强技术深度标识
改进技术文件处理
对开发团队的反思:
"感觉开发团队可能太熟悉自己的产品了,忽略了我们这些'技术小白'第一次使用时的困惑。虽然我们懂技术,但不懂你们产品的'使用技巧'。建议多从真实技术学习场景出发,考虑我们遇到问题时的第一反应。"
通过编程方式创建一个模拟的购车决策环境
在该环境中,程序应能与大模型进行多轮对话,完成从需求到决策的全过程

一、城市通勤场景
1.提出购车意图
向Qwen-qwen-turbo提出购车意图

2.大模型给出初步推荐
Qwen-qwen-turbo给出初步推荐
| 类型 | 推荐车型 | 特点 |
|---|---|---|
| 省心可靠 | 丰田卡罗拉 | 保值率高,维修方便 |
| 动力操控 | 本田思域 | 驾驶乐趣强 |
| 性价比高 | 吉利星瑞 | 配置丰富,价格实惠 |
| 节能环保 | 比亚迪秦PLUS DM-i | 省油、智能化高 |
3.输入购车要点
程序向模型逐条提出更具体的购车需求(如动力、续航、油耗、安全、保值率、品牌口碑等),要求模型基于这些要点分析或更新推荐。




进一步考虑燃油经济性、安全配置、车辆保值率以及品牌口碑售后。Qwen-qwen-turbo不断根据提出的新要求更新分析与回答。
4.性能参数表格化对比
让模型输出几款候选车型的性能参数对比表(例如动力、续航、空间、安全配置等),程序自动提取表格内容并保存。

| 车型 | 动力系统 | 最大功率(kW) | 最大扭矩(N·m) | 油耗/电耗(L/100km 或 kWh/100km) | 空间表现(长×宽×高 mm) | 安全配置(如:ABS、ESP、气囊数) | 售价范围(万元) |
|---|---|---|---|---|---|---|---|
| 丰田凯美瑞 2.5L Hybrid | 混合动力 | 131 kW | 221 N·m | 油耗:5.7 L/100km | 4885×1840×1455 | ABS、ESP、7气囊 | 21.98 - 27.98 |
| 大众帕萨特 1.4T | 燃油 | 110 kW | 250 N·m | 油耗:6.2 L/100km | 4924×1836×1469 | ABS、ESP、6气囊 | 18.99 - 25.29 |
| 比亚迪汉 DM-i | 插电混动 | 145 kW | 325 N·m | 电耗:1.5 kWh/100km(纯电模式) | 4995×1910×1495 | ABS、ESP、7气囊 | 18.98 - 23.98 |
| 特斯拉Model 3 后驱版 | 纯电动 | 194 kW | 350 N·m | 电耗:13.2 kWh/100km | 4680×1850×1440 | ABS、ESP、6气囊 | 22.99 - 25.99 |
| 小鹏P7 i 700 | 纯电动 | 265 kW | 550 N·m | 电耗:15.5 kWh/100km | 4880×1896×1457 | ABS、ESP、7气囊 | 23.99 - 29.99 |
| 本田雅阁 1.5T | 燃油 | 134 kW | 267 N·m | 油耗:6.1 L/100km | 4893×1862×1448 | ABS、ESP、6气囊 | 16.98 - 21.98 |
| 蔚来ET5 | 纯电动 | 210 kW | 420 N·m | 电耗:14.3 kWh/100km | 4750×1960×1490 | ABS、ESP、7气囊 | 22.99 - 29.89 |
5.选出目标车型
程序要求模型结合前面信息,给出最终推荐,并说明理由。

✅ 推荐车型:
大众途观L(Volkswagen Tiguan L)
理由如下图所示



二、家庭用车场景
1.提出购车意图
向Qwen-qwen-turbo提出购车意图

2.大模型给出初步推荐
Qwen-qwen-turbo给出初步推荐
| 推荐车型 | 价格区间 | 空间 | 适合人群 |
|---|---|---|---|
| 别克GL8艾维亚 | 25万左右 | ⭐⭐⭐⭐⭐ | 家庭出行、商务接待 |
| 丰田赛那 | 27万 - 34万 | ⭐⭐⭐⭐⭐ | 注重品质、舒适性 |
| 本田奥德赛 | 23万 - 30万 | ⭐⭐⭐⭐ | 实用性强、性价比高 |
| 大众途昂 | 24万 - 30万 | ⭐⭐⭐⭐ | Suv爱好者、空间大 |
| 比亚迪宋Pro DM-i | 15万 - 20万 | ⭐⭐⭐⭐ | 新能源偏好者 |
3.输入购车要点
程序向模型逐条提出更具体的购车需求,要求模型基于这些要点分析或更新推荐。




进一步考虑7座版本、后备箱容量、车辆安全性以及维护成本。Qwen-qwen-turbo不断根据提出的新要求更新分析与回答。
4.性能参数表格化对比
让模型输出几款候选车型的性能参数对比表,程序自动提取表格内容并保存。

| 项目 | 丰田凯美瑞(燃油版) | 大众帕萨特(燃油版) | 特斯拉Model 3(纯电) | 比亚迪汉EV(纯电) | 本田雅阁(燃油版) |
|---|---|---|---|---|---|
| 动力系统 | 2.0L/2.5L 自然吸气发动机 | 1.4T/2.0T 涡轮增压 | 单电机后驱/双电机四驱 | 单电机后驱/双电机四驱 | 1.5T/2.0L 自然吸气 |
| 最大功率 | 178/209马力 | 150/220马力 | 272/358马力 | 245/363马力 | 192/238马力 |
| 峰值扭矩 | 207/257牛·米 | 250/350牛·米 | 330/545牛·米 | 360/680牛·米 | 260/350牛·米 |
| 变速箱 | 8AT | 7DCT | 单速自动 | 单速自动 | CVT/8AT |
| 油耗(WLTC) | 约6.0-7.5L/100km | 约6.3-7.8L/100km | 15.2-16.5kWh/100km | 14.8-16.0kWh/100km | 约6.1-7.6L/100km |
| 续航(纯电) | - | - | 545-675km | 610-710km | - |
| 车身尺寸(长×宽×高) | 4885×1840×1445mm | 4924×1836×1469mm | 4680×1850×1440mm | 4965×1910×1495mm | 4898×1863×1449mm |
| 轴距 | 2825mm | 2871mm | 2875mm | 2918mm | 2830mm |
| 后备箱容积 | 504L | 480L | 425L | 420L | 480L |
| 安全配置(标配) | TSS智行安全系统 | IQ.Drive驾驶辅助 | Autopilot 自动驾驶辅助 | DiPilot 智能驾驶辅助 | Honda SENSING |
| 主被动安全配置 | ABS、EBD、ESP、多气囊 | ABS、EBD、ESP、多气囊 | 前雷达、摄像头、自动刹车 | 前雷达、摄像头、自动刹车 | ABS、EBD、ESP、多气囊 |
| 价格区间(人民币) | 17.98万-25.98万 | 18.59万-25.29万 | 23.59万-33.99万 | 21.98万-27.95万 | 16.98万-23.98万 |
5.选出目标车型
程序要求模型结合前面信息,给出最终推荐,并说明理由。

✅ 最终推荐车型:丰田RAV4荣放(2024款)
理由如下图所示



三、新能源车场景
1.提出购车意图
向Qwen-qwen-turbo提出购车意图

2.大模型给出初步推荐
Qwen-qwen-turbo给出初步推荐
| 需求 | 推荐车型 |
|---|---|
| 日常通勤 | 比亚迪海鸥、小鹏P5 |
| 家庭出行 | 理想L6/L7、比亚迪宋PLUS DM-i |
| 长途旅行 | 理想L8、极氪001、比亚迪唐DM-i |
| 高性价比 | 比亚迪秦PLUS DM-i、零跑C11 |
3.输入购车要点
程序向模型逐条提出更具体的购车需求,要求模型基于这些要点分析或更新推荐。




进一步考虑纯电续航、快充功能、智能化配置以及电池质保政策。Qwen-qwen-turbo不断根据提出的新要求更新分析与回答。
4.性能参数表格化对比
让模型输出几款候选车型的性能参数对比表,程序自动提取表格内容并保存。

| 车型 | 品牌/级别 | 动力系统 | 最大功率(kW) | 最大扭矩(N·m) | 燃油/电耗(L/100km 或 kWh/100km) | 轴距(mm) | 安全配置(部分) | 售价范围(万元) |
|---|---|---|---|---|---|---|---|---|
| 丰田凯美瑞 | 中型轿车 | 油电混动 | 131(2.5L+电机) | 221 | 4.8-5.1 L/100km | 2825 | TSS 3.0(车道保持、自动刹车等) | 17.98 - 26.98 |
| 本田雅阁 | 中型轿车 | 油电混动 | 137(2.0L+电机) | 230 | 5.0-5.3 L/100km | 2830 | Honda SENSING(ACC、AEB等) | 16.98 - 25.98 |
| 大众帕萨特 | 中型轿车 | 油电混动 | 131(1.5T+电机) | 250 | 5.3-5.6 L/100km | 2944 | IQ.Drive(主动刹车、盲点监测等) | 18.99 - 25.99 |
| 特斯拉Model Y | 纯电动SUV | 纯电动 | 258(后驱) / 358(四驱) | 545(后驱) / 659(四驱) | 15.5-16.5 kWh/100km | 2890 | Autopilot(辅助驾驶) | 24.99 - 33.99 |
| 小鹏G6 | 纯电动SUV | 纯电动 | 218(后驱) / 340(四驱) | 430(后驱) / 600(四驱) | 15.2-16.0 kWh/100km | 2900 | XNGP(高阶智驾) | 22.99 - 30.99 |
| 比亚迪汉EV | 纯电动轿车 | 纯电动 | 363(后驱) / 500(四驱) | 680(后驱) / 820(四驱) | 13.8-15.0 kWh/100km | 3015 | DiPilot(智能驾驶辅助) | 21.98 - 27.98 |
| 一汽-大众ID.4 CROZZ | 纯电动SUV | 纯电动 | 150(前驱) / 300(四驱) | 310(前驱) / 470(四驱) | 13.5-15.0 kWh/100km | 2765 | IQ.Drive(辅助驾驶) | 17.99 - 24.99 |
| 理想L7 | 插电混动SUV | 增程+电机 | 330(发动机+电机) | 495 | 1.5-2.0 L/100km + 15.5 kWh/100km | 2975 | L2+智能驾驶辅助 | 33.98 - 41.98 |
5.选出目标车型
程序要求模型结合前面信息,给出最终推荐,并说明理由。

🚗 推荐车型:丰田RAV4荣放 2024款 2.0L 四驱智享版
理由如下图所示



四、自动化评测
模型: Qwen-qwen-turbo
场景: 城市通勤场景
最终推荐: 丰田RAV4
候选车型: [比亚迪秦, 特斯拉Model 3, 丰田RAV4, 丰田凯美瑞, 本田CR-V, 本田雅阁, 大众途观, 日产天籁, 奔驰C级, 宝马3系, 奥迪A4]
响应时间: 0ms
评测得分: 100/100
得分细则:
候选车型数量评分( 20)
参数表格完整性评分( 30)
最终推荐明确性评分( 20)
响应内容质量评分( 30)
参数对比表: 7 款车型
场景: 家庭用车场景
最终推荐: 比亚迪宋
候选车型: [丰田RAV4, 本田CR-V, 大众途观, 别克昂科威, 奔驰E级, 宝马5系]
响应时间: 0ms
评测得分: 100/100
得分细则:
候选车型数量评分( 20)
参数表格完整性评分( 30)
最终推荐明确性评分( 20)
响应内容质量评分( 30)
参数对比表: 13 款车型
场景: 新能源车场景
最终推荐: 丰田RAV4
候选车型: [比亚迪 汉, 比亚迪汉, 蔚来 ET5, 蔚来ET5, 小鹏 G9, 小鹏G9, 理想 L7, 理想L7, 特斯拉 Model Y, 特斯拉Model Y]
响应时间: 0ms
评测得分: 100/100
得分细则:
候选车型数量评分( 20)
参数表格完整性评分( 30)
最终推荐明确性评分( 20)
响应内容质量评分( 30)
参数对比表: 8 款车型
平均得分: 100/100
Qwen-Turbo 是一款在速度和易用性上表现极其出色的国产大模型。它完美地解决了用户在日常工作、学习和生活中寻求快速、便捷AI助手的需求。虽然在顶尖的复杂推理能力和一些前沿功能上与世界领先模型存在细微差距,但其流畅的体验、优秀的中文能力和亲民的免费策略,使其成为中文用户非常值得推荐和使用的AI工具。
一、模型基本功能与使用介绍
1. 模型基本功能
GLM-4 是智谱AI(Zhipu AI)发布的第四代大型语言模型。作为国产模型的代表之一,它在推理、知识、代码和长文本处理等多个维度进行了全面升级,旨在提供更强大的通用人工智能能力。
其核心功能包括:
2. 注册与使用流程
步骤 1:注册与登录
步骤 2:找到并选择模型

步骤 3:开始使用与上传文件

【界面功能描述】
二、优缺点分析
1. 使用过程与解决的问题
使用过程:登录流程顺畅,界面引导清晰。模型在处理复杂任务时表现出“深思熟虑”的特点,响应速度根据任务复杂度有所不同,但整体流畅。长文本处理能力是其显著优势,能够很好地维持长对话的连贯性。
解决的问题:
2. 各维度优缺点分析
| 维度 | 优点 | 缺点 |
|---|---|---|
| 数据量/知识库 | - 知识覆盖面广,特别是在学术、科研领域表现深厚。 - 对中文的理解和处理有天然优势,文化背景契合度高。 | - 在某些非常前沿或极其冷门的英文技术资料上,信息可能略滞后于国际顶尖模型。 |
| 界面/易用性 | - 界面设计美观、友好,符合国内用户审美和操作习惯。 - 功能分区明确,新手能快速找到核心操作。 | - 高级功能(如系统提示词设置、参数调整)对普通用户隐藏较深,需要探索或查阅文档。 |
| 功能 | - 长文本处理能力突出,是核心竞争力之一。 - 代码能力全面,从生成到优化链条完整。 - 多模态理解(图片)准确度高,能有效解读图表和信息图。 | - 基础版本的响应速度在处理复杂任务时可能慢于专门的“Turbo”类模型。 - 纯文本模型,不支持文生图(AIGC)。 |
| 准确度 | - 在逻辑推理和复杂问题分析上准确度很高,答案严谨。 - 代码生成的可执行率和逻辑正确性优秀。 - 对长文档的理解和信息提取精准,能把握核心思想。 | - 极少数情况下,在知识边界问题上可能产生“幻觉”,需要用户交叉验证。 |
| 用户体验 | - 长上下文对话体验极佳,记忆能力强。 - 创作内容的质量和深度受到用户好评。 - 免费额度提供了充分的体验空间。 | - 峰值使用时偶尔会遇到排队或响应延迟的情况。 - 输出内容有时会过于详尽,缺乏简洁明了的呈现方式选项。 |
三、改进意见
基于深度体验,提出以下改进建议:
四、用户体验采访
采访人:项目调研员
采访对象:陈同学(计算机科学专业研一学生)
采访时间:2025年10月25日
使用产品:智谱清言-GLM-4模型
体验时长:约30分钟
a. 采访对象背景与需求
采访对象背景:
选择原因:
陈同学代表了需要深度学术支持的用户群体:具备扎实的理论基础,面临具体的科研压力,对模型的逻辑严谨性和专业知识深度有更高要求。
使用需求:
b. 产品使用栏目描述
在30分钟体验中,陈同学主要使用了以下功能模块:
核心交互区域:
具体使用场景:
c. 使用过程的问题与亮点
遇到的困难与问题:
学术深度把握不均
"在问一些经典的机器学习理论时,回答得非常深入准确。但涉及到最近几个月刚发表的新技术时,感觉它的知识更新有些滞后。有次问一个最新的注意力机制变体,它给出的解释比较泛泛。"
代码实用性待提升
"生成的算法代码框架是对的,但缺少一些工程实践中的细节处理。比如内存管理、异常处理这些在实际项目中很重要的部分,往往被忽略。需要我手动补充完善。"
输出长度控制不足
"有时候我只是想要一个简单的答案,但它会给出非常详细的解释,包括背景、原理、应用场景等。虽然内容质量很高,但在快速调研时显得效率不够高。"
突出的亮点与优势:
学术理解能力出色
"在帮我分析那篇关于知识蒸馏的论文时,它准确地抓住了核心方法,并且指出了论文中实验设计的潜在问题,这个洞察力让我很惊讶。"
逻辑推理能力强
"问它关于算法复杂度分析的问题,回答得很有条理,从最坏情况到平均情况都分析得很清楚,展现了很强的逻辑思维能力。"
长文本处理卓越
"上传了一篇30多页的英文论文,它不仅能准确总结,还能回答我关于其中某个具体实验细节的提问,这个能力对我的研究帮助太大了。"
d. 用户体验改进建议
基于科研用户视角的改进建议:
增强学术时效性
优化科研工作流
改进输出控制
增强代码实用性
对开发团队的反思:
"感觉开发团队在平衡模型的'广度'和'深度'上还有优化空间。作为科研用户,我们更看重在专业领域内的深度和准确性。建议可以针对学术用户推出专门的'研究助手模式',在这个模式下优先保证答案的严谨性和深度,而不是追求面面俱到。"
通过编程方式创建一个模拟的购车决策环境
在该环境中,程序应能与大模型进行多轮对话,完成从需求到决策的全过程

一、城市通勤场景
1.提出购车意图
向ChatGLM-glm-4提出购车意图

2.大模型给出初步推荐
ChatGLM-glm-4给出初步推荐
| 类别 | 车型1 | 车型2 |
|---|---|---|
| 轿车类 | 大众帕萨特:作为一款中型轿车,帕萨特在空间、舒适性和安全性方面都有不错的表现。配置丰富,性价比较高。 | 丰田卡罗拉:这款车在全球市场都有很高的销量,品质可靠。空间适中,安全性能出色,是一款值得信赖的家用轿车。 |
| SUV类 | 吉利博越:作为一款自主品牌的SUV,博越在空间、舒适性和安全性能方面都有很好的表现。配置较高,性价比较高。 | 本田XR-V:这款车定位于小型SUV,空间表现优秀,驾驶感受舒适。本田的地球梦发动机在燃油经济性和动力性能方面表现良好。 |
| MPV类 | 宝骏730:作为一款家用MPV,宝骏730在空间和舒适性方面具有明显优势。安全性能也相当不错,是一款适合家庭使用的车型。 | 别克GL6:这款车在设计、舒适性和安全性能方面都表现出较高水平。空间布局合理,适合城市通勤和家庭出游。 |
3.输入购车要点
程序向模型逐条提出更具体的购车需求(如动力、续航、油耗、安全、保值率、品牌口碑等),要求模型基于这些要点分析或更新推荐。




进一步考虑燃油经济性、安全配置、车辆保值率以及品牌口碑售后。ChatGLM-glm-4不断根据提出的新要求更新分析与回答。
4.性能参数表格化对比
让模型输出几款候选车型的性能参数对比表(例如动力、续航、空间、安全配置等),程序自动提取表格内容并保存。

ChatGLM-glm-4并未给出一个车型推荐表格,而是提供了一个表格模板

5.选出目标车型
ChatGLM-glm-4并未给出目标车型

二、家庭用车场景
1.提出购车意图
向ChatGLM-glm-4提出购车意图

2.大模型给出初步推荐
ChatGLM-glm-4给出初步推荐

3.输入购车要点
程序向模型逐条提出更具体的购车需求,要求模型基于这些要点分析或更新推荐。




进一步考虑7座版本、后备箱容量、车辆安全性以及维护成本。ChatGLM-glm-4不断根据提出的新要求更新分析与回答。
4.性能参数表格化对比
让模型输出几款候选车型的性能参数对比表,程序自动提取表格内容并保存。
ChatGLM-glm-4并未给出一个车型推荐表格,而是提供了一个表格模板

5.选出目标车型
ChatGLM-glm-4并未给出目标车型

三、新能源车场景
1.提出购车意图
向ChatGLM-glm-4提出购车意图

2.大模型给出初步推荐
ChatGLM-glm-4给出初步推荐

3.输入购车要点
程序向模型逐条提出更具体的购车需求,要求模型基于这些要点分析或更新推荐。




进一步考虑纯电续航、快充功能、智能化配置以及电池质保政策。ChatGLM-glm-4不断根据提出的新要求更新分析与回答。
4.性能参数表格化对比
让模型输出几款候选车型的性能参数对比表,程序自动提取表格内容并保存。
ChatGLM-glm-4并未给出一个车型推荐表格,而是提供了一个表格模板

5.选出目标车型
程序要求模型结合前面信息,给出最终推荐,并说明理由。

车型推荐:丰田卡罗拉
理由如下图所示

四、自动化评测
模型: ChatGLM-glm-4
场景: 城市通勤场景
最终推荐: 未知
候选车型: [丰田卡罗拉, 本田XR-V, 大众帕萨特, 吉利博越]
响应时间: 0ms
评测得分: 50/100
得分细则:
候选车型数量评分( 20)
参数表格完整性评分( 0)
最终推荐明确性评分( 0)
响应内容质量评分( 30)
场景: 家庭用车场景
最终推荐: 未知
候选车型: [丰田汉兰达]
响应时间: 0ms
评测得分: 35/100
得分细则:
候选车型数量评分( 5)
参数表格完整性评分( 0)
最终推荐明确性评分( 0)
响应内容质量评分( 30)
场景: 新能源车场景
最终推荐: 丰田卡罗拉
候选车型: [比亚迪汉, 蔚来ES6, 特斯拉Model 3]
响应时间: 0ms
评测得分: 62/100
得分细则:
候选车型数量评分( 15)
参数表格完整性评分( 0)
最终推荐明确性评分( 20)
响应内容质量评分( 27)
平均得分: 49/100
GLM-4 是一款在深度、逻辑和长文本处理上表现卓越的国产大模型。它尤其适合有深度思考、复杂创作、学术研究及长文档分析需求的用户。虽然在极致响应速度上可能不是最快,但其输出的质量、逻辑的严谨性以及处理复杂任务的可靠性,使其在高端应用场景中具备了强大的竞争力。对于追求答案深度和准确性的用户而言,GLM-4是一个极具价值的选择。
基于截至2025年10月的市场表现和技术发展,我们对主流大语言模型进行综合排名分析。近几年来,模型能力更加均衡,差异化竞争成为主流。
2025年综合能力梯队排名
| 梯队 | 模型代表 | 核心特点与市场定位 |
|---|---|---|
| 第一梯队(领导者) | 通义千问 (Qwen2.5系列) 智谱GLM (GLM-5系列) DeepSeek (DeepSeek-R1) | 形成国产模型"三强鼎立"格局。Qwen2.5在开源生态和企业部署方面优势明显;GLM-5在复杂推理和科研领域持续领先;DeepSeek-R1以极高的性价比和推理能力获得大量开发者青睐。 |
| 第二梯队(竞争者) | 月之暗面 (Kimi-2) 零一万物 (Yi-2.0) 文心一言 (Ernie 4.0) | 在特定赛道建立核心优势。Kimi仍是长文本处理的代名词;Yi在多模态和代码能力上进步显著;文心一言依托百度生态在搜索整合和营销场景表现稳健。 |
| 新兴力量 | 智谱AI (CodeGeeX 4) 幻方AI (DeepSeek-Coder) 多家垂直领域模型 | 专注于代码生成、数学推理、生物医药等垂直领域,在特定任务上超越通用模型。 |
关键维度细分排名
| 排名维度 | 第1名 | 第2名 | 第3名 | 现状简析 |
|---|---|---|---|---|
| 综合推理能力 | GLM-5 | DeepSeek-R1 | Qwen2.5-72B | GLM-5在数学、科学推理基准测试中持续领先;DeepSeek-R1的思维链推理备受好评。 |
| 代码生成与调试 | DeepSeek-Coder | Qwen2.5-Coder | CodeGeeX 4 | 专用代码模型已全面超越通用模型,DeepSeek在代码正确性和项目级理解上优势明显。 |
| 长文本处理 | Kimi-2 (1M+) | GLM-5-Long | Qwen2.5-72B-Instruct | Kimi继续保持上下文长度优势,但各家长文本模型的差距已显著缩小。 |
| 多模态能力 | Qwen2.5-VL | Yi-Vision | GLM-5-V | Qwen在多模态推理和文档理解上更加成熟,Yi在创意生成方面表现突出。 |
| 响应速度与成本 | Qwen2.5-7B | DeepSeek-V3-Lite | GLM-5-Turbo | 轻量级模型在保证质量的同时,为实时应用提供了最佳性价比。 |
| 开源生态建设 | Qwen2.5系列 | DeepSeek系列 | Yi系列 | 通义千问在开源模型多样性、文档完整度和社区活跃度上全面领先。 |
| 企业级部署 | Qwen2.5企业版 | GLM-5私有化方案 | 文心一言千帆平台 | 各厂商均提供成熟的私有化部署方案,安全性、合规性成为核心竞争要素。 |
结论:在当前阶段,选择模型更应基于具体应用场景而非单纯的排行榜。对于需要最强推理能力的研究场景,GLM-5是优选;对于追求平衡性、生态支持和成本控制的商业应用,Qwen2.5系列更具优势;而对于代码开发和初创项目,DeepSeek则提供了极高的性价比。
程序层面:算法/数据结构体现
Qwen-Turbo
GLM-4
对比小结:Qwen-Turbo在算法上偏向工程优化,目标是极致响应速度;GLM-4在算法上偏向架构创新,目标是解决长文本、强推理等复杂任务。
软件工程层面:服务、文档、协作机制
| 层面 | Qwen-Turbo (阿里百炼) | GLM-4 (智谱清言/开放平台) |
|---|---|---|
| 服务 | - 核心API服务:提供模型推理接口。 - 模型部署服务:支持云端托管和私有化部署。 - 配套服务:与阿里云OSS、函数计算等服务深度集成,形成生态闭环。 | - 核心API服务:提供标准化的模型调用接口。 - 定制化服务:提供模型微调、Prompt优化等高级服务。 - 多模态服务:提供视觉、语音等扩展服务。 |
| 文档 | - 集成于阿里云文档体系:结构清晰,但内容庞杂,新手可能感到困惑。 - 提供Quick Start、API参考:实用性强。 - 最佳实践案例丰富:尤其针对电商、金融等阿里优势场景。 | - 独立的开发者文档中心:针对性更强,体验更专注。 - 教程引导性更友好:从入门到进阶的路径明确。 - 学术论文与技术报告:公开程度高,便于研究人员深入理解。 |
| 协作机制 | - 基于阿里云账号体系:与钉钉、Teambition等阿里内部协作工具打通。 - 资源管理和权限控制:符合企业级IT治理规范。 | - 提供团队协作功能:支持API密钥的团队管理和使用量统计。 - 开发者社区活跃:通过社区论坛、技术沙龙等形式促进用户协作。 |
对比小结:两者都提供了成熟的企业级服务。Qwen-Turbo胜在与阿里云生态的无缝集成,而GLM-4在开发者体验和社区建设上更具亲和力。
商业层面:商业模式与竞争优势
商业模式
共同点:
差异化:
竞争优势
Qwen-Turbo的竞争优势:
GLM-4的竞争优势:
市场有多大
直接用户与潜在用户
新功能设计:打造“AI功能应用商店”
是什么?
可以理解为一个“AI版的NPM或PyPI仓库”。不过我们提供的不是代码库,而是封装好特定AI能力的、即插即用的“微服务”。比如:
@ai/code-reviewer: 一键代码审查,能指出bug和坏味道。@ai/sql-generator: 用自然语言描述,直接生成复杂的SQL查询。@ai/ppt-outline-builder: 输入主题,自动生成PPT大纲和内容。为何做这个,而不是其他?
import就能用,会方便很多。为什么用户会用?
NABCD分析
N (需求)
A (做法)
@ai/code-helper和@ai/data-analyzer,把体验做到极致。B (好处)
C (竞争)
D (推广)
| 成员 | 工作内容 | 绩效占比 |
|---|---|---|
| 102300307张青青 | 完成ppt制作 | 20% |
| 102300315季煜晟 | 上台展示答辩 | 20% |
| 102300331叶润升 | 完成自动化测试代码 | 20% |
| 102300401蔡雨晞 | 完成博客制作 | 20% |
| 102300402黄秋玥 | 完成自动化测试代码 | 20% |