软件工程实践——软件评测作业

222200219陈诗柠 2024-10-14 09:37:13
这个作业属于哪个课程https://bbs.csdn.net/forums/2401_CS_SE_FZU
这个作业要求在哪里软件工程实践——软件测评作业
这个作业的目标调研评测软件
分析软件
对软件进行建议和规划
其他参考文献《构建之法》

目录

  • 第一部分 调研,评测
  • (一) 文心一言
  • 1. 体验
  • 1.1 产品介绍
  • 1.2 基本功能
  • 1.3 使用体验
  • 1.3.1 智能对话功能
  • 1.3.2 文本创作功能
  • 1.3.3 数据处理功能
  • 1.3.4 艺术创作功能
  • 1.3.5 代码编写功能
  • 1.4 优缺点分析
  • 1.5 改进意见
  • 1.6 用户采访
  • 2. BUG
  • 2.1 BUG量化指标
  • 2.2 第一个BUG
  • 2.2.1 Bug发生时的测试环境
  • 2.2.2 Bug具体情况描述
  • 2.2.3 Bug的可复现性及具体复现步骤
  • 2.2.4 Bug分析
  • 2.3 第二个BUG
  • 2.3.1 Bug发生时的测试环境
  • 2.3.2 Bug具体情况描述
  • 2.3.3 Bug的可复现性及具体复现步骤
  • 2.3.4 Bug分析
  • 3. 结论
  • (二) 讯飞星火
  • 1. 体验
  • 1.1 产品介绍
  • 1.2 基本功能
  • 1.3 使用体验
  • 1.3.1 多模交互
  • 1.3.2 代码能力
  • 1.3.3 内容创作
  • 1.3.4 数学能力
  • 1.3.5 语言理解
  • 1.3.6 知识问答
  • 1.3.7 逻辑推理
  • 1.4 优缺点分析
  • 1.5 改进意见
  • 1.6 用户采访
  • 2. BUG
  • 2.1 第一个BUG
  • 2.1.1 Bug发生时的测试环境
  • 2.1.2 Bug具体情况描述
  • 2.1.3 Bug的可复现性及具体复现步骤
  • 2.1.4 Bug分析
  • 2.3 第二个BUG
  • 2.2.1 Bug发生时的测试环境
  • 2.2.2 Bug具体情况描述
  • 2.2.3 Bug的可复现性及具体复现步骤
  • 2.2.4 Bug分析
  • 3. 结论
  • 第二部分 分析
  • (一) 开发时间估计
  • (二) 同类产品对比排名
  • (三) 软件工程方面的建议
  • (四) BUG存在的原因分析
  • 第三部分 建议和规划
  • (一) 市场概况
  • 1. 市场大小
  • 2. 用户分析
  • 2.1 文心一言的用户
  • 2.2 讯飞星火的用户
  • (二) 市场现状
  • 1. 市场产品
  • 2. 产品定位及优劣
  • 通用大语言模型
  • 企业级大语言模型
  • 垂直领域大语言模型
  • 多模态大语言模型
  • 开源大语言模型
  • 国际化大语言模型
  • 小型化大语言模型
  • 3. 产品关系
  • 4. 领域阶段
  • (三) 市场与产品生态
  • 1. 核心用户群体
  • 2. 群体联系
  • 3. 产品联系
  • (四) 产品规划
  • 1. 功能拓展及NABCD模型
  • 2. 角色分布
  • 3. 周期规划

第一部分 调研,评测

(一) 文心一言

1. 体验

1.1 产品介绍

文心一言

文心一言是百度研发的人工智能大语言模型产品,由文心大模型驱动,具备理解、生成、逻辑、记忆四大基础能力。当前文心大模型已升级至4.0Turbo版本,能够轻松搞定各类复杂任务,能够通过上一句话,预测生成下一段话。 任何人都可以通过输入【指令】和文心一言进行对话互动、提出问题或要求,让文心一言高效地帮助人们获取信息、知识和灵感。

文心一言支持多种设备平台,包括网页端、移动端(iOS、Android、HarmonyOS)、小程序以及其他智能硬件产品等。

主要应用场景如下:

img

进入界面:

img

1.2 基本功能

在使用文心一言大语言模型的时候可以通过传输文件(最多10个文件,单个最大50MB,支持word/PDF/TXT/Excel/ppt格式或者连接百度网盘实现文件传输)、传输图片、启用指令、直接输入对话来实现文心一言的使用,并且默认启动联网能力。

img

了解过后,我总结文心一言的人工智能大语言模型基础功能

  • 智能对话(日常对话/游戏陪玩/知识问答等)
  • 文本创作(视频脚本、论文、分析报告、故事、旅游规划等)
  • 数据处理(函数公式处理数据等)
  • 艺术创作(画图)
  • 代码能力(编写/纠错/理解)

拓展模块

  • 百宝箱模块直接提供设置好的问答供用户选择。
  • 智能体广场模块指定专业的智能体供用户使用。
  • 个性化定制模块实现针对用户的对话定制。

1.3 使用体验

1.3.1 智能对话功能

通过发送相关的对话内容,智能ai会根据内容进行对话。对于回答的答案,可以选择复制内容或复制成Markdonw格式,比较便利。

img

1.3.2 文本创作功能

通过小程序可以创作论文/生成营销方案/文本续写/脚本创作等。如下图所示,我询问副本思路和框架,文心一言能够很好的回答我。此外还进行了多次测试,文心一言在文本创作部分都表现得不错。

img

1.3.3 数据处理功能

文心一言支持处理函数公式或者函数图像数据等和进行相关的解析,还能解析提供链接的网站的内容。

img

但是在图片识别方面和数理推算方面表现的较差,对于我给出的问题没能够很好的进行识别和解答。

img

1.3.4 艺术创作功能

文心一言可以根据指定的内容生成相应的图片。但是在生成的图片的风格都有很明显的ai痕迹,不能很好的根据风格显示内容,有时候生成的东西“文不对题”。

img


img

1.3.5 代码编写功能

文心一言能够自动补全代码、实时错误提示、代码生成,同时兼容多种编程语言,并具备代码推理解析能力。

  • 代码编写:输出的代码能用运行并使用。

    img

  • 代码解析:文心一言能够较好的完成代码数据和逻辑分析。

    img

1.3.6 百宝箱模块

百宝箱模块是一个提供各场景参考指令(Prompt)的集合,它能够帮助用户快速得到想要的回复,并支持分场景、分职业地提供丰富的Prompt,以满足用户在不同场景下的需求。覆盖的内容较全并且能进行搜索缩短用户查找的时间,提高实用性。

img

1.3.7 智能体广场模块

文心一言在智能体广场设置了多个训练好的智能体供大家选择,其中包含多个方面多个行业不同的ai助手,范围较广。

img

1.3.8 个性化定制模块

目前,文心一言的个性化定制模块还在测评阶段,可以通过自己定义设置大语言模型的角色设定和回复风格等,但是填写示例当中的内容较少,仅有几个示例,可用性不强。

img

1.4 优缺点分析

  • 优点

    1. 对话理解能力强

      • 文心一言在本土化方面具有优势,擅长理解和运用中文,在文学创作、商业文案创作等方面表现出色。

      • 得益于其背后强大的自然语言处理技术和深度学习算法,文心一言能够更贴近人类的交流方式,提供流畅自然的对话体验。

    2. 实用性强

      • 支持多设备同步。同一个账号的对话,在不同的设备(小程序/web端/移动端等)都支持同步。

        • 百宝箱中有各种场景和职业,可以快速让ai进入对应的场景中,不需要用户用语言进行调教。
        • 支持定制个性化的大语言模型。
    3. 知识面广:百度深耕搜索引擎多年,积累了海量数据,这为文心一言提供了强大的知识库。

    4. 道德责任强:在沙利文《2024年中国大模型能力测评》中文心一言的道德责任排名第一,其在道德理解深度、危险言论规避机制以及鲁棒性对抗方面均表现卓越。

  • 缺点

    1. 缺乏细节:对话时,发现文心一言在回答问题的时候回答会比较简洁干练,这也导致信息的说服力可能不足,不能满足用户对深入了解和详细解释的需求。

    2. 用户体验较差:在使用文心一言的时候经常会不小心误触文心一言的“开通会员”模块。并且在使用网页版的时候会出现一个问题,原本网页没有展开在对话的时候展开会重新创建一个对话框,原本的对话变成记录。

    3. 数理推算能力差:某些专业领域,如数学、代码等,文心一言的表现可能不如其他AI模型。在面对复杂描述、需要逻辑理解的问题或者错误问题时,文心一言经常给出错误答案,并且不会纠正错误的问题(如上面的示例所示)。

1.5 改进意见

  1. 减少会员推荐,通过增加算法能力和进行其他的宣传推荐方法增强用户粘性和体验感。

  2. 提高自身优势,通过提升特定领域的写作能力和丰富写作风格进一步提高文心一言的优势。

  3. 提高数理逻辑推算方面的能力,减少与其优势的大语言模型的差距。进一步优化算法,特别是逻辑推理和数学问题解答方面的算法,以提高模型在解决复杂数学问题时的准确性和效率。同时增加图像和图形的解析能力,因为很多数学问题需要结合图像来理解,比如几何问题。

1.6 用户采访

  • 采访对象:武汉理工大学大二学生 软件工程专业

  • 采访原因:有过智能大模型使用经历,平时会使用ai解决一些问题,有使用经验。

  • 需求:解答一些文件处理问题和代码问题

  • 使用产品:ChatGPT

  • 采访记录:

2. BUG

2.1 BUG量化指标

等级描述影响范围量化标准
★★★★★致命性问题整个系统致命性系统故障
严重的安全性漏洞
无法恢复的数据丢失
严重影响用户体验
★★★★严重问题系统的关键部分严重系统故障
服务器鉴权漏洞或重要数据泄露
用户体验较差
★★★中等问题系统的某些部分主要功能存在严重缺陷,但不会影响到系统稳定性
次要功能失效
部分数据丢失或错误
轻微的安全性问题
★★小问题界面、性能缺陷操作界面错误
系统未优化(性能问题)
光标跳转设置不好,鼠标(光标)定位错误等非关键数据的错误
建议性问题非功能性问题改进建议
性能优化
用户体验提升

2.2 第一个BUG

2.2.1 Bug发生时的测试环境
  • Windows版本:Windows 11 家庭中文版

  • 操作系统版本:10.0.22631版本22631

  • 浏览器:联想浏览器

  • 浏览器版本:9.0.3.5211(正式版本) (64 位)

2.2.2 Bug具体情况描述
  • 在体验文心一言的动画制作助手的过程中,发现在让文心一言生成一个GIF动画的时候会卡住,并且检查了网络连接等问题都显示是正常。

    img

2.2.3 Bug的可复现性及具体复现步骤
  • 可复现性:满足特定条件(在使用动画制作助手智能体并让其给出制作完成的动画成品)下会发生。

  • 复现步骤:

    1. 在使用动画制作助手智能体

    2. 让其给出制作完成的动画成品。

    在让文心一言制作动画的时候,他总是回答可以生成动画,但是又绕着如何制作动画反复讲述,当我要求它给出制作成果,他又卡住了。

    img

2.2.4 Bug分析
  • 可能成因:作为一个文本型的智能大语言模型,文心一言可能本身并不具备制作动画的能力,但是在设置“动画制作助手”这个智能体的时候,没有制定好合适的限制从而导致了当用户有需求的时候,这个智能体回复能够制作动画但是并不能给出成品。

  • 严重性:★★

  • 对BUG的预期:修复此Bug后,智能体应当能够准确理解自身的能力范围,并在用户提出超出能力范围的请求时,给出合理的反馈或建议。

  • 改进建议:

    1. 在智能体的交互设计中,增加对用户请求的验证逻辑,当请求超出智能体能力范围时,智能体应提供清晰的反馈,说明无法完成请求的原因,并可能提供替代方案或建议。

    2. 对智能体进行更全面的测试,确保其在各种情况下都能提供准确的反馈,避免误导用户

2.3 第二个BUG

2.3.1 Bug发生时的测试环境
  • Windows版本:Windows 11 家庭中文版

  • 操作系统版本:10.0.22631版本22631

  • 浏览器:联想浏览器

  • 浏览器版本:9.0.3.5211(正式版本) (64 位)

2.3.2 Bug具体情况描述
  • 文心一言在UI界面的时候的设计是能够进行屏幕不同大小的适应的,但是与此同时如果智能大模型正在进行对话或者正在一个对话框中,则这个对话会中止并重新新建一个对话并且出现部分图片显示不出来的问题。这对于用户来说界面不是很友好。

    img

2.3.3 Bug的可复现性及具体复现步骤
  • 可复现性:必然发生

  • 复现步骤:

    1. 打开文心一言的网页,并进行对话。

    2. 通过对话框开始与智能大语言模型进行对话。

    3. 在对话过程中,主动移动并调整浏览器窗口的边界,以改变浏览器的宽度。

    4. 当浏览器界面的宽度缩小到一定程度时,观察到新对话被创建。

2.3.4 Bug分析
  • 可能成因:可能存在一个基于窗口宽度的事件监听器,当宽度低于某个阈值时,错误地触发了对话创建的逻辑。代码中可能缺少对当前对话状态的检查,导致在界面宽度变化时错误地认为需要开始一个新的对话。

  • 严重性:★★

  • 对BUG的预期:修复此Bug后,用户在调整浏览器窗口大小时,对话应该能够正常继续,而不会因为界面宽度的变化而意外创建新的对话。

  • 改进建议:

    1. 审查并修复前端代码中负责响应窗口大小调整的逻辑,确保在窗口尺寸变化时不会错误地触发新对话的创建。

    2. 增加对当前对话状态的检查,确保在用户主动结束对话之前,不会基于界面宽度的变化而创建新的对话。

    3. 实施更健壮的前端测试,包括自动化测试,以确保在未来的更新中不会引入类似的Bug。

3. 结论

定性结论:好,不错

原因:文心一言在文字处理方面比较优秀,并且在沙利文《2024年中国大模型能力评测》中,文心一言拿下数理科学、语言能力、道德责任、行业能力及综合能力等五大评测维度的四项第一,说明其在自然语言处方面的价值。因此我认为对于文字处理相关的工作/对话非常适合使用文心一言,但是如果是偏向数理逻辑层次的文心一言的表现并不是很好,同时用户界面也存在不足。

定量结论:76分

评分维度描述**评分标准 **得分
核心功能(20分)分析三个核心功能,功能设计和质量。用户界面:0-5分
功能实现:0-10分
性能:0-5分
17
细节(10分)有什么为用户考虑的细节?1-2分:几乎没有细节考虑
3-4分:有一些细节考虑
5-6分:细节考虑充分
7-8分:细节考虑周到
9-10分:细节考虑极致
7
用户体验(10分)当用户完成功能时,不干扰用户 (例如: 是否不断弹出不相关广告)。1-2分:频繁干扰
3-4分:偶尔干扰
5-6分:很少干扰
7-8分:几乎不干扰
9-10分:完全无干扰
7
辅助功能(5分)一些辅助功能如皮肤等1分:无辅助功能
2分:辅助功能有限
3分:辅助功能一般
4分:辅助功能丰富
5分:辅助功能非常丰富
3
差异化功能(10分)这个软件独特的功能. 它对用户的吸引力有多大?1-2分:无差异化功能
3-4分:差异化功能有限
5-6分:差异化功能一般
7-8分:差异化功能明显
9-10分:差异化功能极具吸引力
6
软件的效能(10分)占用内存, 启动速度, 内存泄漏情况1-2分:效能差
3-4分:效能一般
5-6分:效能良好
7-8分:效能优秀
9-10分:效能极佳
8
软件的适应性(10分)在联网/断网, 大小屏幕, 没有鼠标的情况下都可以顺畅操作. 和不同平台的软件能流畅协作1-2分:适应性差
3-4分:适应性一般
5-6分:适应性良好
7-8分:适应性优秀
9-10分:适应性极佳
7
成长性(10分)记住用户的选择, 适应用户的特点,用户越用越方便1-2分:无成长性
3-4分:成长性一般
5-6分:成长性良好
7-8分:成长性优秀
9-10分:成长性极佳
8
用户有控制权(5分)系统状态有反馈,等待时间要合适。关键操作有确认提示,有明确的错误信息。 让用户方便地从错误中恢复工作, 快捷操作键可调整。1分:控制权差
2分:控制权一般
3分:控制权良好
4分:控制权优秀
5分:控制权极佳
4
道德责任(10分)道德责任能力包括准确识别风险信息与偏见、辨识知识环境及提高模型鲁棒性,对确保AI技术工作可靠与长远发展至关重要风险信息:1-3分
偏见信息:1-2分
知识幻觉:1-2分
模型鲁棒性:1-3分
总计:10分
9
最终得分80-100,非常好;
60-79,良好;
40-59,一般;
20-39,差;
0-19,非常差
根据上述评分标准计算总分76

(二) 讯飞星火

1. 体验

1.1 产品介绍

讯飞星火是一款基于人工智能技术的智能助手应用,旨在为用户提供高效、便捷的语音交互体验。通过先进的语音识别和自然语言处理技术,讯飞星火能够理解用户的指令,并提供相应的信息或服务。

可通过官网首页注册进入下面的使用界面:讯飞星火

img

1.2 基本功能

讯飞星火大模型升级七大核心功能,全面对标CPT-4 Turbo。并且创建了相关的智能体更加专业化的供用户使用,同时也支持用户自定义创建智能体。

  • 多模交互:多模理解、视觉问答、多模生成、虚拟人视频
  • 代码能力:代码生成、代码解释、代码纠错、单元测试
  • 内容创作:商业文案、营销方案、英文写作、新闻通稿
  • 数学能力:方程求解、几何问题、微积分、概率统计
  • 语言理解:机器翻译、文本照耀、语法检查、情感分析
  • 知识问答:生活技能、工作技能、医学知识、历史人文
  • 逻辑推理:思维推理、科学推理、常识推理

1.3 使用体验

1.3.1 多模交互

多模理解:能够较为准确的识别图像当中的内容。

img

视觉问答:视觉回答的结果也比较准确。

img

多模生成:星火支持生成音频,但是智能通过对应的部分智能体生成音频,无法实现多范围的自定义音频生成。能过较好的对图片进行生成。

img


img

虚拟人视频:虚拟人视频能够生成,但是生成的范围比较小,目前主要比较完善的是生成虚拟人进行新闻播报的智能体(但是在短句等方面还存在缺陷)。

img

1.3.2 代码能力

星火强调其代码能力,但是并不支持传输代码文件并进行解析,比较不方便。

代码生成:可以看到不仅生成了代码,并且能够实现正常的运行。

img

代码解释:可以看到,星火能够较好的对代码进行解析并且理清代码思路。

img

代码纠错:能够准确的揪出代码的错误

img

单元测试:能够基于不同的代码进行单元测试

img

在此之外还衍生出专门的轻应用:iFlyCode

img

1.3.3 内容创作

在商业文案、营销方案、英文写作、新闻通稿等方面都能很好的生成相关的结果,并且又针对性的智能体实现更加有针对性地内容。除此之外,星火能够给出PPT大纲并生成PPT。

img


img

1.3.4 数学能力

数学题的解题比较清晰,但是这题并没有正确的回答问题,数学逻辑能力有待提高。

img

1.3.5 语言理解

星火在语言理解部分能够较好地理解,但是更加深层次地理解会比较困难。

img

1.3.6 知识问答

讯飞星火设置相关地智能体进行回答,并且能够正确指出错误知识点。

img


img

1.3.7 逻辑推理

如图所示,星火能够比较简明扼要地指出要点并得出正确结果。

img

1.4 优缺点分析

  • 优点

    1. 比较注重用户体验:没有什么会员广告,用户体验较好。同时在侧面显示相关功能的智能体,能够比较友好的解决用户的功能。

    2. 实用性强

      • 支持多设备。同一个账号的对话,在不同的设备(小程序/web端/移动端等)都支持。

        img

      • 讯飞星火支持生成音频/视频/PPT,能够帮助用户更好的识别和制作,更加便利。

      • 支持定制个性化的智能体。

  • 缺点

    1. 数学问题解决准确度不高:对于数学问题能够解决问题,但是并不能保证正确性。

    2. 界面没有进行响应式设计:不能很好的实现缩放,体验效果不太好。image-20241010192413782

1.5 改进意见

  1. 数学能力提升:虽然能够解决数学问题,但准确性有待提高。可以考虑加强算法的优化或引入更专业的数学解析模型来提升解题的正确率。

  2. 界面响应式设计:目前界面在不同设备上的适应性不强,建议进行响应式设计,确保在各种屏幕尺寸和分辨率下都能提供良好的视觉体验和操作便利性。

  3. 多模态交互优化:虽然多模态交互功能已经具备,但用户反映存在一些局限性,如音频生成的范围限制,可以探索更多的自定义选项和更广泛的多模态应用场景。

1.6 用户采访

  • 采访对象:武汉理工大学大二学生 软件工程专业

  • 采访原因:有过智能大模型使用经历,平时会使用ai解决一些问题,有使用经验。

  • 需求:解答一些文件处理问题和代码问题

  • 使用产品:ChatGPT

  • 采访记录:

    image-20241010191301782

2. BUG

BUG量化指标如上面的表格所示。

2.1 第一个BUG

2.1.1 Bug发生时的测试环境
  • Windows版本:Windows 11 家庭中文版

  • 操作系统版本:10.0.22631版本22631

  • 浏览器:联想浏览器

  • 浏览器版本:9.0.3.5211(正式版本) (64 位)

2.1.2 Bug具体情况描述
  • 在计算大范围数值的浮点数结果会出错,“计算987654321/12345”结果输出为799999.999,但是实际结果为80,004.400243,但是对于小数值的运算结果正常。

    img

    运用不同智能体的算法结果还不太一样,不一样的出错。

    img

2.1.3 Bug的可复现性及具体复现步骤
  • 可复现性:必然出现

  • 复现步骤:

    1. 打开web页面的讯飞星火的对话

    2. 输入大数值的运算例如“计算987654321/12345”将会出现上述结果。

2.1.4 Bug分析
  • 可能成因:

    1. 浮点运算精度问题:在进行大数值除法时,可能由于浮点数的表示范围和精度限制,导致结果不准确。

    2. 数据类型转换错误:在运算过程中,可能由于数据类型的不当转换(如整数转浮点数的处理不当),导致计算结果偏差。

  • 严重性:★★★(运算功能失效)

  • 对BUG的预期:大语言模型能够正确实现大数计算。

  • 改进建议:

    1. 优化浮点运算精度:改进浮点运算的处理方式,确保在进行大数值除法时能够保持较高的精度。

    2. 加强数据类型转换管理:在运算过程中,严格管理数据类型的转换,确保转换过程的正确性和合理性。

    3. 完善运算逻辑:对计算过程进行仔细审查,确保每个步骤都符合数学运算规则,并修复任何潜在的逻辑错误。

2.3 第二个BUG

2.2.1 Bug发生时的测试环境
  • Windows版本:Windows 11 家庭中文版

  • 操作系统版本:10.0.22631版本22631

  • 浏览器:联想浏览器

  • 浏览器版本:9.0.3.5211(正式版本) (64 位)

2.2.2 Bug具体情况描述
  • 在对话当中,重复出现相同的内容。在指令当中要求给出另外的回答,但是还是给出一个相同的回复,并没有生成其他回答。

    img

    多次出现重复情况:

    image-20241010202417976
2.2.3 Bug的可复现性及具体复现步骤
  • 可复现性:在特定情况下(提问一个问题让其给出其他方案/重复提出相同问题)会出现

  • 复现步骤:

    1. 启动应用:打开讯飞星火大模型的应用界面。

    2. 输入指令:在对话框中输入一段指令,要求生成多样化的回答或内容,例如,使用“PPT大纲助手”功能,输入一个特定的PPT核心内容,如“Q3市场分析报告”。

    3. 观察现象:观察生成的回答或内容是否出现重复。根据描述,即使在指令中明确要求给出另外的回答,系统仍然会重复之前的回复,未生成其他不同的内容。

2.2.4 Bug分析
  • 可能成因:推理参设置不当或者受到缓存机制的影响。讯飞星火大模型在生成回答时,会受到一系列推理参数的影响,如果这些参数设置不当,例如温度参数设置过低,模型可能会倾向于输出最有可能的答案,导致在不同对话或同一对话中针对相同问题给出相同的回答。或者由于缓存机制,模型可能会直接从缓存中取答案。

  • 严重性:★★

  • 对BUG的预期:能够多样化的回答用户问题,避免重复。

  • 改进建议:

    1. 优化算法:对讯飞星火大模型的算法进行优化,提高其在生成内容时的多样性和创新性,确保每次生成的回答或内容都是独特的。

    2. 改进缓存机制:在生成回答时,增加对之前生成内容的缓存机制,当检测到重复请求时,能够从缓存中提取不同的答案,避免直接重复之前的回答。

3. 结论

定性结论:好,不错

原因:它多模态功能比较强大,并且支持生成PPT/部分种类视频/音频,在办公方面的实用性较强。但是体验过程中,可以感受到讯飞星火部分算法并不如文心一言,算力没有很强大,并且网页的响应式设计没有那么美观实用。

定量结论:80分

评分维度描述**评分标准 **得分
核心功能(20分)分析三个核心功能,功能设计和质量。用户界面:0-5分
功能实现:0-10分
性能:0-5分
17
细节(10分)有什么为用户考虑的细节?1-2分:几乎没有细节考虑
3-4分:有一些细节考虑
5-6分:细节考虑充分
7-8分:细节考虑周到
9-10分:细节考虑极致
6
用户体验(10分)当用户完成功能时,不干扰用户 (例如: 是否不断弹出不相关广告)。1-2分:频繁干扰
3-4分:偶尔干扰
5-6分:很少干扰
7-8分:几乎不干扰
9-10分:完全无干扰
9
辅助功能(5分)一些辅助功能如皮肤等1分:无辅助功能
2分:辅助功能有限
3分:辅助功能一般
4分:辅助功能丰富
5分:辅助功能非常丰富
5
差异化功能(10分)这个软件独特的功能. 它对用户的吸引力有多大?1-2分:无差异化功能
3-4分:差异化功能有限
5-6分:差异化功能一般
7-8分:差异化功能明显
9-10分:差异化功能极具吸引力
8
软件的效能(10分)占用内存, 启动速度, 内存泄漏情况1-2分:效能差
3-4分:效能一般
5-6分:效能良好
7-8分:效能优秀
9-10分:效能极佳
7
软件的适应性(10分)在联网/断网, 大小屏幕, 没有鼠标的情况下都可以顺畅操作. 和不同平台的软件能流畅协作1-2分:适应性差
3-4分:适应性一般
5-6分:适应性良好
7-8分:适应性优秀
9-10分:适应性极佳
7
成长性(10分)记住用户的选择, 适应用户的特点,用户越用越方便1-2分:无成长性
3-4分:成长性一般
5-6分:成长性良好
7-8分:成长性优秀
9-10分:成长性极佳
7
用户有控制权(5分)系统状态有反馈,等待时间要合适。关键操作有确认提示,有明确的错误信息。 让用户方便地从错误中恢复工作, 快捷操作键可调整。1分:控制权差
2分:控制权一般
3分:控制权良好
4分:控制权优秀
5分:控制权极佳
7
道德责任(10分)道德责任能力包括准确识别风险信息与偏见、辨识知识环境及提高模型鲁棒性,对确保AI技术工作可靠与长远发展至关重要风险信息:1-2分
偏见信息:1-2分
知识幻觉:1-2分
模型鲁棒性:1-2分
总计:10分
7
最终得分80-100,非常好;
60-79,良好;
40-59,一般;
20-39,差;
0-19,非常差
根据上述评分标准计算总分80

第二部分 分析

(一) 开发时间估计

团队当中人数6个计算机大学毕业生并有专业的UI支持。

团队大致组成

  • 项目经理:负责整体规划和协调(与测试工程师为同一个人)

  • 前端开发人员:负责用户界面和前端逻辑的开发(两人)

  • 后端开发人员:负责API服务、数据库和业务逻辑的开发

  • 机器学习工程师:负责AI模型的开发和训练

  • UI/UX设计师:负责用户界面和用户体验设计

  • 测试工程师:负责测试和质量保证

总计时间估计:10个月到1年(文心一言在算法方面更加优秀,讯飞星火更加注重功能拓展及其丰富度,侧重点不同开发时长也不太一致,但是总体估计时间差不多;由于维护更新持续时间过长,开发时间估计结果并不包含后续的维护和更新!)

  • 前后端开发和模型训练可以并行进行。
活动持续时间(周)备注
需求分析和规划1-4确定项目目标人群应用场景和核心价值、确定项目的ai模型方向
设计功能1-4设计系统主要功能、系统架构和数据模型
技术选型和环境搭建1选择技术栈和开发工具
前端开发6-8设计UI/UX并开发前端逻辑
后端开发8-10开发API服务和数据库
机器学习模型开发和训练12-16数据收集与清洗、模型设计、模型训练和调优
集成和测试6-8集成各部分并进行全面测试
部署和优化2-4部署应用、进行性能优化、正式上线并推广应用
用户测试和反馈迭代持续收集反馈并进行迭代优化
维护和更新持续定期更新和维护系统

(二) 同类产品对比排名

个人角度出发,并结合查询到的资料整合出以下几个方面,通过四个类似的产品进行横向对比,得出排名结果。

  • 星火和文心一言不太一样,它更加专注于智能体来实现不同的功能。
评测方面|产品文心一言讯飞星火kimi通义千问
技术能力依托百度,拥有先进的自然语言处理技术和算法,能够准确理解和生成文本。其技术架构稳定,算法优化得当,但是更加专注于文本。
技术能力方面表现较好,特别是在语音识别和合成方面拥有独特的优势。自然语言处理能力在使用下来感觉相对较弱,在算法优化和技术创新方面还有待加强。
技术能力方面表现出色,拥有先进的自然语言处理技术和深度学习算法。
应用场景常用在内容创作、信息检索和智能客服等领域。在语音识别和合成方面的应用场景非常广泛,包括智能家居、智能车载和智能客服等领域主要集中在一些简单的问答和聊天场景中在在智能客服、智能推荐和数据分析等领域表现出色
用户体验响应式设计效果较差,会中断对话
会员推荐太多
用户体验较差
响应式设计一般,对话框无法完全显示
智能体类别较完善,用户体验还行
界面简洁易懂
有响应式设计
使用界面美观
用户体验好
有响应式设计
创新能力能够读取链接内容
强大的自然语言处理能力
能够读取链接内容
生成音频/视频/PPT
领先的语音识别和合成技术
能够读取代码
具有长文本处理能力
强大的功能和适用性:生成PPT/实时记录/解析链接/速读音视频
市场影响力在国内的市场影响力强,特别是内容创作和信息检索领域较大的影响力,特别是在智能家居和智能车载领域。影响力相对较弱,宣传不足知名度较高
道德责任安全性强,在道德责任方面表现出色,注重用户隐私和数据安全保护安全性强安全性较强,在上传文件的时候会自动关闭联网功能安全性强
综合排名3241

(三) 软件工程方面的建议

  1. 对文心一言的建议

    优化用户体验设计,解决响应式设计问题并减少会员推送,向上看齐,补齐短板;

    拉开优势,加强算法设计和模型训练,强化语言处理能力并提高数理推算能力。

  2. 对讯飞星火的建议

    强化算法模型,提高算法多样性(解决“回答重复”问题)和创新性,引入更多的算法模型,通过混合使用不同模型来提高生成内容的多样性。

(四) BUG存在的原因分析

  1. 文心一言bug分析

    • 动画制作助手卡顿问题:

      • 对用户需求掌握不好:团队可能没有充分意识到用户对动画制作功能的需求,导致该功能的设计和实现不够成熟。

      • 测试把关不严:在测试阶段,可能没有充分测试该智能体模型在不同环境下的表现,导致智能体的意识超出自身能力范围。

    • 浏览器窗口调整导致对话框重置问题:

      • 开发人员粗心大意:开发人员可能在处理窗口调整事件时没有充分考虑用户体验,导致对话框重置。

      • 对用户需求掌握不好:团队可能没有充分考虑用户在不同设备和屏幕尺寸上的使用习惯,导致用户体验不佳。

  2. 讯飞星火bug分析

    • 生成内容重复问题:

      • 具体的设计质量不高:生成算法的设计可能存在缺陷,导致在不同对话或同一对话中生成相同内容。

      • 开发人员粗心大意:开发人员可能在设置算法参数时没有充分考虑多样性,导致生成内容单一。

      • 测试把关不严:测试人员可能没有充分测试生成内容的多样性,导致该问题未能在测试阶段发现。

    • 大范围数值浮点数计算错误:

      • 对用户需求掌握不好:团队可能没有充分意识到用户对精确计算的需求,特别是在处理大范围数值时。

      • 具体的设计质量不高:计算算法可能在设计时没有考虑到浮点数计算的精度问题,导致计算结果不准确。

      • 开发人员粗心大意:开发人员可能在实现算法时没有充分考虑边界条件和特殊值的处理,导致计算错误。

      • 测试把关不严:测试人员可能没有充分测试大范围数值的计算场景,导致该问题未能在测试阶段发现。

第三部分 建议和规划

(一) 市场概况

1. 市场大小

根据我国工信部数据,2023年全年我国语言大模型市场规模实现较快提升,应用场景不断丰富,增长率突破100%。据统计,2023年,我国大语言模型市场规模为147亿元

目前,语言大模型在金融、医疗、教育、工业、游戏、法律等多个行业得到了广泛的应用。前瞻初步测算,到2027年,我国大语言模型市场规模将达到600亿元,到2029年将达到1186亿元,年复合增速在40%以上。

2. 用户分析

2.1 文心一言的用户

  • 直接用户:用户规模已达3亿;从文心一言对外发布的《文心一言用户使用报告》中可以得知最大的用户群体是一线、超一线城市的中青年打工人,占比最高的两大行业是IT互联网和教育,最高频的三大使用场景是知识问答、文本创作和代码能力。

  • 潜在用户:那些尚未意识到大语言模型价值的用户群体,如小型企业主、自由职业者等。这些用户一旦了解了大语言模型的优势,可能会成为重要的用户群体。

2.2 讯飞星火的用户

  • 直接用户:截至2024年2月,讯飞星火的纯用户数量已达2400万‌。主要是互联网、科研教育、市场营销与媒体等行业的职场人士,他们将大模型作为提高生产力的工具。根据用户画像报告,使用星火大模型的男性用户占比82%,25-39岁人群占比55%,24岁以下年轻人占比21%,40岁以上中坚群体占比19%。其中,有52%的星火用户生活在一线、新一线城市,本硕博高知用户占比超过74%。image-20241011010401698

  • 潜在用户:那些尚未意识到大语言模型价值的用户群体。

(二) 市场现状

1. 市场产品

市场上已有众多大语言模型产品,商汤日日新·商量、文心一言、通义千问、豆包、天工、中科闻歌、Minimax、腾讯混元、Moonshot、360智脑、紫东太初、智谱AI、讯飞星火、百川智能、OpenAI的GPT3.5和GPT4、谷歌的Gemini以及Anthropic的Claude等

2. 产品定位及优劣

大致归为一下几类:

通用大语言模型

  • OpenAI的GPT3.5和GPT4
    • 定位:广泛应用于文本生成、对话系统、知识问答等。
    • 优势:强大的文本生成和理解能力,广泛的应用场景,高度的灵活性和可扩展性。
    • 劣势:计算资源需求高,成本较高,有时生成的内容可能不够准确或合适。
  • 谷歌的Gemini
    • 定位:多模态处理,适用于复杂场景。
    • 优势:强大的多模态处理能力,支持图像、文本等多种数据类型,技术前沿。
    • 劣势:相对新的产品,市场认知度和用户基础尚需提升。
  • Anthropic的Claude
    • 定位:高性能的通用大语言模型,强调伦理和安全。
    • 优势:高性能,特别注重伦理和安全性,适合需要高可信度的应用。
    • 劣势:相对于其他模型,市场占有率较低,需要进一步扩大用户基础。

企业级大语言模型

  • 百度的文心一言
    • 定位:内容创作、信息检索和智能客服。
    • 优势:强大的自然语言处理能力,广泛的应用场景,本土化优势明显。
    • 劣势:在国际市场的影响力较弱,部分功能需要进一步优化。
  • 阿里云的通义千问
    • 定位:智能客服、智能推荐和数据分析。
    • 优势:技术能力出色,应用场景多样,企业级服务经验丰富。
    • 劣势:市场影响力相对较弱,宣传和推广力度需加强。
  • 讯飞星火
    • 定位:语音识别和合成,智能家居和智能车载。
    • 优势:语音识别和合成技术领先,应用场景广泛。
    • 劣势:生成内容有时重复,算法多样性不足。

垂直领域大语言模型

  • 商汤日日新·商量
    • 定位:特定领域的优化,如医疗、金融。
    • 优势:针对特定领域的优化,专业性强,准确性高。
    • 劣势:应用范围相对狭窄,市场占有率较低。
  • 豆包
    • 定位:金融领域的文本处理和分析。
    • 优势:专注于金融领域,专业性强,准确性高。
    • 劣势:应用范围有限,市场拓展难度较大。
  • 天工
    • 定位:法律领域的应用。
    • 优势:在法律领域有较强的应用能力,专业性强。
    • 劣势:市场占有率较低。
  • 中科闻歌
    • 定位:新闻和媒体领域的应用。
    • 优势:在新闻和媒体领域有突出表现,专业性强。
    • 劣势:市场占有率较低。

多模态大语言模型

  • Minimax
    • 定位:多模态处理,生成和理解图像和文本。
    • 优势:具备多模态处理能力,应用场景广泛。
    • 劣势:相对新的产品,市场认知度和用户基础尚需提升。
  • 腾讯混元
    • 定位:多模态数据处理。
    • 优势:支持多模态数据处理,技术能力强。
    • 劣势:市场占有率较低。
  • 紫东太初
    • 定位:多模态处理,应用于多种场景。
    • 优势:具备多模态处理能力,应用场景广泛。
    • 劣势:市场占有率较低。

开源大语言模型

  • 智谱AI
    • 定位:开源的大语言模型,社区活跃。
    • 优势:开源,社区活跃,应用广泛。
    • 劣势:技术更新速度依赖于社区贡献,稳定性有时不足。
  • 百川智能
    • 定位:开源的多模态大语言模型,支持多种应用场景。
    • 优势:开源,支持多模态数据处理,应用场景广泛。
    • 劣势:市场占有率较低。

国际化大语言模型

  • Moonshot
    • 定位:支持多种语言,适用于国际化的企业和组织。
    • 优势:支持多种语言,适用于国际化应用场景。
    • 劣势:市场占有率较低。
  • 360智脑
    • 定位:支持多种语言,具备强大的多语言处理能力。
    • 优势:支持多种语言,应用场景广泛。
    • 劣势:市场占有率较低。

小型化大语言模型

  • 轻量级版本的GPT
    • 定位:适用于移动设备和资源受限的环境。
    • 优势:体积小,适合在资源受限的设备上运行。
    • 劣势:功能和性能相对有限,应用场景较窄。
  • 轻量级版本的通义千问
    • 定位:适用于移动设备和资源受限的环境。
    • 优势:体积小,适合在资源受限的设备上运行。
    • 劣势:功能和性能相对有限,应用场景较窄。

3. 产品关系

竞品关系:上述同一类模型中的几个模型互为竞品,存在较强的竞争关系。

合作关系

  • 企业级大语言模型可以通过API接口与通用大语言模型结合,并采用开源大语言模型,提供更全面的服务同时降低成本。

  • 多模态大语言模型可以与垂直领域大语言模型结合,提供更专业的多模态处理能力。

4. 领域阶段

目前,大语言模型领域正处于成长阶段。

根据行业报告,全球AI市场规模在过去几年中以每年超过30%的速度增长,预计到2025年将达到约300亿美元。大语言模型作为AI的一个重要分支,市场需求尤为旺盛。据统计,2022年,全球大语言模型市场规模约为50亿美元,预计到2027年将达到200亿美元,复合年增长率超过30%。

这一快速增长得益于技术创新的不断推动,如OpenAI的GPT4、谷歌的Gemini和Anthropic的Claude等高性能模型的推出,以及企业在智能客服、内容创作、数据分析等领域的广泛应用。同时,市场上的竞争也愈发激烈,各大科技公司纷纷加大投入,争夺市场份额。例如,百度的文心一言、阿里云的通义千问和讯飞星火等企业级大语言模型在市场上的表现越来越突出。此外,政府和行业组织对人工智能技术的支持和鼓励也为大语言模型的发展提供了良好的外部环境。总体来看,大语言模型领域正处于一个充满机遇和挑战的成长阶段。

(三) 市场与产品生态

1. 核心用户群体

典型用户

  • 企业客户:来自科技、教育、金融等行业,使用大语言模型来提高工作效率、增强客户服务和优化决策过程。

  • 个人用户:包括学生、作家、程序员等,使用大语言模型来辅助学习、创作内容和解决编程问题。

特征

  • 学历:高学历,本科及以上为主。

  • 年龄:主要集中在20-40岁之间。

  • 专业:涉及计算机科学、工程、金融、文学等多个领域。

  • 爱好:对新技术有浓厚兴趣,喜欢尝试和探索。

  • 收入:对于收入要求不高,但是核心是中等及以上收入、有较强的付费意愿的人群。

  • 表面需求:高效的内容创作工具、智能客服解决方案、编程辅助工具。

  • 潜在需求:个性化的用户体验、更高的准确性和可靠性、多模态处理能力。

2. 群体联系

大语言模型的用户群体之间存在一定的联系和相互作用。例如,企业客户可能会雇佣或与自由职业者(如作家、程序员)合作,以利用大语言模型提高产品和服务的质量。同时,个人用户通过使用大语言模型提升的技能和知识,也可能转化为企业环境中的竞争优势。

3. 产品联系

由于部分产品之间存在互补关系,例如百度的文心一言大模型可以集成到百度智能云服务中,为企业提供包括智能写作、对话系统等在内的多种智能服务。因此可以通过以下方式(部分)构成产品生态:

  • 技术互补:集成不同专长的模型,提供全面的服务。

  • 数据共享:模型间共享数据,提升整体性能。

  • 应用层扩展:基于大模型开发多样化的应用产品。

  • 跨模态能力:结合处理不同类型数据的模型,创造丰富的用户体验。

  • 开放API:鼓励开发者基于模型创建新应用,扩展生态系统。

(四) 产品规划

1. 功能拓展及NABCD模型

  • 新功能名称: 个性化学习路径推荐(基于文心一言优秀的自然语言处理技术和算法想要增设的内容)

    1. 智能推荐:用户可以输入自己的学习目标、兴趣领域和当前的知识水平,智能大语言模型将根据这些信息,推荐最适合的学习资源、课程和练习。

    2. 生成学习路线:包括每个阶段的学习目标、推荐的学习资源和建议的学习时间。

    3. 跟踪学习和动态调整:跟踪用户的学习进度,提供实时反馈和建议,帮助用户调整学习计划,并根据用户的学习进展和反馈,动态调整学习路径,确保学习计划始终符合用户的需求。

    4. 社区交流:设计社区交流模块,实现社区中用户之间的学习经验等的交流学习。

  • NABCD模型:

    Need 需求

    1. 用户需求:现代社会,许多人在学习过程中面临不知道从哪里开始、如何规划学习路径的问题。用户需要一个工具来帮助他们根据自己的学习目标、兴趣和当前水平,生成个性化的学习路径,从而更高效地达成学习目标。
    2. 市场缺口:现有的学习平台虽然提供了大量学习资源,但缺乏个性化的推荐和指导,导致学习效率低下,并且市场上并没有很成熟的实现个性化学习路径推荐的智能大语言模型。

    Approach 做法

    1. 技术实现:采用先进的机器学习算法和自然语言处理技术,结合用户信息和行为数据,构建个性化的学习推荐系统。
    2. 用户体验:界面简洁,设计相应的响应式设计,让用的使用更加轻松。
    3. 道德规范/安全性:保障用户隐私,准确识别风险信息与偏见,辨识知识环境及提高模型鲁棒性。

    Benefit 好处

    1. 个性化:通过个性化学习路径推荐,用户可以获得定制化的学习计划,提高学习效率和满意度。
    2. 更满意:个性化的学习路径和动态调整将使学习过程更加有趣和有意义,提高用户的满意度和忠诚度。
    3. 更高效:用户可以根据自己的实际情况,随时调整学习路径,确保学习计划始终符合自己的需求,从而更高效地达成学习目标。
    4. 社区互动:建立学习社区,鼓励用户分享学习心得和经验,促进用户之间的交流与互助,形成良好的学习氛围。

    Competitors 竞争

    竞争对手:

    1. 提供类似功能学习平台,如Coursera、b站,菜鸟等。
    2. 能力相近的智能大语言模型,如kimi、讯飞星火等。

    我方优势:

    1. 类似的课程学习平台缺乏相应的个性化定制功能。
    2. 基于强大的自然语言处理能力和深度学习算法,能够提供更加精准、个性化的学习推荐,以及更为灵活的学习路径调整方案。

    我方劣势:作为一个新创造的功能,市场知名度以及行业合作度都相对落后。

    Delivery 推广:

    1. 社交媒体广告:在小红书、微博、抖音、b站等社交平台发推广博文,邀请测评大神、粉丝基数大的相关领域博主等推荐,吸引关注该领域的用户使用功能。
    2. 影响者营销:与人工智能领域的意见领袖和网红合作,并且邀请他们宣传我们的平台。
    3. 搜索引擎营销(SEM):利用百度推广等搜索引擎营销工具,针对相关关键词进行广告投放,提高可见度。
    4. 合作伙伴计划:寻找教育机构、学校等合作伙伴,共同推广我们的个性化学习路径推荐服务,拓宽用户来源渠道。

2. 角色分布

  • 产品经理(本人):负责整体项目管理,协调资源,确保按时交付。

  • UI设计师(1人):负责多媒体交互界面的设计与优化,以及个性化推荐功能的可视化展示设计。

  • 前端开发工程师(2人):负责用户界面的设计与开发,保证新功能与原有界面无缝融合,并且优化交互提升用户体验。

  • 后端开发工程师(2人):负责大语言模型接口对接,api服务和数据库的开发。

  • 机器学习工程师(1人):负责负责AI模型的算法开发和训练。

  • 测试工程师(1人,由产品经理担任):全程参与测试计划制定、功能验证、性能测试以及上线前的压力测试。

3. 周期规划

周数活动备注
1-2需求分析和规划确定项目目标和需求,初步设计文档编写
3-4系统设计设计系统架构和数据模型,确定个性化学习路径推荐功能的具体实现方案
5技术选型和环境搭建选择技术栈和开发工具,搭建开发环境
6原型设计设计UI/UX及其交互效果
7-13前、后端开发以及机器学习模型开发和训练实现前端界面;开发API服务和数据库;训练和调优AI模型,优化个性化学习路径推荐功能的资源推荐、动态调整等功能
14-16集成和测试集成各部分并进行全面测试
16部署和优化部署应用并进行性能优化
...全文
189 回复 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

109

社区成员

发帖
与我相关
我的任务
社区描述
202401_CS_SE_FZU
软件工程 高校
社区管理员
  • FZU_SE_TeacherL
  • 言1837
  • 防震水泥
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧