软件工程实践——软件评测作业

222100404余诗怡 2024-04-16 21:36:39

这个作业属于哪个课程	2302软件工程
这个作业要求在哪里	软件工程实践——软件评测作业
这个作业的目标	测评软件
其他参考文献	《构建之法》

第一部分调研，评测
（一）文心一言
1. 使用过程
1.1 介绍
1.2 优缺点分析、改进建议
（1）对话
（2）百宝箱
（3）使用指南
1.3 用户采访
2. BUG
2.1 BUG发生时的测试环境
2.2 BUG量化指标
2.3 BUG描述
3. 结论
3.1 定性结论
3.2 定量结论
（二） Kimi
1. 体验
1.1 介绍
1.2 优缺点分析及改进建议
1.3 用户采访
2. BUG
2.1 BUG发生时的测试环境
2.2 BUG量化指标
2.3 BUG详情
3. 结论
3.1 定性结论
3.2 定量结论
第二部分分析
2.1 开发时间预估
2.2 同类软件对比排名
2.3 软件工程方面的建议
2.4 BUG分析
第三部分建议和规划
3.1 市场概况
3.1.1 市场规模
3.1.2 直接用户
3.1.3 潜在用户
3.2 市场现状
3.2.1 目前市场上的产品
3.2.2 产品的定位、优劣
3.2.3 产品间的关系
3.2.4 领域所处阶段
3.3 市场与产品生态
3.4 产品规划

第一部分调研，评测

（一）文心一言

1. 使用过程

1.1 介绍

文心一言是百度研发的人工智能大语言模型产品，能够通过上一句话，预测生成下一段话。任何人都可以通过输入【指令】和文心一言进行对话互动、提出问题或要求。文心一言由文心大模型驱动，具备理解、生成、逻辑、记忆四大基础能力。本次测试我将测试文心大模型3.5部分。

文心一言的界面如上，最左侧为它的菜单栏，具有对话，百宝箱,使用指南三个部分。接下来我将分为这三个部分进行说明。

1.2 优缺点分析、改进建议

（1）对话

在对话界面，左侧为新建对话和历史记录查看区域，右侧为对话显示区域，用户可以用它提供的一些例子直接开始体验，也可以在下面的文本输入区域自定义问题。

在界面底部的文本输入框输入需要文心一言回答的问题，点击发送按钮等待文心一言回答问题，在左侧的历史记录可以查看之前的对话，进入之前对话的界面可继续上一次的问答。还可以选择插件拓展文心一言的功能，或者上传图片和文档让文心一言理解。

优点
- 界面设计简洁美观，操作上手容易，对用户没有很高的技术要求。
- 给刚开始体验产品的用户举了一些案例，可以快速开始进行产品体验。并且这些案例基本覆盖了文心一言的所有功能，让用户对文心一言可以充分了解。
- 显示历史记录方便用户查找之前的对话记录，继续对话。
- 在回答完一次对话后，底部会出现此问题的其他衍生问题，可以方便用户，减少用户输入问题的时间。并且在回复的底部可以直接复制文心一言的回答。
缺点
- 因为对话显示部分在同一个区域，不能同时打开两个对话进行查看，用户如果在对话过程中想查看之前的对话就会把目前的对话关闭。这对于想要查看先前的某些对话但又不想终止目前的对话的用户使用上有很大的不便。
- 如果在某个对话进行了多次的问答，对话记录就会很长，用户想寻找这个对话中之前的某一个回答就会花费很多时间。
改进建议
- 可以通过修改点击历史记录的打开逻辑，改为在新的标签页打开，或者在对话进行部分新打开一个对话框展示
- 在同一个对话进行过程中，用户每次问的问题都提取关键词在右侧显示，点击关键词跳转相应位置。

（2）百宝箱

百宝箱主要是文心一言设定好的一些指令，可以点击直接使用。在百宝箱界面的上方有四个板块：精选、场景、职业、我的收藏。
在精选界面，有五个部分：今日热门、近期的热点、提效max、AI画图、最近更新。
在场景界面，文心一言根据不同的使用场景设定了一些指令模板，可直接使用。
在职业界面，文心一言根据不同的用户身份设定指令模板。
在 我的收藏界面，显示了用户收藏的百宝箱中的指令。

优点
- 丰富的指令模板增加了网站的趣味性
- 通过不同的使用场景，使用人群设置指令模板，方便了用户的使用
- 展现多种指令模板也可以方便用户学习指令的编写
缺点
- 场景和职业板块的tag排序是固定的，用户无法自定义排序，tag数量过多时会导致有需求的用户查找效率低下

精选版块的今日热门部分没有显示排序的逻辑，比如使用量，收藏量等，用户无法查看准确的热门内容。

改进建议
- 场景和职业板块的tag增加让用户自定义tag的排序，方便用户查找
- 精选的今日热门可以增加下拉框让用户自行选择是按使用量排序还是按照收藏量排序

（3）使用指南

使用指南界面的左侧部分为使用指南的目录，右侧是每个文档的小目录，点击小目录可跳转。

优点
- 方便新用户学习文心一言的指令创建
- 指南由易到难，有很多案例，适合不同程度的用户学习
缺点
- 指南中每日一分钟学习部分在第二章比较后面部分难以发现，且长度较长。
改进建议
- 每日一分钟学习部分可以单独写出一个单元标题放在左侧菜单栏。
1.3 用户采访
采访对象：软件工程专业陈同学，对类似的大语言模型产品有一定的了解，并且曾使用过同类产品。
采访对象需求；方便资料的检索，提高学习课外知识的效率。
采访对象使用栏目：文心一言的对话功能和AI作图功能
采访过程：

2. BUG

2.1 BUG发生时的测试环境

操作系统版本：22631.3447
计算机版本：Windows 11 家庭中文版
浏览器：FireFox
浏览器版本：124.0.2 (64 位)
2.2 BUG量化指标

严重程度	说明
★★★★★	致命性系统故障，严重影响网站运行，用户体验极差
★★★★	严重系统故障，影响网站大多数功能运行，用户体验不佳
★★★	普通系统故障，影响网站的某些功能运行，对用户体验造成影响
★★	轻微系统故障，几乎不影响网站运行，轻微影响用户体验
★	建议性问题，不影响网站运行，几乎不影响用户体验

2.3 BUG描述

（1）AI作图的理解问题
在测试文心一言的AI作图时发现它的模型理解能力存在着很大的问题，生成的结果可能与要求完全不一样。

BUG的可复现性：根据我的多次测试，此BUG为经常发生的BUG，BUG发生的频率主要取决于用户对问题的描述。
BUG的复现步骤：向文心一言提问，要求其生成一幅图片或者照片，并描述图片的要求。

在以上的测试用例中，文心一言生成的图片都与我提出的要求在细节上不相符。并且它还不具有在之前生成的图片上做出修改的能力，只能重新生成新的图片。

BUG的可能成因：由于文心一言的模型训练还不是很完善，我认为这应该是文心一言的模型还不能完全理解指令的要求导致的。
BUG的严重性：★★★
- 系统功能：对用户指令的理解问题导致AI作图这项功能可能无法生成用户需要的图片。
- 安全性：不涉及到网站和用户的信息安全问题。
- 用户体验：不能满足用户需求，严重影响用户体验。
BUG的预期和改进建议：
根据之前的分析，这个bug的产生可能是ai模型训练的不够，因此要消除这个bug可能要进一步提升算法对用户提出指令的理解能力。

（2）使用指南目录跳转存在问题

查看使用指南时，发现1.2.1和1.2.2部分的目录点击光标没有正确跳转。

BUG的可复现性：经过多次的点击，发现这是必然发生的bug。
BUG的复现步骤：点击1.2.2的目标标题，光标都会显示在1.2.1处，再次点击1.2.2，光标才会移到1.2.2处。
BUG的可能成因：1.2.1部分太短，导致页面判断还停留在1.2.1。
BUG的严重性：★
- 系统功能：不影响系统主要功能。
- 安全性：不影响系统安全。
- 用户体验：稍微影响到页面的显示。
BUG的预期和改进建议：
重新检查调整目录的跳转即可解决。
3. 结论

3.1 定性结论
c）一般。对于只是想要浅层体验大语言模型功能的用户来说，文心一言足以满足需要，但如果是高强度使用人工智能并且对回答的准确度有一定的要求的用户，文心一言还需要更加精进。
3.2 定量结论
评分细则：满分 10 分，良好 8 分，及格 6 分，差劲1分
类别评分
界面样式 8
产品功能 7
回答质量 6
回答速度 6
用户体验 7

类别	评分
界面样式	8
产品功能	7
回答质量	6
回答速度	6
用户体验	7

（二） Kimi

1. 体验

1.1 介绍

Kimi是一款由月之暗面科技有限公司开发的人工智能助手，能够解析和回应用户上传的文件内容，访问互联网信息，并结合这些资源来回答问题。

kimi的初始界面如上，左上角的按钮可查看历史会话记录，中间的搜索框可选择是否联网和上传文件。下方的例子简要介绍了kimi的用处以及优势。接下来我将主要使用kimi的会话功能进行测试。

1.2 优缺点分析及改进建议

左上角按钮可查看历史会话和创建新会话，下方搜索框提问，可选择是否联网和上传文件，上方可对此次会话进行命名。

优点
- 界面设计简洁美观，只有用户提问以及模型的回答。
- 联网询问问题时会提供模型查找到的网址依据，并在回答中做出标记，方便用户进行比对。

可同时上传多个文件，进行大量文本阅读的工作。

缺点
- 查看历史会话会打开新的界面，而不是直接在左侧显示，用户不能边提问边查看之前的会话记录，可能对某些用户群体比较麻烦。
- kimi目前的功能只有问答，对于其他同类型的产品，功能不够充足。
改进建议
- 会话主题可以调用AI自动判断会话的主题生成
- 历史对话记录可以使用抽屉的样式，由用户自行选择要不要在会话页面显示。
1.3 用户采访
采访对象：跟文心一言采访对象相同
采访对象需求；方便资料的检索，提高学习课外知识的效率。
采访对象使用栏目：kimi的会话功能
采访过程：

2. BUG

2.1 BUG发生时的测试环境

操作系统版本：22631.3447
计算机版本：Windows 11 家庭中文版
浏览器：FireFox
浏览器版本：124.0.2 (64 位)

2.2 BUG量化指标

严重程度	说明
★★★★★	致命性系统故障，严重影响网站运行，用户体验极差
★★★★	严重系统故障，影响网站大多数功能运行，用户体验不佳
★★★	普通系统故障，影响网站的某些功能运行，对用户体验造成影响
★★	轻微系统故障，几乎不影响网站运行，轻微影响用户体验
★	建议性问题，不影响网站运行，几乎不影响用户体验

2.3 BUG详情

（1）上传文件和发送网址后就无法再联网回答

在跟kimi进行会话时，只要上传了网址或者文件要求进行处理时，就会转为本地会话模式，且无法重新联网。严格意义上来说，这不算是错误性bug，但是在用户体验方面会造成一定的影响。

BUG的可复现性：属于必然发生的bug
BUG的复现步骤：向kimi发送文件或者网址，联网功能就会自动关闭。
BUG的可能成因：网站功能开发还未完善，技术还不成熟。
BUG的严重性：★★
- 系统功能：联网功能无法再开启
- 安全性：不影响网站安全
- 用户体验：影响用户会话体验
BUG的预期和改进建议：
提升模型能力和技术，确保用户自定义开启联网不会出现问题

（2）计算逻辑问题有误

要求kimi进行大型数字计算问题时，可能出现计算错误的问题，如上图，实际上987654321/3500000=282.186949

BUG的可复现性：属于偶然发生的bug
BUG的复现步骤：要求kimi计算一些大型数字计算

正确结果应为：9.8277148

正确结果应为：6626.44329

BUG的可能成因：模型逻辑处理能力还不够好
BUG的严重性：★★★
- 系统功能：模型计算能力错误
- 安全性：不影响网站安全
- 用户体验：影响用户解决某些数学问题
BUG的预期和改进建议：
增加对模型的训练，提高计算能力
3. 结论

3.1 定性结论
c）一般。经过体验，kimi的优势主要在于它的文本阅读量远超出市面上的同类产品可支持200万字输入，以及它的问题回答响应速度也比其他产品快很多也能支持上传多文件。但它的缺点在于，目前的模型功能还不够丰富，比如它不能提供AI生成图片等功能。目前的功能比较适合需要处理大量文字的用户。
3.2 定量结论
评分细则：满分 10 分，良好 8 分，及格 6 分，差劲1分
类别评分
界面样式 8
产品功能 6
回答质量 6
回答速度 8
用户体验 5

类别	评分
界面样式	8
产品功能	6
回答质量	6
回答速度	8
用户体验	5

第二部分分析

2.1 开发时间预估

使用完文心一言和kimi两款产品后，我认为一个6个人左右的刚毕业计算机大学生团队在专业UI支持下，开发出类似的人工智能模型产品大概需要一年左右的时间。

2.2 同类软件对比排名

根据第一部分的定量评价表，我将从以下5个方面对文心一言和kimi进行对比。

界面样式：文心一言和kimi的界面样式都是简约风格的，由于文心一言的功能较多，它的界面布置也比kimi丰富得多，而kimi相对与文心一言界面布局更偏向于极简化一些。两款产品在界面样式来看文心一言略强于kimi。
产品功能：产品功能方面，文心一言可支持AI作图和图表分析，选择插件拓展，而kimi目前只能进行会话，文心一言的功能比kimi来的丰富。但kimi可以支持超长文本输入和多文件上传分析，在这一方面强于文心一言。综合来看我认为文心一言强于kimi。
回答质量：在进行计算问题测试时，kimi的模型经常会出现计算结果不正确的问题，而文心一言好很多，单就文字对话方面来看，文心一言的回答质量强于kimi。
回答速度：文心一言回答用户指令是以几个词几个词生成的模式生成回答，而kimi的问答生成流畅很多，在回答速度方面kimi强于文心一言。
用户体验：在文心一言的界面有使用指南的模板，适合面向第一次体验AI产品的普通大众，而kimi没有相应的指导，并且文心一言的侧边栏可直接反馈使用过程中遇到的问题，kimi则没有这一功能。

综上五个方面，我认为文心一言强于kimi。

2.3 软件工程方面的建议
综合测试过程中的各种问题，我认为这个软件开发团队在项目刚开始进行阶段，应该做好用户需求分析，了解这个产品的主要面向对象，是想轻度体验人工智能的普通大众，还是对产品功能有一定要求的专业人士。并且在模型测试的阶段要多进行几轮测试，持续训练人工智能模型，提高模型质量。
2.4 BUG分析
测试把关不严，敷衍了事，没有注意在特殊的配置或环境下测试
如上面测试的kimi的计算出错问题，这个bug应该是在进行模型测试时，并未测试此方面导致模型回答质量不高。
技术方面不成熟
如上面的文心一言AI作图理解出错，和kimi上传文件后无法再联网的问题，可能就是模型技术方面还不够成熟。
第三部分建议和规划

3.1 市场概况

3.1.1 市场规模
目前AI市场正在迅速扩张，各类人工智能语言模型相继出现。据统计，2021年，对话式AI的市场规模为45亿元，带动规模126亿元。预计2026年，对话式AI的市场规模将达到108亿元，带动规模超385亿元。
3.1.2 直接用户
人工智能语言产品的直接用户主要包括企业、个人用户以及政府机构等。企业用户主要利用人工智能语言产品进行客户服务、数据分析等工作，以提高工作效率和客户满意度。个人用户则主要利用这些产品进行语言学习、信息获取和娱乐等。政府机构则通过人工智能语言产品提高政务服务水平，实现智能化管理。
3.1.3 潜在用户
AI技术的潜在用户更为广泛，任何群体都有可能是此类产品的潜在用户。
3.2 市场现状

3.2.1 目前市场上的产品
市场上目前主要的大语言模型产品包括OpenAI的ChatGPT和百度的文心一言、月之暗面的Kimi、阿里的通义千问等。
3.2.2 产品的定位、优劣
ChatGPT
- 定位：主要用于对话系统和交互式聊天应用
- 优势：
  - 强大的语言理解和生成能力，能够进行复杂的对话和文本创作
  - 持续的模型更新和优化，保持技术领先
  - 模型可以通过不断的训练和更新，增强其对话质量和对话能力
- 劣势：
  - 得到的信息可能存在编造性错误
  - 安全性和隐私问题需要进一步关注和改进
文心一言
- 定位：中文语境下的大语言模型，为用户提供精准、高效的中文语言服务
- 优势：
  - 针对中文内容的深度优化，更符合中文用户的阅读和交流习惯
  - 相对于ChatGPT的部分功能能免费体验，如AI作图，生成表格
  - 可以与百度的其他服务整合
- 劣势：
  - 国际化程度较低，可能在非中文语境下的效果不如ChatGPT。
  - 模型的人性化和逻辑性方面还需提升
Kimi
- 定位：Kimi是由月之暗面科技有限公司开发的人工智能助手，可支持200万字上下文输入
- 优势：
  - 遵守严格的安全和隐私标准，拒绝回答可能涉及敏感内容的问题
  - 结合搜索能力，能够提供丰富的信息和知识
- 劣势：
  - 作为新兴产品，用户基础和知名度可能不如市场上的成熟产品

3.2.3 产品间的关系

ChatGPT、文心一言和Kimi都是基于大型语言模型的人工智能产品，它们之间的关系主要是竞品关系。这些产品各自由不同的公司开发，但提供的服务目的大致相同。

竞争态势：
- ChatGPT：由于其先发优势和技术实力，在全球范围内获得了广泛的关注和应用。
- 文心一言：专注于中文市场，利用百度在自然语言处理领域的深耕和积累，以及对中国市场的深刻理解，提供了更加本地化的服务。
- Kimi：作为市场上的新兴产品，则以其长文本处理能力作为特色，提供流畅的中英文对话、联网搜索、编写代码等功能。

3.2.4 领域所处阶段

大语言模型领域目前正处于快速成长的风口阶段，随着技术的不断进步和应用场景的拓展，市场规模持续扩大。

3.3 市场与产品生态

产品核心用户群：技术开发者和数据科学家、企业和商业客户、高校学生等
用户群体间的关系与用户生态：开发者借助大语言模型开发产品给其他用户群体，其他用户群体再给开发者反馈提升大语言模型的质量，存在利用这种相互作用来构建特定用户生态的可能性。
产品和子产品间的关系：大语言主模型可以提供基础的语言理解和生成能力，而子产品则根据特定行业或应用场景进行优化和特化，如教育行业可以打造帮助学生解决问题的大语言模型，金融行业为金融服务设计的风险评估工具等。产品之间可以构成产品生态。

3.4 产品规划

新功能设计：以kimi为例，我建议在kimi当前的基础上设计一个用户个性化推荐系统，可以根据用户之前提问的信息推断出用户接下来可能要询问的问题，增强用户的交互体验。
为何要做这个功能：
- 用户需求：用户期望获得更加个性化和贴心的服务体验。
- 竞争优势：通过深入理解用户情境，Kimi可以提供与众不同的服务，从而在竞争中脱颖而出。
用户为何使用：
- 用户会使用这项功能，因为它能够提供更加相关和符合用户需求的信息，相比于其他产品更能帮助用户节省时间并提高决策效率。
创新点：
- 通过深度学习算法，更准确地理解用户问题的深层含义，而不仅仅是关键词匹配。
- 个性化学习：系统会随着用户使用的时间增长而不断学习和适应，提供更加个性化的服务。
NABCD分析：
- Need（需求）：用户对于个性化相关服务的需求日益增长。
- Approach（方法）：通过分析用户上下文信息提供定制化服务。
- Benefit（好处）：用户可以获得更加贴心和高效的服务体验，提高满意度和使用频率。
- Competition（竞争）：与市场上现有的决策支持工具相比，提供更加个性化和满足顾客需要的解决方案。
- Delivery（交付）：与现有产品相比，提供更加深入的个性化服务和更高的用户粘性。

团队配置与详细规划：

团队配置：
- 2名后端开发人员：负责新功能的后端开发和数据集成
- 1名机器学习工程师：复制设计新功能的算法相关问题
- 1名前端开发人员：设计直观的用户界面，确保用户体验。
- 1名测试人员：确保软件质量，执行详细的测试计划
- 1名项目经理：监督项目进度，确保资源合理分配和项目按时完成

16周详细规划

时间	计划	任务
Week 1-2	项目启动和需求分析	确定项目目标和范围。
		分配任务和资源。
		完成初步的需求分析和市场调研。
Week 3-4	技术选型和原型设计	确定技术栈和开发工具。
Week 3-4	技术选型和原型设计	完成原型设计和用户体验流程图。
Week 5-6	数据收集与模型开发	收集和处理用户数据。
Week 5-6	数据收集与模型开发	开发初步的推荐算法和情境感知模型。
Week 7-8	后端和前端开发	开发后端逻辑和数据库接口。
Week 7-8	后端和前端开发	设计并实现前端界面和用户交互。
Week 9-10	功能集成和测试	集成推荐系统到Kimi平台。
Week 9-10	功能集成和测试	进行初步的功能测试和用户体验测试。
Week 11-12	算法优化和迭代	根据测试反馈优化推荐算法。
Week 11-12	算法优化和迭代	调整用户界面和交互设计。
Week 13-14	性能测试和市场准备	进行性能测试和压力测试。
Week 13-14	性能测试和市场准备	准备市场推广材料和发布计划。
Week 15-16	产品发布和后续支持	正式发布新功能。
		监控产品性能和用户反馈。
		制定后续的维护和升级计划。