软件工程实践——软件评测作业

222100235熊铃锋 2024-04-16 18:39:02

这个作业属于哪个课程	2302软件工程社区
这个作业要求在哪里	软件工程实践——软件评测作业
这个作业的目标	对两个网站进行调研评测，撰写评测博客
其他参考文献	《构建之法》

第一部分调研，评测
1.1 Bug评级量化标准
1.2 文心一言评测
1.2.1 软件介绍
1.2.2 使用过程
1.2.3 优缺点分析
1.2.4 改进意见
1.2.5 采访用户
1.2.6 Bug1
1.2.7 Bug2
1.2.8 结论
1.3 Kimi.ai
1.3.1 软件介绍
1.3.2 使用过程
1.3.3 优缺点分析
1.3.4 改进意见
1.3.5 采访用户
1.3.6 Bug1
1.3.7 结论
第二部分分析
2.1 开发时间估计
2.2 同类产品对比排名
2.3 软件工程方面的建议
2.4 Bug存在的原因分析
第三部分建议和规划
3.1 市场概况
3.2 用户群体
3.3 市场现状
3.3.1 市场同类产品
3.3.2 产品的定位和优劣势
3.3.3 产品间的关系和竞争态势
3.3.4 该领域所处阶段
3.4 市场与产品生态
3.4.1 核心用户群
3.4.2 核心用户群体特征
3.4.3 用户群体之间的关系
3.4.4 产品间的关系
3.5 产品规划
3.5.1 新功能描述
3.5.2 配置角色才能
3.5.3 详细规划

第一部分调研，评测

1.1 Bug评级量化标准

星级	说明
★	不影响系统功能、性能或安全，主要为界面美化、文字显示等非功能性问题，对用户体验的影响轻微
★★	非主要功能的问题，对软件性能产生的影响较小、对安全不会造成影响、对用户体验影响较小。
★★★	主要功能产生问题，造成软件性能下降，对安全造成较小影响。
★★★★	关键功能产生问题，造成软件性能显著下降、对软件安全造成中等影响，对用户体验造成中等影响。
★★★★★	致命性系统故障、致命性安全性漏洞、用户体验严重影响。

1.2 文心一言评测

1.2.1 软件介绍

文心一言是百度全新一代知识增强大语言模型，文心大模型家族的新成员，能够与人对话互动、
回答问题、协助创作，高效便捷地帮助人们获取信息、知识和灵感。文心一言从数万亿数据和数千亿知识中融合学习，得到预训练大模型，
在此基础上采用有监督精调、人类反馈强化学习、提示等技术，具备知识增强、检索增强和对话增强的技术优势。

文心一言可以输入问题获取语言大模型的解答，用户可以选择要使用的语言大模型，提出问题后也能列出已提出的问题，帮助用户检索。

除了问题解答功能之外，文心一言也提供了百宝箱界面，在这之中提供了许多丰富的功能，比如文本生成、文字润色、AI画图等功能。

整个界面还是很清晰的

并且，文心一言也提供使用指南，帮助用户使用，用户可以查看文心一言介绍、指令以及进阶使用方法。

1.2.2 使用过程

因为我是有百度账号的，因此我不用再次注册账号，而是直接使用本人账号了。登录后，可以使用文心一言进行文章的信息查询、数据分析、问题解答等等。

在使用之前，文心一言左上角可以选择要使用的语言大模型，有4.0可选，但是因为我没有会员，只能使用文心大模型3.5 悲伤
左上角还有新建文心大模型，这是用来新建对话的，但是刚进入界面就已自动新建了对话，这还是很方便用户的。

在右下角，输入问题就可以进行对话了。我试了好几个问题，甚至百度贴吧中弱智吧的问题也能很好地解答。~~直接出院！！！~~

文心一言不单单能进行文字创作和问题解答，它还能根据用户选择的插件来解锁不同的功能。
我可以在插件商城中选择说图解画插件，这样可以对图片进行解析。

使用插件

插件商城：插件商城中有着许多插件供用户使用

在选择说图解画插件后，我输入图片进行使用，可以看到文心一言对图片进行了解析，基本正确并对用户的提问进行预测引导，功能还是很强大的。

1.2.3 优缺点分析

优点

1.功能丰富：文心一言不单单能进行纯文字工作，在安装插件后还可以解锁新功能，并且在百宝箱中我们可以看到文心一言提供了多种服务，如：
AI作画、文章续写、代码解答等。

2.易用性：用户界面简洁美观，降低了用户的学习成本，使得用户可以轻松上手使用。

3.高效率：处理信息的效率高，响应快，能够快速处理问题，方便用户使用，提升用户使用体验。

4.生态体验良好：文心一言是百度公司旗下产品，所以只要拥有百度账号就可以登录所有的百度产品，方便用户操作，生态体验良好。

缺点

1.局限性：大语言模型仍然存在局限性，在理解复杂情感和语境方面还存在一定的局限性。
这可能导致在某些情况下，文心一言对于指令的理解出现偏差甚至错误。

2.多语言不支持：文心一言界面无法修改语言设置，对于其他语言用户的支持不足。

3.功能限制：文心一言提供了多种功能，但可能无法覆盖所有专业领域或特殊需求，有一定的局限性。

4.交互方式较局限：使用文心一言，只能输入纯文本或者图片，交互方式较局限。

1.2.4 改进意见

1.支持多语言切换：优化用户界面，增加语言模式切换功能，方便用户切换。

2.丰富功能：扩展功能：不断更新和扩展文心一言的功能，支持其他插件开发者开发适配，以覆盖更多领域和需求。

3.提高准确性：不断对文心模型进行训练，提高文心一言模型对指令理解和操作的准确性。

1.2.5 采访用户

这次我们采访的用户是一位软件工程大三的同学，选择他采访的原因是他对于这类大语言模型比较熟悉，他使用过chatGPT，通义千问等大语言模型，
对它们比较熟悉，并且平时他经常使用这类大语言模型来完成作业，解答问题等，使用频繁。
需求：解答问题，分析代码。
使用的产品栏目：对话以及画图
遇到的问题和亮点：

在使用文心一言画图的时候，文心一言对于指令的不理解，得出错误的回答。

体验基础问答中，文心一言回答的速度还是很快的。
需要改进的地方：希望能加强训练文心一言模型，提高它回答的准确性。

这里是他体验的文心一言过程截图

1.2.6 Bug1

Bug:访问问题
测试环境：

操作系统: Windows 10 家庭中文版 22H2

浏览器: Microsoft Edge 版本 123.0.2420.97 (正式版本) (64 位)

Bug发现时间:2024/4/15
问题，如图：使用文心一言问题解答失败，连续几次都是这样。

产生原因：可能是访问人数太多导致网站压力过大导致。
严重性：★★

偶尔触发，出现无法访问的问题，有时需要等待几分钟才能使用。
复现性：偶尔复现。
改进建议：提升服务器带宽，优化网站代码提高网站承载力。

1.2.7 Bug2

Bug：文心一言进行文件解析时的问题
测试环境：

操作系统: Windows 10 家庭中文版 22H2

浏览器: Microsoft Edge 版本 123.0.2420.97 (正式版本) (64 位)

Bug发现时间:2024/4/15
问题：使用文心一言上传文档功能，如果我们上传一个文件解析为空的pdf文件：高数AB上1.2 数列的极限的课后作业.pdf(
实际上，该pdf并不是内容为空)
，文心一言会直接判定文件解析为空并提示报错“Block长度为0(5012)”，这是正确的。

该高数pdf：

高数AB上1.2 数列的极限的课后作业.pdf 95.37K

在文心一言判定文件解析为空后，该对话无法再次进行，之后的指定或者是再此上传文件会显示无法执行。

而这时用户就只能重新新建一个对话，才能使用文心一言。
但实际上，如果我们直接切换一下对话，再切换回来，那不能使用的对话则可以继续

产生原因：可能是不同对话的切换导致原来对话的结束，这样就可以再次进行对话了。
或者是输入错误文档导致对话没有正常关闭，切换后对话就强制结束了，这样才可以继续对话。
严重性：★★★

出现该问题，用户必须新建对话或者是切换对话才能继续使用。
复现性：若是输入文件解析为空的文档，则必定出现该问题，并且切换对话后，大概率能继续进行对话。
我进行了30次试验，包括选取不同的空文档，不同指令，该问题全部复现，但是切换后有时不能直接继续进行对话，需要多次尝试。

对Bug的预期：对于这个Bug，我觉得这个问题原来应该是用户输入错误的文件，文心一言应该提示输入文件的问题，
并且不应该影响用户下一个问题的对话进行，而不是需要用户新建对话或者是切换。并且，对于该高数pdf的解析出错是不应该的，
查看该pdf与其它可解析的pdf，并未发现高数pdf进行了安全限制，所以解析错误应该是文心一言的解析方式导致的。
改进建议：优化代码，解决Bug，应该要好好修改软件的操作逻辑，方便用户使用。修改文件解析代码，提高文件解析能力。

1.2.8 结论

好，不错，主要是文心一言对于用户的指令理解还是不太到位，时常会出现理解错误的情况。但是对于日常问题的解答、
文档解析方面还是很迅速快捷的，所以我还是比较推荐文心一言。

1.3 Kimi.ai

1.3.1 软件介绍

Kimi是由月之暗面科技有限公司开发的一款人工智能助手。
它擅长进行中文和英文的对话，能够为用户提供安全、有帮助和准确的回答。

用户可以通过该应用获取即时的信息回复，处理文本、PDF、Word文档等多种格式的文件，并享受便捷的搜索功能。
并且用户可以上传文件、提出问题并接收由Kimi生成的回复。

在网页端中央，用户可以在输入框中输入文字或者文件来于Kimi进行对话。下方则是一些对话引导。
整个界面十分简洁美观。

1.3.2 使用过程

要使用Kimi.ai需要登录注册，虽说登录使用很烦人，但是只需要使用手机并发送验证码就可以，操作还是很无感的，
并不会觉得十分繁琐。

登录后我们就可以进行对话了，输入问题进行对话。

进入对话界面后，左上角是查看历史会话和新建对话功能，下方就是我们的交互栏，可以输入问题和文件。
接下来我又提问了几个问题，甚至提交了导致文心一言出错的pdf文件。

输入高数pdf文件，Kimi成功解析并读取了该pdf，打败了文心一言！！！~~Kimi.ai恐怖如斯！！！~~

点击历史会话，可以查看历史对话，并且历史会话中保存了上传的文件，可以直接查看，这点比文心一言好。

1.3.3 优缺点分析

优点

1.功能丰富：Kimi.ai提供了多种服务功能，如问题解答、信息查询、文件阅读等，满足用户的不同需求。

2.简洁美观：界面设计简洁美观，方便用户使用。

3.高效率：处理信息的效率高，响应快，能够快速处理问题，提升用户使用体验。

4.多语言支持：支持中文和英文等多种语言，使得Kimi.ai能够服务于更广泛的用户群体。

缺点

1.准确性问题：智能助手的回答依赖于算法和数据，可能在某些情况下Kimi对于指令的理解出现偏差，导致结果出现错误。

2.交互方式局限：Kimi还无法进行识图工作，当图片未检测出文字会判定图片有误。

3.局限性：Kimi.ai提供了多种功能，但可能无法覆盖所有专业领域或特殊需求，有一定的局限性。

1.3.4 改进意见

1.丰富功能：扩展功能：不断更新和扩展Kimi.ai的功能以覆盖更多领域和需求。

2.提高准确性：不断对模型进行训练，提高文Kimi.ai模型对用户指令和操作理解的准确性。

3.扩展交互方式：增加识图、语音等交互方式，提高用户体验。

1.3.5 采访用户

这次我们采访的用户是另一位软件工程大三的同学，选择他采访的原因是他对于这类大语言模型不是很熟悉，可以作为初始用户来对Kimi.ai进行体验。
需求：解答问题，分析代码。
使用的产品栏目：对话以及识图
遇到的问题和亮点：

在使用Kimi.ai进行识图的时候，出现了文件上传失败和无法对无文字图进行识别的错误。
需要改进的地方：希望能修好识图功能，毕竟这还是很重要的。还需要优化界面。

1.3.6 Bug1

Bug:上传文件解析失败
测试环境：

操作系统: HarmonyOS 4.0.0.116

使用软件: Kimi 智能助手

Bug发现时间:2024/4/16
问题，如图：使用Kimi智能助手上传文件解析，上传ppt、word文件解析失败，但是多次进行尝试后，成功上传并解析成功。

产生原因：可能是在解析文件中解析意外终止导致的。
严重性：★★★

偶尔触发，上传文件无法解析，需要不断尝试才能解析成功，耗时大。
复现性：偶尔复现，进行30次的尝试，只有在使用软件开始时出现4次解析失败，之后再上传全部解析成功。
改进建议：改进代码，解决解析文件时意外终止的问题。

1.3.7 结论

非常推荐，比起文心一言，Kimi.ai响应更快，用户体验更好。问题主要是手机端的问题，比如手机端无法上传图片，
上传文件可能解析失败等，但总体而言，Kimi.ai还是很不错的，非常推荐。

第二部分分析

2.1 开发时间估计

开发文心一言或者是Kimi.ai可能需要1-2年的时间本来我的预估是在4-5年的时间才能完善。
开发这样的一个网站主要的困难在于大语言模型的开发，这需要经历研究与开发、迭代优化、
测试与评估、部署与维护等阶段，这个时间跨度可以从几个月到几年不等，耗费的时间还是很长的。有专业的UI支持能够帮助我们对大语言模型进行部署，
能够帮助我们缩短开发时间，但是大语言模型的开发还是占主要的。

软件名称	所需要的技术实现	开发时间估计
文心一言	用户登录、历史记录、上下文数据存储、接入大语言模型、实现插件功能、文件图片的上传功能	18个月
Kimi.ai	用户登录、历史记录、上下文数据存储、大语言模型的不断训练、文件图片的上传功能	19个月

2.2 同类产品对比排名

我选取了款同类网站/软件进行对比，它们是：文心一言、Kimi.ai、通义千问、讯飞星火。
我将从界面美观程度、交互体验、使用引导、回答的准确性、响应速度、功能数量几个方面来对这些产品进行评测。

评测项目	优秀 ★★★	及格 ★★	差 ★
界面美观程度	文心一言、Kimi.ai、通义千问、讯飞星火
交互体验	Kimi.ai、文心一言、通义千问、讯飞星火
功能数量	文心一言、讯飞星火	Kimi.ai、通义千问
响应速度	Kimi.ai、通义千问	讯飞星火	文心一言
使用引导	文心一言、讯飞星火	Kimi.ai、通义千问
回答的准确性	通义千问	kimi.ai、文心一言	讯飞星火

结论：通义千问 > 讯飞星火 = Kimi.ai > 文心一言
在评测过程中，文心一言响应时间太慢了，远不及其他三个。Kimi.ai的主要问题是它无法上传解析图片，上传图片若是没有检测出文字，则会直接判定为错误。
通义千问没有什么大问题，使用很流畅，响应速度也很快，知识在引导方面略有不足。讯飞星火主要的问题是它的大模型在回答问题时，答案不够准确，面对弱智吧的问题
无法正确识别出其中隐含的幽默成分。因此通讯千问的得分最高。

2.3 软件工程方面的建议

对于文心一言：提高大模型的响应速度，提高用户体验。
对于Kimi.ai：完善图片上传和解析图片的功能，对于用户来说，图片解析的功能还是很重要的。
对于通义千问：增加交互方式，提升用户的交互体验。
对于讯飞星火：加强训练大模型，提高语言大模型的能力。~~连弱智吧的问题都通过不了，这怎么行！~~

2.4 Bug存在的原因分析

文心一言的文件解析失败的原因可能是软件团队在测试的时候对于一些极端情况没有考虑到。
文心一言的另一个Bug(大量用户访问)，可能是因为软件团队在设计之初没有考虑到这么庞大的访问量，在设计之初考虑不足。
Kmi.ai的文件上传失败的Bug可能就是软件团队的测试不够用心，没有发现这个问题。

第三部分建议和规划

3.1 市场概况

在市场规模方面，随着人工智能技术的不断发展和普及，预计未来几年该市场将继续保持高速增长。
随着越来越多的企业和组织认识到自然语言处理技术的价值，大语言模型将会在内容创作、翻译服务、语音识别、人工智能等多个领域发挥重要的作用。

3.2 用户群体

直接用户：高校学生、文字|视频|图画内容创作者、企业用户等，现在的直接用户规模已达数百万。
潜在用户：特定行业人群如法律、金融等，现在各大电脑、手机制造商正抓紧为电脑、手机等设备内置大语言模型，方便用户使用，未来的用户规模将会达到数亿级别。

3.3 市场现状

3.3.1 市场同类产品

目前市场上存在多款生成式AI软件，如chatGPT，文心一言等。
文心一言：中文对话系统，专注于提供流畅的对话体验和准确的信息检索服务。
ChatGPT:美国人工智能研究实验室OpenAI新推出的一种人工智能技术驱动的自然语言处理工具。
通义千问：阿里云推出的一个超大规模的语言模型，能够理解用户的自然语言问题并提供相应的答案。
Kimi.ai：是月之暗面于推出的一款智能助手，主要应用场景为专业学术论文的翻译和理解、辅助分析法律问题、快速理解API开发文档等。

3.3.2 产品的定位和优劣势

文心一言：

定位：中文对话系统。
优势：专注于中文语境下的自然语言理解，适合中文用户。
劣势：响应速度过慢。
ChatGPT*:
定位：一款智能语言处理工具，可用于与用户进行自然语言交互。
优势：强大的自然语言处理能力，能够理解和生成自然对话。支持多种语言的对话应用。
劣势：在处理复杂对话中还存在着问题，在本地化方面存在困难。
通义千问*:
定位：一款中文智能问答系统。
优势：响应速度快，适用于中文用户。
劣势：在多种交互方式方面过于单一，功能数量难以达到一线水平。
Kimi.ai*:
定位：面向企业和个人用户的高端对话式AI产品。
优势：Kimi具备卓越的自然语言处理能力，能够深入理解用户的意图和需求，提供个性化的智能响应和解决方案。
劣势：Kimi无法上传图片进行解析，交互方式过少，定位较高，可能导致用户使用成本过高。

3.3.3 产品间的关系和竞争态势

中文智能AI产品之间存在一定的竞争关系，对于中文用户来说，他们间的竞争态势激烈。在这之中，ChatGPT主要的用户均为国际市场用户，
与国内的智能AI产品之间的关系虽为竞争，但是不激烈。

3.3.4 该领域所处阶段

这个领域正在处于发展阶段，随着深度学习、自然语言处理等技术的不断进步，AI语言模型的能力将会得到极大地提升。
它们不仅能够理解更加复杂的文本内容，还能够生成更加自然流畅的文本，与人类进行更加智能的交互，当前该领域产品的用户距离增长至饱和还有一段很长的时间，
各种新的AI语言模型层出不穷，搭配AI语言模型的产品不断推陈出新，这个领域正在蓬勃发展。

3.4 市场与产品生态

3.4.1 核心用户群

学生终身学习者，文字|图画|视频创作者等，软件工程师、数据科学家及开发者。

3.4.2 核心用户群体特征

学历：核心用户群可能主要为具有中等以上学历的人群，因为这样的用户更可能接受和使用智能AI产品。
年龄：年龄分布较广但主要为年轻和中年人群体为主。
专业：用户可能来自各种专业背景，但主要集中于技术、教育、商业等专业，甚至医学、法律等专业也会有他们的身影。他们的学习、工作等需要经常进行问题解答和
创作等。
爱好：核心用户的爱好多种多样，但普遍可能对科技、学习等方面更感兴趣。
收入：核心用户的收入应该是比较高的，愿意投资于提升工作效率和学习质量。
表面需求：问题解答、各种内容创作等。
潜在需求：提供个性化服务、无感交互、隐私保护等需求。

3.4.3 用户群体之间的关系

不同类型的用户可能会共同使用这类产品，如学生、专业人士、创作者等，他们之间可能存在交流和分享使用经验的可能性。
甚至一部分用户可能会参与到产品生态的构建中，比如参加文心一言、讯飞星火的插件开发。

3.4.4 产品间的关系

各种产品从开发到面向用户使用中，多多少少会受到其他相似产品的影响，比如增加功能、对大语言模型进行加强训练和规范等。
存在着利用各个产品特性之间的相互关系二次构成产品生态的可能性。

3.5 产品规划

3.5.1 新功能描述

NABCD分析	具体内容
N (Need 需求)	市场上的AI助手产品日益趋同，许多用户希望AI助手能够更加个性化，并且能够扩展交互方式
A (Approach 做法)	AI助手不仅要考虑用户的历史行为，还考虑当前上下文，同时根据用户的反馈实时调整推荐算法，以提供更准确的个性化体验。
B (Benefit 好处)	提升用户体验
C (Competitors 竞争)	市面上也有一些个性化的AI助手，比如ChatGPT，用户能够直接调教出一个个性化的AI助手
D (Delivery 推广)	我们可以通过发布广告，使用社交网站推广产品的方式进行推广

实时语音交互：用户可以通过语音与大语言模型进行实时对话，拓展交互方式。
个性化定制：用户可以定制自己的AI助手，通过文字输入等方式改变AI助手的性格、说话方式等，创造属于个人的AI助手。

3.5.2 配置角色才能

1名项目经理
1名前端开发工程师
1名后端开发工程师
1名数据工程师
1名设计美工
1名测试工程师

3.5.3 详细规划

周数	任务
1-3	项目经理：进行市场调研和市场需求分析，确定整体的项目规划和开发进度里程碑
4-5	项目经理：根据市场需求分析确定需要新加的功能模块测试工程师：可以编写测试用例前端和后端开发工程师及美工：设计用户界面和设计功能模块架构
6-7	后端开发工程师：开发所有功能模块前端开发工程师和美工：修改前端代码并优化数据工程师：确定数据的存储方式以及开发过程中的算法研究
8-9	测试工程师：对所有功能模块和前后端通信进行充分测试
10-11	后端开发工程师：接入个性化学习算法和大语言模型测试工程师：进行算法和模型的性能测试和验证
12-14	后端开发工程师、数据工程师、测试工程师：优化算法和模型进行最终验收测试，进行上线准备
15	发布上线，邀请用户体验并收集用户体验测试反馈，根据反馈调整优化
16	进行市场推广，上线平台，提高知名度，扩大用户量