软件工程实践——软件测评

222200225黄少洋 2024-10-14 14:21:07

这个作业属于哪个课程	2401_CS_SE_FZU
这个作业要求在哪里	软件工程实践——软件评测作业
这个作业的目标	1、对相关AI大模型软件进行使用和测评 2、进行软件分析 3、对相关产品市场进行调查，并规划
其他参考文献	《构建之法》《软件工程案例分析作业》

基本功能介绍和使用
当未登录时无法与AI进行交谈

登录以后界面眼花缭乱（扑面而来的铜臭味啊

我先试着进行日常对话，它还是很努力地在模仿人类的，但效果不咋地：

然后我利用文心一言进行资料的查询，发现它的信息获取能力及其有限，几乎并不具有时效性，并且会犯一些低级错误，我必须不断纠正它的错误，难以想象当一个真正需要进行资料查询的人使用文心一言后会获得哪些漏洞百出的资料：

接着我试着让它分析一篇论文，虽然文心一言可以处理文档，但速度较慢，回答几乎是一行一行卡出来的，9k字的论文需要花费快一分钟的时间才能完整生成总结的内容：

最后我决定尝试一下以文画图功能：

到此我再也无力体验这个模型了..
优点
1. 能够理解和生成自然语言文本，与用户进行流畅、自然的对话。
2. 可以解析复杂的句子结构，理解上下文，并生成有逻辑、连贯的回复。
3. 可以生成图片，还可以读取一些文件进行分析。
4. 百宝箱内有许多对应功能的模块，如AI画图、代码运用、小红书文案，可以有针对性地使用这些模块，提高效率。
缺点
1. 信息来源有限，当询问的内容追求时效性时，往往回答漏洞百出。
2. 处理长文本时速度较慢，效率低。（后来发现原来是要氪金）
3. 以文生图时，有时无法理解用户的需求，生成的图片有可能千奇百怪。
4. 界面太乱了，作为科技产品不够简洁。
意见
1. 优化界面，使其整洁美观。
2. 作为信息检索软件不够合格，信息检索的准确度有差，需要更强大的搜索引擎作背书。
3. 增强理解用户需求的能力。
用户采访
对于文心一言，我采访的是我的舍友：

1.2 BUG

操作系统：Windows 11 23H2 22631.4317
浏览器：Microsoft Edge129.0.2792.89 (正式版本) (64 位)、Google Chrome129.0.6668.90（正式版本）（64 位）
描述：当我把浏览器窗口逐渐压缩变窄，网页会自动改变布局。此时功能减少（只能上传图片无法上传其他类型的文件），并且“精选智能体”的图片全部无法显示，点击这些图片标志后进入内容页，其图片也无法正常显示，整个功能块令人毫无头绪。
可复现性：100%
可能发生的原因：在响应式设计中，为了保证页面加载速度和减少数据使用，某些图片资源可能被设计为在特定屏幕大小下才加载。同时，网页没有完全针对所有可能的屏幕尺寸进行彻底的测试和优化。这意味着在某些不常见的屏幕尺寸或设备上，可能会出现显示错误或功能缺失的问题。
严重性评价：重度（主要功能受到严重影响）

1.3 结论

于我而言，文心一言的体验非常差，几乎每一个问题它都不能给我满意的答案，这种产品居然就这么水灵灵地上市了，感觉唯一的作用就是缓解本人对未来人工智能统治地球的担忧。以前没使用过它，以后也不想再用它。
定性结论：b) 不推荐
定量结论：

	界面是否精简美观（20）	使用是否方便（20）	响应速度（30）	用户体验感（30）	总分（100）
文心一言	14	18	20	15	67

2. Kimi

2.1 体验

基本功能介绍和使用
当未登录时无法与AI进行交谈

登录后就可以直接进行对话，整体界面还是偏整洁的。
我先是进行日常对话交流，由于Kimi偏向文本处理，讲话挺没人味的，但我无所谓啦：

接着我试图进行资料搜集，十分高效，但回答内容会受限制：

我又选择进行社科话题讨论，可以看到kimi的回答内容具有偏向性，而且不够完整，不知道是不是因为话题原因：

最后我体验了Kimi对于文件的处理能力，喂它一篇八页的专业论文，可以看见他对较长文本的总结分析能力还是很强的：
优点
1. Kimi具有超强的长文本处理能力、高效的理解和处理能力，对于总结文件/网页内容、阅读大量报告，或者撰写一些不是特别强调创造性的内容（例如总结、报告、计划、信件等）
2. 支持网络搜索，且支持上传不同格式的文件，覆盖了日常需求。
3. Kimi的使用体验非常好，而且可访问性和响应速度方面也远远超过同类产品。
缺点
1. 不支持以文生图功能，仅能支持抽象的绘图步骤的描述，用途有限。
2. 信息来源有限，且话题内容有限制，回答具有一定的偏向性。
意见
1. 增加以文生图功能，拓宽用途。
2. 如果模型极度依赖于检索到的资料的话，需要改进一下资料获取的方式，降低回答内容的偏向性。
用户采访
一位计算机专业就读中、长期使用Kimi的朋友对Kimi的看法与评价如下：

总结就是还不能够深刻理解用户的需求。

2.2 BUG

操作系统：Windows 11 23H2 22631.4317
浏览器：Microsoft Edge129.0.2792.89 (正式版本) (64 位)

1. BUG1

描述：之前做作业发现Kimi可以生成UML类图以及对应代码，但是生成的UML类图的部分属性和操作的最后一个字母展示不全
可复现性：100%
可能发生的原因：AI的类图布局可能没有给每个单词预留足够的空间，导致文字超出了显示范围，又或者渲染工具本身存在排版上的问题。
严重性评价：轻度（用户体验受到轻微影响）

2. BUG2

描述：接上文，当我试图使用Kimi的图片分享功能分享类图对应的代码时，生成的分享图片总是展示类图，而不是代码，即只能默认分享类图。
可复现性：100%
可能发生的原因：因为kimi的回答总是默认先展示类图，因此可能是编写代码的猿没考虑充分，分享图片功能只考虑了默认情况，没考虑到使用者可能会切换查看代码再分享图片。
严重性评价：中度（系统部分功能失效）

2.3 结论

总之，Kimi在当前市场中具有明显的竞争优势，尤其是在多语言支持和大容量文本处理方面，因此，对于需要免费长文本阅读和多文档阅读做为知识库的问答助手，我十分推荐。然而，为了满足更广泛的市场需求并实现持续增长，Kimi需要不断优化和扩展其功能，同时加强用户自定义能力和交互体验。
定性结论：d) 好，不错
定量结论：

	界面是否精简美观	使用是否方便	响应速度	用户体验感	总分
Kimi	17	19	26	26	88

二、分析

1.开发时间估计

团队背景：人数6人左右，计算机大学毕业生，并有专业UI支持。

产品名称	需求分析	架构设计	模型训练	前后端设计与开发	测试优化	部署与维护	总开发时间（天）
文心一言	10	15	40	60	45	10	180
Kimi	15	15	50	60	45	15	200

2.同类产品对比排名

我使用过的ai模型如下：

考量指标	分值	ChatGPT	文心一言	Kimi
界面是否精简美观	20	20	14	17
使用是否方便	20	20	18	19
响应速度	30	26	20	26
用户体验感	30	27	15	26
总分	100	93	67	88

仅代表个人的排名：ChatGPT > Kimi > >文心一言

3.软件工程方面的建议

文心一言：优化UI界面，使其更加美观、简洁。
优化以文生图功能，使其能够更好地理解描述的文字，生成更加准确的图片。
Kimi：Kimi应加强对科学领域专业术语的学习和理解，确保能够准确解析和回答相关的专业问题。对于交互体验方面，继续优化界面设计，提升用户查询的便捷性

4.BUG存在的原因分析

文心一言和Kimi出现的Bug都是因为开发人员或测试流程未对基础功能进行充分验证，需要提升测试的覆盖范围和质量。

三、建议和规划

1.市场概况

市场规模
IDC数据显示，2023年中国大模型平台及相关应用市场规模达17.65亿元人民币。大语言模型的发展历程虽然只有短短六年的时间，但是发展速度相当惊人，迄今为止，国内外有超过百种大模型相继发布。随着人工智能技术的不断发展和普及，这类产品的市场潜力将会进一步得到释放。
用户概况
直接用户：科技公司、企业客户、教育和研究机构
潜在用户：由于ai大模型具备广泛的应用能力和场景适应性，它的潜在用户实际上可以覆盖社会生活的各个角落，如借助ai解答学术疑问、辅助学习复杂知识点的学生、运用模型进行灵感激发、文章大纲生成或部分文字内容创作的内容创作者等。想要只要有自然语言处理需求的场景，都可能是其潜在的用户群体，所以潜在用户数量是极其大的。

2.市场现状

产品种类
市场上主要的代表性产品包括百度的“文心一言”、阿里巴巴的“通义千问”、华为的“盘古”、科大讯飞的“星火”、OpenAI的“ChatGPT”以及月之暗面的“Kimi”等。
产品定位以及优势与劣势

产品名称	定位	优势	劣势
百度文心一言	面向企业级应用和个人用户的智能写作和对话生成工具	强大的中文理解和生成能力，适应性广泛，涵盖多种行业	处理特定领域知识时可能不如专门模型准确
阿里巴巴通义千问	提供商业解决方案和客户服务支持	与阿里云生态系统紧密集成，便于企业使用	相对较少的开源或社区支持
华为盘古	面向工业和技术研发领域	强大的算力支持，适合大规模应用	生态建设仍在发展中，应用场景相对狭窄
科大讯飞星火	语音识别和自然语言处理领域	语音识别技术积累深厚	与纯文本生成模型相比，功能上有所局限
ChatGPT	通用对话生成和智能写作工具	在全球范围内拥有广泛的用户基础，能够处理多种语言	在中文领域的本地化和特定场景适应性有待提升
Kimi	专注于办公场景、长文本处理、文件解读	优秀的长文本处理能力、多模态融合、自适应学习与个性化推荐	逻辑推理能力相对较弱、缺乏多模态能力

产品关系
竞品关系：百度文心一言、阿里通义千问以及kimi在企业级市场上存在直接竞争关系。它们都力图在客户服务、智能写作等领域抢占市场份额。
协同与补充：一些产品（如华为的盘古模型）更多地关注于提供技术基础设施，与前面提到的对话生成类产品形成互补。
发展阶段
当前，中国的大模型市场正处于成长阶段。随着技术的进步和应用场景的拓展，市场潜力巨大，但也面临技术、伦理、数据隐私等多重挑战。

3.市场与产品生态

核心用户群
典型用户：主要为大中型企业，包括金融、科技、电商、制造业等领域。这些企业寻求智能化的解决方案，如自动客服、数据分析、智能写作、预测分析等。还有一部分内容创作者，他们利用大语言模型提升内容创作效率，如文章生成、文案撰写等。
学历：大多具有本科及以上学历，尤其是在技术或商业领域。
年龄：多集中在20-45岁之间，尤其是具有较强职业技能和商业意识的中青年人群。
专业背景：偏向于计算机科学、数据分析、商业管理、创意写作、市场营销等领域。
收入水平：收入中等偏高，企业用户多在高收入群体，而个体开发者的收入则较为多样。
表面需求：希望提高工作效率，降低人工成本，提升内容质量和客户体验。
潜在需求：希望通过智能化解决方案获取竞争优势，挖掘数据价值，以及在更广泛的场景中应用 AI 技术。
用户群体关系
企业用户依赖开发者的技术支持和内容创作者的创意内容，而开发者和内容创作者依托企业需求来设计和开发解决方案。
产品生态
各个子产品可以通过其特性互补形成生态。例如，自然语言处理工具可以为对话系统提供底层算法支持，而数据分析平台可以根据用户的互动数据，进一步优化对话系统的响应精度。
4.产品规划
新功能设计
通过考虑用户的个人喜好，并运用合适的算法，根据用户过去接受答案的历史，未来在提供答案时将更倾向于生成符合用户偏好的内容。
NABCD
根据 NABCD 模型（N-Need、A-Approach、B-Benefit、C-Competitors、D-Delivery），我们可以对你设计的新功能进行如下分析：

Need（需求）：
许多用户在使用大语言模型时，期望获得更符合自己需求和偏好的答案。这种需求在面对不同用户对同一问题有不同解答倾向时尤其明显。当前的语言模型回答是基于普遍性和通用性，而不能直接识别或适应用户的个人喜好。因此，引入用户偏好并根据历史采纳情况生成个性化答案的功能，能有效满足用户对个性化和精准回答的需求。
Approach（方法）：
当前的功能已经支持对回答进行“赞”和“踩”的操作，我们可以根据用户对给出的回答进行的这些操作，推断出用户对回答的偏好，并将这些偏好以附加要求的形式隐式的添加在用户提出的问题中，帮助用户更快地找到希望得到的答案，用户也可以自行添加那些模板式的限制和要求以供算法使用。
Benefit（好处）：
- 用户体验提升：通过提供个性化回答，用户会感受到更贴心、更符合需求的服务体验。
- 用户黏性增加：更精准的回答能减少用户查找答案的时间，提高他们的使用效率，使得用户更愿意长期使用该产品。
- 差异化竞争优势：在市场中与其他同类产品相比，能够提供个性化服务的大语言模型将具有更大的吸引力。
Competiton（竞争）：
市场上已有一些大语言模型产品在尝试个性化推荐或用户定制功能，但仍未完全实现根据用户偏好定制回答的功能。通过更加完善的用户偏好模型和算法，可以在个性化服务领域超越竞争对手，从而获得市场优势。
Delivery（推广）：
可以基于现有的产品，通过产品版本更新迭代上线这项功能，也可以在产品更新上线时进行适当的宣传。最好逐步推广给不同的用户群体，并根据用户反馈调整和改进模型。

团队角色配置

人员角色	人数
项目经理（兼任开发经理）	1人
前端开发人员	3人
后端开发人员	3人
UI 设计师	1人
测试工程师	1人

时间规划

时间段	工作内容
第1周	产品经理组织初次会议，确定项目目标与任务分配；后端开发人员设计服务器架构，明确大模型的设计思路；UI设计师着手模块和组件设计；测试工程师制定测试策略。
第2-3周	前端开发工程师编写接口文档；后端开发工程师完成技术选择并搭建技术框架；UI设计师完成初步的界面设计；测试工程师搭建测试环境，并协助设计接口文档。
第4-9周	前端开发人员构建用户界面；后端开发人员实现核心功能接口并进行模型训练；UI设计师根据前端反馈调整界面设计；测试工程师编写测试脚本，进行接口的模拟测试。
第10-13周	前端开发人员与后端进行对接，完成交互功能；后端开发人员完善功能并进一步优化模型训练；UI 设计师协助前端团队进行开发并优化设计细节；测试工程师开展功能测试。
第14-15周	完成功能开发，全面进入测试阶段，并根据测试结果进行问题修复和性能优化。
第16周	进行最后的测试验证，准备发布上线，并计划推出改进版本。