软件工程实践——软件评测作业

112101341俞子涵 2024-04-15 17:11:46

这个作业属于哪个课程	2302软件工程
这个作业要求在哪里	软件工程实践——软件评测作业
课程目标	对两个语言模型进行对比测试
其他参考文献	《构建之法》

第一部分调研，评测
（一）通义千问
（1）使用体验
1.1 介绍和使用软件
1.2 优缺点分析
1.3 改进建议
1.4 采访用户
（2）BUG描述
2.1 Bug发生时的测试环境
2.2 Bug的可复现性及具体复现步骤
2.3 Bug的详情
2.4 Bug分析
（3）结论
3.1 定性结论
3.2 定性结论
（二）文心一言
（1）使用体验
1.1 介绍和使用软件
1.2 优缺点分析
1.3 改进建议
1.4 采访用户
（2）BUG描述
2.1 Bug发生时的测试环境
2.2 Bug的可复现性及具体复现步骤
2.3 Bug的详情
2.4 Bug分析
（3）结论
3.1 定性结论
3.2 定量结论
第二部分分析
开发时间估计
同类产品对比排名
软件工程方面的建议
BUG存在的原因分析
第三部分建议和规划
市场概况
市场现状
市场与产品生态
产品规划

第一部分调研，评测

（一）通义千问

（1）使用体验

1.1 介绍和使用软件

「通义千问」是一款由阿里云研发的人工智能模型，名为通义千问。核心功能是理解和生成自然语言文本，能够帮助用户解答问题、创作文字、分析语句、提供信息查询等各种与语言相关的任务。可以处理各种领域的问题，包括但不限于科学、技术、文化、历史、教育等，并且能够在对话过程中不断学习和适应，以更好地满足用户需求。同时，还具备一定的编程知识和多模态交互能力，可以协助开发人员进行相关工作并与其他工具联动以实现更多元化的服务。

使用软件：
具体描述：解析图片

具体描述：解析文档

具体描述：画图

1.2 优缺点分析

优点：

广泛的知识库：通义千问基于大量的训练数据，具有广泛的知识覆盖面，可以从各个领域提供准确详尽的信息和答案。

实时响应：可以迅速地对用户的提问做出反应，无论问题多么复杂或多简单，都能做到实时交互。

持续学习：通过不断迭代和优化，能随着用户反馈和新知识的注入而持续提升服务质量，获取和掌握更新鲜、更全面的信息。

多领域应用：擅长提供一般性的问答服务，还可以应用于写作指导、代码编写、逻辑推理等多种场景。

缺点：

情境理解局限性：有时仍可能无法像人类那样完全捕捉到微妙的情境和情感线索。

过度依赖文本输入：虽然能处理多模态信息，但在非文字信息的理解上相对受限，比如理解视觉、听觉信号的能力相比专门设计的感知模型较弱。

对模糊请求处理：对于一些非常模糊或具有歧义的请求，可能会给出不够精准或者需要进一步澄清的回答

1.3 改进建议

解析文档功能不够完善，容易解析出错，解析速度也比较慢。画图功能也不够完善，画图速度比较慢

1.4 采访用户

（2）BUG描述

2.1 Bug发生时的测试环境

操作系统版本：22000.1574
计算机版本：Windows 10 家庭中文版
浏览器：Microsoft Edge
浏览器版本：111.0.1661.62
画图系统对需求进行修改时有bug，画图速度比较慢。

2.2 Bug的可复现性及具体复现步骤

让它随便画一张图，修改需求会出现bug，给出的画不合要求

2.3 Bug的详情

对画图需求修改时出现bug

画图速度慢

2.4 Bug分析

Bug量化指标

严重程度	注释
★	建议型问题，对系统功能几乎没有什么影响，不影响安全性，也不影响用户使用
★★	界面问题，对系统功能有较小的影响，不影响安全性，稍微影响用户使用
★★★	一般错误，对系统功能有一般程度的影响，不影响安全性，比较影响用户使用
★★★★	严重错误，对系统功能有很大程度的影响，影响安全性，非常影响用户使用
★★★★★	致命错误，对系统功能有严重程度的影响，严重影响安全，极其影响用户使用

BUG的可能成因：
可能是由于首次让AI画出图以后，AI自己添加了需求以外的元素，并没有将图中所有元素进行解析，导致进一步修改需求的图时AI不知道自己画了需求以外的其他元素。
BUG严重性★★★★

（3）结论

3.1 定性结论

结论：好，不错
理由：
1、通义千问页面简洁，使用方便，色彩、排版方面都很不错。
2、功能实用，可以很方便地使用功能。

综上，通义千问是一款比较推荐的软件。

3.2 定性结论

类别	描述	评分
核心功能	核心功能的功能设计和质量	12
细节	为用户考虑的细节	16
用户体验	当用户完成功能时，不干扰用户	10
差异化功能	软件独特的功能	10
成长性	记住用户的选择, 适应用户的特点，用户越用越方便	12
最终得分	80-100，非常好。60-79，良好。30-59，一般。0-29，差。	60

（二）文心一言

（1）使用体验

1.1 介绍和使用软件

   文心一言，是百度基于文心大模型技术推出的生成式对话产品。拥有强大的语言处理能力，能够与人进行多轮对话，并持续学习，提升回答的准确性、可靠性和可用性。同时，也具备广泛的知识储备，能够回答各种类型的问题，提供相关的信息和建议。
    文心一言的核心技术是深度学习和自然语言处理。通过深度学习技术，可以不断学习和优化自身的语言模型，提升对话的流畅性和准确性。而自然语言处理技术则使我能够理解和解析人类的语言，从而做出恰当的回应。
   此外，还具备跨平台、多终端的适应能力，可以在手机、电脑等多种设备上使用，为用户提供更加便捷的服务。

使用软件：

用文本形式提问

1.2 优缺点分析

优点：
强大的语言处理能力：可以准确理解用户的意图，并给出恰当的回应。
跨平台和多终端支持：我可以在多种设备和平台上使用，为用户提供便捷的服务。
持续学习和优化：具备持续学习的能力，可以不断根据用户的反馈和新的数据来优化自身的语言模型，提升回答的质量。
自动补充问题：输入问题部分描述，文本框可以自动补充，虽然不是很准确。

缺点：
缺乏创造性：在创造性思维和新颖性方面存在局限。
无法理解语境和情感：尽管可以理解并解析语言，但仍然无法完全理解语境中的细微差别和人类的情感，这可能导致在某些情况下回应不够贴切。

1.3 改进建议

提升自然语言处理能力：
加强在自然语言处理领域的研究，提高模型对文本的理解和生成能力。
增强实时性和响应速度：
优化模型的计算效率和推理速度，以满足实时应用的需求。
提供更多可解释性：
提供可视化和交互式工具，帮助用户更直观地理解和使用模型。

1.4 采访用户

（2）BUG描述

2.1 Bug发生时的测试环境

操作系统版本：22000.1574
计算机版本：Windows 10 家庭中文版
浏览器：Microsoft Edge
浏览器版本：111.0.1661.62
AI答复出现部分问题

2.2 Bug的可复现性及具体复现步骤

让AI详细说明，给出的答复与之前一致。提问有歧义的问题，它没有分类讨论。

2.3 Bug的详情

对部分有歧义的提问他没有进行分类讨论

让AI详细说明，给出的答复与之前一致

2.4 Bug分析

Bug量化指标

严重程度	注释
★	建议型问题，对系统功能几乎没有什么影响，不影响安全性，也不影响用户使用
★★	界面问题，对系统功能有较小的影响，不影响安全性，稍微影响用户使用
★★★	一般错误，对系统功能有一般程度的影响，不影响安全性，比较影响用户使用
★★★★	严重错误，对系统功能有很大程度的影响，影响安全性，非常影响用户使用
★★★★★	致命错误，对系统功能有严重程度的影响，严重影响安全，极其影响用户使用

BUG的可能成因：
可能是由于分析算法不够严谨，依托的大模型有不足之处。
BUG严重性★★★

（3）结论

3.1 定性结论

结论：好，不错
理由：
1、文心一言页面简洁，使用方便，色彩、排版方面都很不错。
2、功能实用，可以很方便地使用功能。

综上，文心一言是一款比较推荐的软件。

3.2 定量结论

类别	描述	评分
核心功能	核心功能的功能设计和质量	12
细节	为用户考虑的细节	16
用户体验	当用户完成功能时，不干扰用户	10
差异化功能	软件独特的功能	10
成长性	记住用户的选择, 适应用户的特点，用户越用越方便	12
最终得分	80-100，非常好。60-79，良好。30-59，一般。0-29，差。	60

第二部分分析

开发时间估计

国内大语言模型大多可以借鉴国外AI的源码，大大简化了核心功能的实现，同时由于开发界面和UI以及后端接口目前技术较为成熟，实际但是大多数大学生没有这方面的基础和经验来训练模型，我认为这大概需要大半年的时间

软件工程方面的建议

针对文心一言和通义千问这样的语言模型软件，在软件工程方面应注重模块化设计、代码质量和可读性、接口设计、性能优化、错误处理和日志记录、持续集成和测试、文档编写以及可扩展性和可定制性等方面的工作，以提高软件的质量、稳定性和易用性。

BUG存在的原因分析

数据问题：
数据不准确性：AI系统的性能很大程度上依赖于训练数据的准确性和完整性。如果数据存在不准确、不全面或偏见，AI系统可能产生错误的判断和结果。
数据偏见：历史数据中的社会或个体偏见如果用于训练AI模型，可能导致模型对某些人群产生不公平或有偏见的影响。
数据不足：许多AI应用需要庞大的数据集来构建强大的模型。数据不足可能导致模型性能下降、预测准确性不高等问题。
快速学习和适应能力：虽然这是AI的优势之一，但也可能导致在处理不确定性和特殊情况时产生软件bug。
计算资源限制：
一些强大的AI模型需要大量的计算资源和存储空间进行训练和应用。计算资源不足可能导致模型训练不充分或推理性能下降。

第三部分建议和规划

市场概况

一、市场规模

AI市场规模正在迅速扩大。据统计，到2025年，中国AI市场规模预计将达到1000亿美元，复合年增长率超过20%。全球范围内，AI计算市场规模预计将从2022年的195亿美元急剧增长至2026年的346.6亿美元，其中生成式AI市场预计将增至109.9亿美元。此外，根据Market Research Future的报告，2024年全球AI市场的规模预计将达到2994.5亿美元。这些数据都充分表明AI市场正在经历一个快速的增长阶段。

二、用户规模

AI服务的用户群体正在不断扩大。AI技术已经深入到各个领域，包括智能制造、智慧城市、智慧医疗、智慧金融等，因此，AI服务的用户群体涉及各行各业，包括企业、政府机构、个人用户等。

至于潜在用户数量，由于AI技术的广泛应用前景和巨大潜力，潜在用户群体非常庞大。随着AI技术的不断进步和应用场景的不断拓宽，越来越多的行业和领域将开始采用AI技术，从而带动潜在用户数量的快速增长。

市场现状

市场现状概览： AI产品已经渗透到各行各业，涵盖了众多领域，如客户服务、自动驾驶、图像识别、医疗诊断、金融风控、教育辅导、娱乐游戏等等。

产品定位与优劣势：

智能客服机器人：定位在于降低人力成本、提高服务效率，优势在于24/7全天候服务和快速响应；劣势可能是处理复杂问题时不及人工客服灵活且人性化。
boardmix AI等办公助手：定位在协同办公智能化，优势在于整合资源、增强协作和创新设计，劣势可能在于对特定场景的适应性和个性化定制程度。
竞品关系与竞争态势：不同的AI产品间存在直接或间接的竞争关系。例如，多个品牌的智能音箱均内置AI语音助手，彼此之间争夺市场份额；在企业级SaaS市场中，不同的智能办公软件也在各自的功能升级和服务优化上展开竞争。

行业发展阶段： AI行业通常被认为处于成长和风口阶段，因为AI技术正快速发展，并持续推动着新产品和服务的诞生。然而，具体细分领域的成熟度各有不同，有些如语音识别、图像识别技术已相当成熟并广泛应用，而其他前沿技术如AGI（通用人工智能）仍在探索阶段。整体而言，AI产业正在经历高速发展的过程，市场规模不断扩大，投资热度居高不下，同时也面临技术突破、伦理规范、数据安全等方面的挑战与机遇。对于具体的市场竞争态势，则需依据最新的市场调研报告和数据分析才能得出准确结论。

市场与产品生态

AI市场与产品生态是一个复杂且多维度的领域。首先，关于AI产品的核心用户群，他们通常是那些对技术前沿保持敏感，对提升工作效率和生活品质有较高需求的人群。这些用户可能来自于各行各业，包括但不限于科技、金融、医疗、教育等。

典型用户：他们可能具有较高的学历，如本科或以上学历，年龄在25至45岁之间，专业背景多样，但通常与科技或相关领域有关。他们的爱好可能包括科技新品、智能设备、编程或数据分析等。收入方面，由于AI产品的定价通常较高，因此这些用户通常具有较高的收入水平。表面需求可能包括解决特定的工作问题、提升生活便利性，而潜在需求可能涉及更高效的决策支持、个性化服务等。

关于用户群体之间的关系，确实存在一定的联系。例如，核心用户之间可能因为共同的兴趣或需求形成社群，进行信息分享和经验交流。

至于产品的子产品和其他相关产品之间的关系，通常也是紧密相连的。这些产品可能针对不同的应用场景或用户需求进行设计，但共同构成了一个完整的AI产品生态。例如，一个AI平台可能包括数据分析工具、机器学习库、智能语音助手等多个子产品，它们之间可以相互协作，为用户提供一站式解决方案。

因此，利用各个产品特性之间的相互关系二次构成产品生态是完全可能的，并且有助于提升产品的整体竞争力和用户体验。通过整合不同产品的优势功能，可以为用户提供更加全面、高效的服务，进一步满足用户的多样化需求。

产品规划

一、新功能设计

在当前软件基础上，我们计划设计一项名为“智能推荐引擎”的新功能。该功能将基于用户的历史数据、行为模式和偏好，为用户提供高度个性化的内容推荐。这一功能的引入旨在进一步提升用户体验，增强用户黏性，并为企业带来更高的转化率和收益。

二、功能选择理由

选择开发“智能推荐引擎”而非其他功能的原因如下：

市场需求：随着个性化需求的不断增长，用户对于能够精准匹配其需求的内容推荐功能越来越期待。
竞争优势：该功能能够显著提升我们产品的差异化程度，使其在竞争激烈的市场中脱颖而出。
数据基础：我们的软件已经积累了大量用户数据，为开发智能推荐引擎提供了坚实的数据基础。
三、用户吸引力分析

用户会选择使用我们的产品/功能，主要是因为：

便捷性：智能推荐引擎能够自动为用户筛选和推荐感兴趣的内容，节省了用户的时间和精力。
精准性：基于深度学习和大数据分析，该功能能够精准匹配用户的个性化需求。
用户体验：通过持续优化推荐算法，我们能够为用户提供更加流畅、自然的使用体验。
四、创新点

本产品的创新点主要体现在以下几个方面：

算法优化：我们采用了先进的深度学习算法，结合用户画像和实时反馈数据，实现了更精准的推荐。
数据融合：我们将用户的历史数据、行为模式、社交关系等多维度信息进行有效融合，提高了推荐的准确性和多样性。
个性化定制：用户可以根据自己的喜好和需求，自定义推荐内容和推荐策略，实现真正的个性化服务。
五、NABCD分析

需求（Need）：满足用户对个性化内容推荐的需求，提高用户满意度和黏性。
方法（Approach）：通过深度学习算法和大数据分析技术，实现精准的内容推荐。
利益（Benefit）：为用户节省时间，提高信息获取效率；为企业提升转化率和用户留存率。
竞争对手（Competitors）：与市场上其他同类产品相比，我们的智能推荐引擎具有更高的精准度和个性化程度。
可持续性（Deliverability）：基于现有的技术基础和数据资源，该功能具有良好的可持续性和扩展性。
六、团队配置与周期规划

作为项目经理，我计划按照以下方式配置团队角色和制定周期规划：

团队配置：

开发人员（3人）：负责智能推荐引擎的后台开发、算法实现和接口对接。
测试人员（1人）：负责新功能的测试工作，确保功能的稳定性和性能达标。
美工/UI设计师（1人）：负责新功能的界面设计和用户体验优化。
产品经理（1人）：负责功能的需求分析、市场调研和产品迭代规划。
周期规划：

第1-4周：

产品经理进行市场调研和需求分析，确定功能细节和界面设计方向。
开发人员完成技术预研和架构设计。
美工/UI设计师完成界面原型设计。
第5-8周：

开发人员开始编写代码，实现智能推荐引擎的核心功能。
测试人员编写测试用例，准备测试环境。
第9-12周：

开发人员完成核心功能的开发，进行初步测试。
美工/UI设计师完成界面设计，与开发人员对接界面实现。
第13-16周：

测试人员进行详细测试，修复发现的问题。
产品经理收集用户反馈，准备产品迭代计划。
团队进行最后的优化和调试，确保软件改进版本按时发布。
通过以上配置和规划，我们有信心在第16周如期发布软件的改进版本，并取得预想中的成绩。

...全文