软件工程实践——软件评测作业

222100213何智锦 2024-04-13 22:20:48

这个作业属于哪个课程	2023年福大-软件工程实践-W班
这个作业要求在哪里	软件工程实践——软件评测作业
案例分析作业要求	软件工程案例分析作业
这个作业的目标	完成对文心一言、通义千问、讯飞星火的软件评测
参考文献	《构建之法》

一、调研，评测
1.1 文心一言
1.1.1 体验描述
1.1.2 BUG
1.1.3 优缺点
1.1.4 用户采访
1.1.5 改进意见
1.1.6 结论
1.2 通义千问
1.2.1 体验描述
1.2.2 BUG
1.2.3 优缺点
1.2.4 用户采访
1.2.5 改进意见
1.2.6 结论
1.4 BUG量化指标
二、分析
2.1 开发时间估计
2.2 对比排名
2.3 软件工程方面建议
三、建议和规划
3.1 市场概况
3.2 市场现状
3.3 市场与产品生态
3.4 产品规划

一、调研，评测

1.1 文心一言

1.1.1 体验描述

基本功能1——问答模块
介绍：笔者从多个复杂度层面对文心一言发起简单问答，获得的结果各不相同
使用：直接在一打开进来的输入框输入并按回车即可

层面：明确的知识点提问
表现：回答迅速，明确，且具有词语扩展联想能力

在这里插入图片描述

层面：场景提问，要求解决问题
表现：提供详细文字方法，一般情况下会提供多种方式。但由于是文字语言模型，没有图片引导，在教程这方面没有直接搜索帖子来的直观，通常情况下难以用文心一言解决问题

在这里插入图片描述

层面：错误报告日志
表现：能够判断错误类型，并指明常见出错场景，提供多种检查方式。

在这里插入图片描述

层面：涉及绘制图像的需求
表现：在需求中明确提出绘画等字眼时，文心一言会自动调用AI绘画程序，但是画出来的往往毫不匹配，且更常见的回答是“很抱歉，存在暂不支持的特殊符号和英文”

在这里插入图片描述

基本功能2——百宝箱
介绍：其实就是把用户输入比较多的，比较有特色的提问收集起来，在笔者看来更像是新手指引一样的东西，让人快速上手这个模型能做什么。不过其提供了职业板块，显然是致力于成为职业人工作中的快速工具，但笔者实操下来感觉没有各行业常用的圈内工具来的好用，有些许鸡肋。对于学生模拟职业生成对应资料时倒是用处很大。
使用：界面左侧的百宝箱点击后，选择对应文本，输入框中文本即会替换为对应文本，再点按回车即可。

在这里插入图片描述

基本功能3——升级会员
介绍：可以说这是这个软件最重要的一个模块，升级会员后将解锁4.0模型，文生图功能升级等高端功能，可惜笔者囊中羞涩，只能交由其他大佬评测了。
使用：左下角升级即可。

在这里插入图片描述

1.1.2 BUG

测试环境
操作系统——Windows 10 家庭中文版 22H2
操作系统内部版本——19045.4170
浏览器——Mozilla Firefox
浏览器版本——MozillaOnline-2023.6 124.0.2 x64

BUG描述
可复现性——必然发生
复现操作——给出任意一个问题后，在回答还没生成完毕时，切换到历史记录中另一个会话（即左侧列表），之后再切回来，会发现回答开始重头生成。反复切换两到三次后，回答不再生成，而始终卡在那里，图标一直转圈。过一小段时间估计结果生成完毕后再进行一次切换操作，会发现回答一次性生成完毕。

BUG严重性 ★★★☆☆
系统功能——影响了会话间的自如切换功能
安全问题——几乎不影响用户信息，服务器信息等安全性问题
用户体验——影响喜欢反复切屏的用户（譬如笔者），导致回答生成迟缓，影响体验

BUG分析
可能成因——将同样的问题问文心一言两次时得到的回答是不同的，但是该BUG中多次重新生成的文本却是相同的。因此可以猜测文心一言应该是在切换会话时将进程暂时关闭并保留基本数据，等到切换时再重新进行生成。而从过一小段时间后重新切会话能全部出现又能知道，进程重新启动是正常的，只是文本输出重定向出现了问题。考虑可能是前端代码发起异步请求时在多次尝试后卡到了一个时间点接收到模型的关闭信息，直接停止忙等待渲染，最终卡死在该界面。具体究竟是如何出现该BUG就只能问问开发人员了。
预期和改进——抛开该功能实现难度的情况下，笔者希望看到的改进结果是在会话切换时直接将进程信息删除，在切回时重新向模型发起请求而不是继续之前的请求，这样即使结果不尽相同但笔者认为是可以接收的，毕竟喜欢乱切会话的用户不多。

1.1.3 优缺点

优点
1. 使用方便。百度搜索引擎内嵌文心一言，及时不打开文心一言界面仅在百度搜索框搜索时，文心一言也会自动识别并回答。
2. 名词解释和解决方法都有不错的表现，日常用来代替简单知识点搜索很方便
3. 不开会员的情况下作为基础知识或常规解决方法的替代品是不错的。免费的就是香。

缺点
1. 文生图功能极为弱智，虽然确实不是该模型重点，但将功能上线的情况下使用体验又极其不堪就有点难受了。
2. 开不开通会员影响很大，对0氪党不大友好
3. 保存历史记录时保存的是对应会话的第一个问答而不是最后一个，实际上很难以找到想要的记录，导致该功能有点鸡肋。
4. 文本模型通病，在进行复杂解决方式描述时，缺乏视频或图片的辅助，大多数情况还需要用户重新在搜索引擎搜索前人的帖子。
5. 文本生成有字数限制，高出后直接停止生成，且要求其续写时内容常常无法接上。

1.1.4 用户采访

采访对象
学号——222100214
背景——同宿舍舍友，平常玩的是GPT-4，能够很好的反馈体验。

记录
栏目——性格模拟模块
问题——让文心一言模拟游戏陪玩时，经常出现前后两次发言前言不搭后语，忘记之前设定等情况，问题很大。
改进——该采访对象认为文心一言的AI逻辑存在严重漏洞，与GPT-4存在明显差异（当然也有可能是因为笔者没开会员），希望文心一言大语言模型可以继续加以改进。

1.1.5 改进意见

解决BUG——解决多次切换会话时会出现的卡死BUG。
优化AI逻辑——强化同一会话中对前文的记忆能力，完善性格模拟功能。
界面优化——界面感觉还是不够简洁，关于升级会员的功能有点多，看着没有GPT界面舒适。
优化文生图模块——至少不要让生成出的图像与文本相差甚远。

1.1.6 结论

好，不错
在简单问题和文本生成上可以完美替代传统搜索引擎，在复杂教学或图文板块毫无竞争力。

1.2 通义千问

1.2.1 体验描述

基本功能1——问答模块
介绍：跟文心一言一样的基础问答模块，但实操下来比文心一言更智能，更懂得变通。在遇到
使用：直接在一打开进来的输入框输入并按回车即可
演示：以下演示文心一言和通义千问面对相同问题的区别

在这里插入图片描述

基本功能2——百宝袋
介绍：与文心一言相差不多，不同的是点击百宝袋时会弹出新窗口，不大方便。但是，通义千问很明智的将文生图功能几乎剔除（明确要求生成的时候也可以画，但也是一坨），百宝袋中很详细的进行了工具的分类，笔者认为体验上是优于文心一言工具箱的。
使用：点击右上角的百宝袋并选择即可。
演示：简单演示下其中比较让笔者满意的OKR考核专家和彩虹屁专家工具。

在这里插入图片描述

基本功能3——图片解析
介绍：支持上传一张图片并要求通义千问基于此图片进行叙述或其他操作。
使用：点击右上角的百宝袋并选择即可。
演示：简单演示下其中比较让笔者满意的OKR考核专家和彩虹屁专家工具。

1.2.2 BUG

BUG描述
可复现性——必然发生
复现操作——在通义千问的图片描述功能中，在上传完图片并给出要求后，在文本未生成完毕时刷新页面，将会导致文本框一片空白，重复操作后，会发现第二次的文本框同样一片空白，但第一次的文本却直接出现。

BUG严重性 ★★☆☆☆
系统功能——没有太大影响
安全问题——几乎无影响
用户体验——一定程度上影响用户体验，导致用户有时需反复刷新

BUG分析
可能成因——本BUG跟笔者在前文中找到的文心一言的BUG在逻辑上是十分相似的，都是在文本未回答完毕时关闭回答流，此时前端页面都将显示一片空白且卡死。并且在文本生成完毕后，点刷新或是切换页面则文本即可正常出现。因此可以猜测BUG的根本原因应该是相同的。应该都是文本重定向的问题。
预期和改进——抛开该功能实现难度的情况下，笔者希望看到的改进结果是在页面刷新时直接将进程信息删除，在切回时重新向模型发起请求而不是继续之前的请求，这样即使结果不尽相同但笔者认为是可以接收的，毕竟喜欢乱刷新页面的用户不多。

1.2.3 优缺点

优点
1. 界面简洁，没有升级会员窗口，各种工具也浓缩在百宝箱中（图标占比极小），整体体验优秀。
2. 没有聚焦于令人难以言表的绘画功能，而是集中做好了文本相关工具，其中PPT框架生成工具和JAVA助手令笔者眼前一亮。
3. AI逻辑跟文心一言相比笔者认为是更加智能的，词不达意的现象有明显减少。

缺点
1. 在回答生成的时候，经常会突然无法自动向下滚动（即新生成的文本在屏幕以下，无法看见，需手动调整滚轮）。
2. 保存历史记录时保存的是对应会话的第一个问答而不是最后一个，实际上很难以找到想要的记录，导致该功能有点鸡肋。
3. 文本模型通病，在进行复杂解决方式描述时，缺乏视频或图片的辅助，大多数情况还需要用户重新在搜索引擎搜索前人的帖子。
3. 点击图像解析功能再切回文本回答功能时，将丢失当前会话而开启新会话，虽然界面更整洁但笔者认为在体验上是不大舒适的。

1.2.4 用户采访

采访对象
学号——222100211
背景——同宿舍舍友，平常基本没有接触AI文本大模型，能够很好的反馈初次体验。

记录
栏目——百宝箱中的题目加工厂模块
亮点——该采访对象仅仅是输入编译原理即生成了词法分析器的题目，甚至与当前阶段编译原理作业题目相同，抓住重点的能力令笔者和采访对象眼前一亮。
改进——文本生成过于缓慢，采访对象认为等待时间过于长，需要进行优化。

1.2.5 改进意见

解决BUG——解决刷新页面会出现的BUG。
优化文本生成速度——提升文本生成速度，优化体验，或者在用户切屏时在后台快速生成，切回时全部放入。

1.2.6 结论

非常推荐
文本问答模块体验十分优秀，百宝箱中的工具十分实用，不花里胡哨，界面也令笔者十分舒适。

1.4 BUG量化指标

星级	描述
★	建议型问题，对系统功能几乎没有什么影响，不影响安全性，也不影响用户使用
★★	界面问题，对系统功能有较小的影响，不影响安全性，稍微影响用户使用
★★★	一般错误，对系统功能有一般程度的影响，不影响安全性，比较影响用户使用
★★★★	严重错误，对系统功能有很大程度的影响，影响安全性，非常影响用户使用
★★★★★	致命错误，对系统功能有严重程度的影响，严重影响安全，极其影响用户使用

二、分析

2.1 开发时间估计

软件名称	功能模块	预估时间
文心一言	大模型3.5版与4.0版、百宝箱、图像文件支持	210天
通义千问	大模型、百宝袋、图像文件支持	150天

2.2 对比排名

对比项	★★★	★★	★
界面感官	通义千问	文心一言
交互体验	通义千问	文心一言
功能数量	文心一言	通义千问
创新程度			通义千问、文心一言
实用性	通义千问	文心一言

通义千问(12★) > 文心一言(10★) 。

2.3 软件工程方面建议

产品	建议
文心一言	1. 解决BUG，解决多次切换会话时会出现的卡死BUG。 2. 优化AI逻辑，强化同一会话中对前文的记忆能力，完善性格模拟功能。 3. 界面优化，界面感觉还是不够简洁，关于升级会员的功能有点多，看着没有GPT界面舒适。 4. 优化文生图模块，至少不要让生成出的图像与文本相差甚远。
通义千问	1. 解决BUG，解决刷新页面会出现的BUG。 2. 优化文本生成速度，提升文本生成速度，优化体验，或者在用户切屏时在后台快速生成，切回时全部放入。

三、建议和规划

3.1 市场概况

市场规模估计
全球对话式AI市场总规模——到2025年，全球对话式AI市场的总规模有望超过460亿美元。这涵盖了对话式AI解决方案在各行业的广泛应用，包括但不限于客户服务、营销自动化、企业内部协作、教育、娱乐等领域。
中国对话式AI平台市场规模——2021年中国对话式AI平台市场规模已达到约50.5亿元人民币，较2020年增长56.3%，呈现出高速增长态势。这一数据表明中国对话式AI市场具有强劲的增长潜力。
AI大模型市场规模——虽然AI文本对话模型只是AI大模型应用的一个分支，但可以作为参考的是，预计到2027年，中国AI大模型市场规模将增至2,777.5亿元人民币，年均增长率高达25.53%。对话式AI作为AI大模型的重要应用场景之一，其市场规模的增长应与整体趋势保持一致。

用户规模
直接用户——这其实是难以估计的，因为市面上的AI大模型对话产品很多，无法统计总人数。但据报道，文心一言用户规模已达7000万。这是一个特定AI文本对话模型的实际用户量级。直接用户起码是这个数字的四五倍
市场渗透率与潜在用户——考虑到AI文本对话模型正在被广泛应用于搜索引擎、社交媒体、智能客服、个人助手、在线教育等多个领域，且随着技术进步和用户接受度提高，潜在用户规模庞大。随着互联网普及率不断提高，尤其是移动互联网用户的增长，全球范围内几乎所有互联网用户都可能成为对话式AI的潜在用户。

3.2 市场现状

目前市场上有什么样的产品了？
1. OpenAI - ChatGPT
2. 阿里云 - 通义千问
3. 百度 - 文心一言
4. 科大讯飞 - 星火大模型系列
5. 智谱AI - ChatGLM-6B
6. 天工

上述产品的定位、优势与劣势在哪里？
以ChatGPT和文心一言作比较：

产品	定位	优势	劣势
ChatGPT	通用型、大规模语言模型，尤其在对话交互、问答、文本生成等领域有着广泛的应用潜力，适合个人用户、开发者和企业集成到各种应用场景中。	1. 强大语言能力：基于GPT-3.5的先进技术，能理解复杂语境，生成连贯、有逻辑的文本，甚至完成一定的代码编写任务。 2. 用户友好：界面简洁，交互直观，能够快速响应用户提问，提供高质量答案。 3. 学习能力：通过持续的反馈和迭代优化，模型可以不断学习和适应新的知识与对话风格。	1. 知识时效性：作为预训练模型，其知识库可能存在更新滞后，对于实时事件、最新研究成果等可能存在信息不准确或过时的问题。 2. 潜在偏见：尽管经过训练调整，但模型仍可能反映训练数据中的社会偏见或不准确信息。 3. 过度生成：在某些情况下，模型可能会生成冗长或偏离主题的回答。
文心一言	面向大众用户的生成式对话产品，尤其在中国市场具有较高的知名度和用户基础，适用于日常对话、信息检索、内容创作等多种场景。	1. 本土化优势：针对中文环境优化，对中文语义理解更深入，尤其擅长处理中国特色话题和网络流行语。 2. 大规模用户基数：用户访问量高，证明其在市场上的受欢迎程度和广泛接受度。 3. 集成百度生态：可能与百度其他产品和服务深度整合，提供更全面的信息服务。	1. 知识更新速度：同样面临知识库更新速度可能不及实时信息的问题。 2. 依赖搜索引擎数据：如果主要依赖搜索引擎数据训练，可能在某些专业知识或独特见解方面有所欠缺。 3. 商业化影响：作为商业产品，可能存在广告植入、推荐倾向等问题，可能影响用户体验。

上述产品之间呈现什么样的关系，哪些为竞品关系？以及竞争中的各方态势如何？
ChatGPT和文心一言是强烈的竞品关系
竞争态势：
ChatGPT凭借其全球影响力、用户接纳度、快速的技术迭代和广泛的生态系统，目前在市场上占据较为明显的优势地位；而文心一言则在中文市场、知识增强及多模态生成等方面展现出独特竞争力，尤其是在理解和适应中国本土文化和市场需求方面有着潜在优势。未来双方的竞争态势可能会随着各自的持续发展、市场策略调整以及用户需求变化而动态演变。

这个领域正处于 (萌芽 / 成长 / 风口 / 平台 / 下降)阶段？
大型预训练语言模型显然正处于风口阶段，理由如下：
技术创新与突破：近年来，尤其是过去一年中，基于Transformer架构的大规模语言模型在技术上取得了显著进步，如模型规模扩大、训练方法优化、多模态融合等，ChatGPT的横空出世更是引发了全球范围内的广泛关注，标志着该领域的技术创新进入了新阶段。
市场需求激增：随着数字化转型加速，各行各业对智能化、自动化的需求日益增长，生成式对话模型能够有效赋能客户服务、内容创作、教育辅导、商业决策等多个场景，市场需求呈现强劲增长势头。
资本与政策关注：大型语言模型吸引了大量投资，国内外科技巨头和初创公司纷纷加大研发投入。同时，各国政府也认识到其在推动科技创新、产业升级、社会服务等方面的价值，出台相关政策予以支持或引导规范。
用户接受度高：ChatGPT等产品的用户体验得到广泛好评，用户群体迅速扩大，公众对AI对话技术的认知度和接受度显著提高，预示着大规模商业化应用的潜力。
行业生态初具规模：围绕大型语言模型，已经形成包括模型开发、应用集成、数据服务、合规监管等在内的产业链条，多家企业开始构建开放平台，提供API接口供第三方开发者使用，生态建设初见成效。
媒体与学术热议：大型语言模型频繁成为科技新闻焦点，引发广泛的社会讨论和学术研究，关于其伦理、安全、经济影响等议题受到高度重视，进一步推高了领域热度。

3.3 市场与产品生态

这个产品的核心用户群是什么样的人？
NLP研究者与开发者
数据科学家与机器学习工程师
软件开发者与集成商
企业决策者与产品经理
内容创作者与知识工作者(我们学生就属于这一群体)
教育与培训机构
政策制定者与监管机构

典型用户是什么样的？
具有技术背景或兴趣
具有实际运用需求(如学生水论文)
具有持续学习与适应新技术的能力

产品的用户群体之间是否存在一定的关系？
上下游合作关系——模型开发者与模型使用者
技术交流与协作——学术界与工业界用户群体
开源社区共建——开源贡献者与模型使用者

3.4 产品规划

NABCD分析大型预训练语言模型产品开发
N——企业和开发者需要一个能够处理各种自然语言任务（如文本生成、问答、翻译、摘要、情感分析等）的高精度模型。且需要提供简单易懂的API接口、清晰的文档和示例代码，便于快速集成到现有业务流程或开发新的应用程序。
A——大规模预训练：采用Transformer架构，在海量文本数据上进行自监督学习，构建强大的语言理解与生成能力。多任务学习：设计任务适配层或微调策略，使模型能适应不同类型的自然语言处理任务。模型压缩与加速：运用知识蒸馏、量化、模型剪枝等技术提升推理效率，满足实时响应需求。跨语言建模：引入多语言预训练技术（如XLM、mBERT），实现对多种语言的统一表示和处理。
B——提高生产力：通过集成LPLM，显著提升文本处理任务的自动化水平，节省人力成本，缩短开发周期。业务创新：赋能新产品和服务开发，如智能写作助手、虚拟客服、自动报告生成等，助力业务增长。技术领先：使用前沿的AI技术，提升品牌形象与竞争力。
C—— OpenAI GPT系列：以其强大性能和广泛应用而闻名，提供API服务和开发工具。 Google's T5/MT5、Facebook's BART/MBART、Microsoft's Turing NLG：各大科技巨头研发的高性能LPLMs，各有特色和优势。 Hugging Face Transformers：开源模型库，包含众多知名LPLM及其变体，提供模型托管和API服务。
D—— 关键技术验证：完成模型核心算法的研发与初步性能验证。 API与平台开发：构建API服务体系，开发用户定制平台，实现模型的云端部署与调用。合规与安全模块集成：完成合规组件开发与安全测试，确保产品满足法规要求。用户体验优化：进行界面设计与用户体验测试，确保API文档清晰、平台易用。

团队角色配置

职位	人数
产品经理(PM)	1
软件开发工程师(SDE)	3
软件测试工程师(STE)	1
UI/UX设计师(UID)	1

16个周期每周的详细规划

周数	规划	具体
1-2	需求分析与设计阶段	PM: 完成需求收集、整理和优先级排序，编写产品需求文档（PRD），并与利益相关方达成共识。 UID: 根据PRD进行初期界面设计，产出低保真原型，与PM、SDE讨论确认交互逻辑。 SDE: 熟悉现有系统架构，评估改进需求的技术可行性，初步规划技术方案。
3-4	开发前期准备与基础功能实现	PM: 组织团队进行项目启动会议，明确分工、里程碑与沟通机制。 SDE: 搭建开发环境，进行必要的技术预研，开始实现优先级较高的基础功能。 UID: 根据讨论结果细化设计，产出高保真原型，提供设计规范和资源给SDE。 STE: 制定测试计划，编写测试用例大纲，为后续测试工作做准备。
5-8	功能开发与单元测试	SDE: 分阶段进行功能开发，每日提交代码并进行代码审查。完成基础功能后，逐步实现剩余改进需求。 STE: 随着开发进展，同步进行单元测试，及时发现并反馈问题给SDE修复。 UID: 协助SDE解决界面实现过程中遇到的设计问题，对已完成部分进行设计验收。 PM: 定期组织站立会议，跟踪项目进度，协调资源，处理项目风险。
9-12	集成测试与性能优化	SDE: 完成所有功能开发，进行代码整合，解决集成问题。 STE: 进行系统集成测试，覆盖各功能模块间的交互与数据流，记录并跟踪缺陷。 SDE: 根据测试反馈进行bug修复，同时进行性能优化，确保系统稳定性和响应速度。 PM: 安排内部演示，收集内部反馈，与UID、SDE讨论可能的用户体验改进点。
13-14	用户验收测试与反馈调整	STE: 组织用户验收测试（UAT），邀请部分真实用户或代表进行试用，收集反馈。 SDE: 根据UAT反馈进行必要的功能调整与优化，修复高优先级用户问题。 PM: 与UID、SDE共同分析用户反馈，确定是否需要调整设计或开发计划。 UID: 快速响应设计调整需求，提供更新的设计资源。
15	文档编写与发布准备	SDE: 完成最终代码审查与版本控制，准备发布包。 STE: 编写测试报告，确保所有关键问题已解决或合理记录。 PM: 更新用户手册、帮助文档等相关资料，准备发布通知与营销材料。 UID: 提供最终设计资源，协助完成软件界面的视觉一致性检查。
16	软件发布与后期跟踪	SDE: 完成软件部署，与运维团队协作进行上线操作。 PM: 发布软件更新公告，引导用户升级，监控初期用户反馈。 STE: 针对上线初期可能出现的问题，进行紧急响应与支持。全体团队：根据用户反馈与实际使用情况，规划下一版本的改进方向。

...全文

477 2 打赏收藏转发到动态举报

写回复

用AI写文章

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

助教杨蕊蘭助教 2024-04-17

打赏
举报

分析很到位！

SoftwareTeacher 2024-04-15

打赏
举报

请让 AI 回答软件工程的一个经典问题：在一个软件项目中，团队有 N 个成员，团队把所有工作都用 ”小时“ 工作量来衡量，他们在项目开始时，预计团队每天的进度为 30 小时 (即每天完成了30小时的工作量)。当项目完成了一半的总工作量的时候，大家发现实际的进度为15小时/天，问：在余下的时间中, 团队每天的进度要到多少，才能在项目结束时让整个项目的平均进度恢复到每天 30 小时的工作量？

#资源达人分享计划#

数据库系统工程师考试大纲及真题讲解考试科目1：信息系统知识。考试科目2：数据库系统设计与管理。

林铃个人研修计划.doc

经导师指导并认可通过的大作业设计项目源码，适用人群：计算机，电子信息工程、数学等专业的大学生课程设计、期末大作业或毕业设计，作为“参考资料”使用。

模拟电路分析与故障诊断教学设计(模电4.3信号运算电路）.pdf 学习资料复习资料教学资源