软件工程实践——软件测评

222200111李敬毅 2024-10-14 23:18:52
这个作业属于哪个课程https://bbs.csdn.net/forums/2401_CS_SE_FZU
这个作业要求在哪里https://bbs.csdn.net/topics/619351741
这个作业的目标软件测评,调研分析,评测BUG,建议和规划
其他参考文献《构建之法 现代软件工程》

目录

  • 1、调研,测评
  • 1.1 分析的产品
  • 1.2 第一个产品(文心一言)
  • 1.2.1 使用体验
  • 1.2.1.1 软件介绍
  • 1.2.1.2 软件使用
  • 1.2.1.3 优缺点分析
  • 1.2.1.4 用户对产品的改进意见
  • 1.2.1.5 采访用户
  • 1.2.2 BUG描述
  • 1.2.2.1 BUG测试环境
  • 1.2.2.2 BUG复现情况
  • 1.2.2.3 BUG具体描述
  • 1.2.2.4 BUG分析
  • 1.2.3 结论
  • 1.3 第二个产品(通义千问)
  • 1.3.1 使用体验
  • 1.3.1.1 软件介绍
  • 1.3.1.2 软件使用
  • 1.3.1.3 优缺点分析
  • 1.3.1.4 用户对产品的改进意见
  • 1.3.1.5 采访用户
  • 1.3.2 BUG描述
  • 1.3.2.1 BUG测试环境
  • 1.3.2.2 BUG复现情况
  • 1.3.2.3 BUG具体描述
  • 1.3.2.4 BUG分析
  • 1.3.3 结论
  • 2、分析
  • 2.1 开发实践估计
  • 2.2 同类产品对比
  • 2.3 给软件团队的具体建议
  • 2.4 bug原因分析
  • 3、建议与规划
  • 3.1 市场概况
  • 3.2 市场现状
  • 3.3 市场与产品生态
  • 3.4 产品规划
  • 3.4.1 NABCD 分析
  • 3.4.2 项目规划

1、调研,测评

1.1 分析的产品

文心一言、通义千问

1.2 第一个产品(文心一言)

1.2.1 使用体验

1.2.1.1 软件介绍

文心一言(ERNIE Bot)
文心一言是百度于2023年推出的一款AI助手,主要应用场景包括专业学术论文的翻译和理解、辅助法律问题分析、快速理解API开发文档等。作为全球首批支持大规模文本输入处理的产品之一,文心一言可处理超过2万字符的文本输入。百度文心一言的研发团队由多位在自然语言处理和大模型研发领域经验丰富的专家组成,团队成员参与了多个大型模型的开发,如ERNIE、悟道NLP等。不仅如此,文心一言的核心技术被广泛应用于百度自有产品以及其他多个行业领域。综合来说,文心一言具备以下六项主要功能:长文总结与生成、联网搜索、数据处理、代码编写、用户交互和多语言翻译。

1.2.1.2 软件使用

  • 软件主要使用的是百度账号,软件注册时也是注册百度账号,所以如果已经拥有百度账号就可以直接使用文心一言。另外,还可以通过手机短信直接注册或登录百度账号,如果绑定有微信、QQ、微博账号的话,也可以使用这些账号进行登入。

    在这里插入图片描述

  • 软件功能测试(联网功能),让AI联网搜索热度较高的游戏,并推荐给我们。

    在这里插入图片描述

  • 软件功能测试(画图),让AI进行绘图。

    在这里插入图片描述

  • 软件功能测试(分析文档),让AI进行文档分析。

    在这里插入图片描述

1.2.1.3 优缺点分析

  • 优点:

    • 中文语言处理能力:作为一款由百度研发的中文语言模型,文心一言在中文自然语言处理上有出色的表现,具备准确的语义理解能力和优质的语言生成能力。对于中文用户来说,它的上下文理解、词语搭配和表达更加自然,特别适合中文用户需求。
    • 多模态能力:文心一言不仅仅是一个语言生成模型,还支持图像、文本等多种模态的交互与处理。它能够分析图片、生成图片相关的描述,或将图片信息与文本信息结合,从而提供多维度的服务,这对于复杂任务如医学图像分析、图文生成等应用场景非常实用。
    • 开放平台与易集成:文心一言通过开放的API接口和平台,支持企业或开发者在自己的应用中集成其功能。百度提供了完整的技术支持和开发者工具,用户可以在自己的产品中定制化使用文心一言的强大功能。比如爱奇艺就接入了文心一言,为用户进行视频推荐。
    • 百度生态支持:文心一言依托于百度的强大技术生态系统,能够与百度云、百度地图、百度搜索等其他百度产品无缝连接,为用户提供跨产品的综合解决方案。
  • 缺点:

    • 对非中文的语言处理能力较低:文心一言的主要优势在于中文处理,因此在其他语言(特别是小众语言或复杂语法的语言)上的表现可能不如它的中文能力强大。虽然支持英语和部分其他语言,但相比专门的多语言模型(如GPT、DeepL等),它在非中文环境下的表现可能稍显不足,特别是在语义理解和语言自然度上。
    • 与互联网信息的接入能力有限:文心一言的联网搜素具有局限性,大部分情况仅能搜索于国内相关的信息,比如游戏推荐时,推荐的基本都是国内的游戏,而不对国外的游戏进行推荐,就算是国外的游戏更加热门也不进行推荐。
    • 界面不够简洁,功能不够完善:界面充斥着各种会员,VIP充值等UI,很影响用户体验,而且各种各样的功能也只有会员能够使用,总之就是界面UI不够好,过于商业化。
    • 对上下文的长时记忆有限:尽管文心一言支持多轮对话,但其对长时对话上下文的记忆能力仍然存在限制,特别是在涉及复杂、长期对话时,它可能会遗漏或误解先前的关键信息。

1.2.1.4 用户对产品的改进意见

  • 提升对非中文语言的处理,可以增加用户使用的体验,同时可以扩大用户市场范围。建议增强多语言模型的训练,尤其是提升英语及其他主流语言的语义理解与生成能力,使其在全球市场具备更强的竞争力。
  • 提升互联网信息的接入能力,提高文心一言的联网功能,是其不仅仅局限于国内,更要把目光放到国外的一些优秀信息。
  • 优化界面UI,删除或隐藏掉一些充值界面引导,有需求的用户自然会去寻找,而没有这类需求的用户也可以避免掉一些花哨的充值界面,使得界面更加整洁简洁美观。
  • 文心一言对上下文的长时记忆能力有限,建议改进其多轮对话中的上下文跟踪功能,增强在长期对话中的一致性和连贯性,特别是在客户服务、咨询等场景中,确保AI能够保留并有效利用用户的历史对话。

1.2.1.5 采访用户

  • 采访背景

    采访对象是软件工程的一位学生,他经常使用各种AI软件,对这类软件有独到的见解。

  • 采访过程

    在这里插入图片描述


    在这里插入图片描述


    在这里插入图片描述

1.2.2 BUG描述

1.2.2.1 BUG测试环境

  • 操作系统:Microsoft Windows 11 10.0.22631
  • 浏览器:Microsoft Edge 129.0.2792.79

1.2.2.2 BUG复现情况

  • 复现频率:必然发生
  • 复现步骤:先发送文档,让AI分析,然后让AI画图,会出现所画图像不正确,或者无法画图的问题

    在这里插入图片描述


    在这里插入图片描述

1.2.2.3 BUG具体描述

  • bug现象:文心一言的分析文档功能似乎和画图功能不能一起使用,发送文档之后,画图功能就不能正常使用了,要么画出来的图是不符合描述的,要么提示你它是文档分析助手,不能画图。所以文言一心的这部分功能是存在缺陷的。

1.2.2.4 BUG分析

bug量化指标

严重程度注释
★★★★★极其严重问题,对系统功能有严重程度的影响,严重影响安全性,极其影响用户体验
★★★★严重问题,对系统功能有很大程度的影响,影响安全性,非常影响用户体验
★★★需重视问题,对系统功能有一般程度的影响,不影响安全性,比较影响用户体验
★★一般问题,对系统功能有较小的影响,不影响安全性,稍微影响用户体验
小问题,对系统功能几乎没有什么影响,不影响安全性,也不影响用户体验
  • bug的可能成因:可能是文言一心的文档功能和正常对话的功能是分开的,发送文档后,就更换为了文档分析助手,当你下一句让它画图的时候,它不能很好的切换回正常对话,不能给你画出你所需要的图,甚至可能会给你画个”文档”图,就像上面的GIF一样。
  • bug 的严重性:
    • 系统功能:此问题虽然不会导致系统崩溃,但会影响核心功能,严重影响了文档分析和图片生成功能这两个功能的实用性,如果当这两个功能需要同时使用时,这时的文心一言是无法实现的。
    • 用户体验:用户不能得到想要的图片,特别是在需要准确生成图片的时候,同时,如果两个功能不能同时使用,这是一个很不友好的交互体验。
    • 安全性:无安全性问题。
    • 严重性评级:★★★(准确的说是三星半,对系统功能有很大程度的影响,但不影响安全性,又很影响用户体验)
  • Bug的预期及改进建议
    • 预期:应当可以同时正常使用文档分析功能和画图功能,在交叉使用的时候也能正常运行,并不会因为使用的先后顺序而导致用户想要的结果不一致。
    • 改进建议:对这两个部分进行优化,是其能够正常使用,

1.2.3 结论

定性结论:c) 一般
定量结论:

维度类别注释评分(五分制)
核心功能分析三个核心功能,功能设计和质量。3
用户体验用户使用功能时,是否可以正常使用,是否可以按照自己想的那样使用2
界面设计设计是否美观,整洁2
结果准确性用户得到的结果是否准确合理3
响应速度回答的速度是否合适恰当3
总分13(满25)

1.3 第二个产品(通义千问)

1.3.1 使用体验

1.3.1.1 软件介绍

通义千问
通义千问是阿里巴巴集团于2023年推出的一款AI助手,主要应用场景为商业分析、客户服务自动化、智能问答以及辅助企业数据决策等。通义千问支持大规模文本处理和深度语义理解,是全球领先的企业级AI解决方案之一。阿里巴巴的核心技术团队在大规模预训练模型的研发中扮演了重要角色,参与了包括达摩院大模型在内的多个重要项目。通义千问的技术成果在阿里巴巴的生态系统中广泛应用,赋能多行业数字化转型。它主要具备以下6项核心功能:智能客服、数据洞察、文档分析、语音交互、内容生成、自动翻译。

1.3.1.2 软件使用

  • 软件主要使用的是手机账号,软件注册也一般使用手机号注册。另外,还可以通过淘宝账号进行登录,支持淘宝扫码登录。

    在这里插入图片描述

  • 软件功能测试(联网功能),让AI联网搜索热度较高的游戏,并推荐给我们。

    在这里插入图片描述

  • 软件功能测试(画图),让AI进行绘图。

    在这里插入图片描述

  • 软件功能测试(分析文档),让AI进行文档分析。

    在这里插入图片描述

1.3.1.3 优缺点分析

  • 优点:

    • 界面简洁:通义千问的界面非常简洁美观,不花哨,没有过多的充值界面,和广告界面。
    • 多模态能力:通义千问支持文本、图像等多种模态的数据处理和生成。它能够通过分析图文内容生成描述性文字,或将文档信息转化为可视化图表,适用于数据分析、商业报告等多种场景,提升信息表达和沟通的效率。
    • 网络性能好:网络稳定,响应速度快,对于用户体验来说相对较好。
    • 阿里巴巴生态支持:通义千问深度整合于阿里巴巴的广泛生态系统中,能够无缝接入阿里云、钉钉、支付宝等多个平台。这使得企业能够在一个统一的生态系统中管理和运行多种业务工具,实现一站式管理和服务,提升了企业运营的协同效应。
  • 缺点:

    • 绘图功能不够完善:需要一点点地引导才能画出想要的图片,一次性给过多的关键词会提示不能绘出,需要一点点提示来画。
    • 理解能力有限,在理解和处理复杂语境、隐喻、讽刺等语言细微差别时仍可能存在不足。有时候可能无法完全准确地理解用户的意图。
    • 缺乏情感共鸣:在心理层面的对话时,AI不能够理解人类的情绪,从而给出合适的回答,回答过于机械。
    • 对实时热点不能即时分析,数据库缺乏实时性。

1.3.1.4 用户对产品的改进意见

  • 完善绘图功能,是其能更简单高效的完成用户的需求。
  • 优化AI算法,使之能够理解一些复杂语境下的问题,从而得到更好的回答。
  • 优化数据库,实时添加实时热点,使得用户问有关实时性的问题时能得到更好的回答。

1.3.1.5 采访用户

  • 采访背景

    采访对象是软件工程的另一位学生,他接触AI也很多,非常具有采访意义。

  • 采访过程

    在这里插入图片描述

1.3.2 BUG描述

1.3.2.1 BUG测试环境

  • 操作系统:Microsoft Windows 11 10.0.22631
  • 浏览器:Microsoft Edge 129.0.2792.79

1.3.2.2 BUG复现情况

  • 复现频率:必然发生
  • 复现步骤:新建一个对话,然后上传一份文档,之后点击文档上传记录的“返回对话”时,不能正确返回对话,会到新建对话界面。

    在这里插入图片描述

1.3.2.3 BUG具体描述

  • bug现象:新建一个对话,然后上传一份文档,之后点击文档上传记录的“返回对话”时,不能正确返回对话,会到新建对话界面。重进网页之后才恢复正常,能够正确返回之前建的对话,但如果继续新建对话,无论新建多少个,2个,3个对话,这些对话上传文档后,都不能从文档上传记录那里返回对应的对话,必须重进网页之后才能正常的在文档上传记录那里返回对应对话。

1.3.2.4 BUG分析

bug量化指标

严重程度注释
★★★★★极其严重问题,对系统功能有严重程度的影响,严重影响安全性,极其影响用户体验
★★★★严重问题,对系统功能有很大程度的影响,影响安全性,非常影响用户体验
★★★需重视问题,对系统功能有一般程度的影响,不影响安全性,比较影响用户体验
★★一般问题,对系统功能有较小的影响,不影响安全性,稍微影响用户体验
小问题,对系统功能几乎没有什么影响,不影响安全性,也不影响用户体验
  • bug的可能成因:可能是文档上传记录那里没有记录下来新对话的链接,导致那里的“返回对话”返回的是新建对话的链接(可能为默认返回值),不能够正确的返回对应的对话(本次新建的对话),然后重新刷新网页进入之后,文档上传记录那里才记录下来上次新建的对话的链接,然后才能正常返回对应的对话(上次新建的对话)。

  • bug 的严重性:

    • 系统功能:对系统功能有一般程度的影响,不能够正常使用文档上传记录的返回对话功能。
    • 用户体验:稍微影响用户体验,如果有用户经常需要上传文档,然后在一次网页使用里面,多次新建对话进行文件上传,则会收到该BUG的影响,不能正常的适应文档上传记录的返回对话功能。
    • 安全性:可能存在数据安全问题,毕竟这涉及文档的上传。
    • 严重性评级:★★★
  • Bug的预期及改进建议

    • 预期:能够完全正常的使用文档上传的返回对话功能,无论是否新建对话也好,很久一起的历史上传记录也好,都应该能够正常返回到对应的对话。
    • 改进建议:完善文档上传记录的返回对话功能,最好可以显示出该对话的编号,或者标题之类的,让用户能够更清晰的看到该文档所在的是哪个对话记录。

1.3.3 结论

定性结论:d) 好,不错
定量结论:

维度类别注释评分(五分制)
核心功能分析三个核心功能,功能设计和质量。3
用户体验用户使用功能时,是否可以正常使用,是否可以按照自己想的那样使用3
界面设计设计是否美观,整洁4
结果准确性用户得到的结果是否准确合理3
响应速度回答的速度是否合适恰当3
总分16(满25)

2、分析

2.1 开发实践估计

一个由计算机大学毕业生,并有专业UI支持的组成6人团队,完成一个类似的AI服务平台,整个项目预计大约需要28周(约7个月)的时间来完成。时间安排如下:

  • 需求分析 (2周)
    • 明确产品功能、用户界面设计风格、技术支持要求等
    • 研究用户以了解目标受众的需求。
    • 编写详细的需求文档。
  • UI设计 (4周)
    • 创建线框图和原型。
    • 进行初步的用户体验测试并根据反馈调整设计。
    • 完成高保真度的设计稿。
  • 后端架构与数据库设计 (4周)
    • 选择合适的后端技术和框架。
    • 设计数据库模式。
    • 开发API接口。
  • AI模型训练与集成 (8周)
    • 数据收集与预处理。
    • 选择或自定义AI模型。
    • 模型训练与调优。
    • 将AI模型集成至后端服务。
  • 前端开发 (6周)
    • 根据UI设计实现前端页面。
    • 与后端API进行联调。
    • 测试不同设备上的兼容性。
  • 测试 (4周)
    • 单元测试、集成测试、性能测试。
    • 用户验收测试(UAT)。
    • 收集反馈并修复bug。
  • 维护与优化 (持续)
    • 监控系统性能。
    • 收集用户反馈。
    • 定期更新软件版本。

2.2 同类产品对比

1、核心功能方面:

  • 联网搜素功能:就所测评的两个产品来看,文心一言的联网搜素功能是有限制的,限制在国内里的一些信息,而通义千问则没有。
  • AI绘图功能:文心一言的绘图可以一次性给很多个关键词,然后画出一幅图画,通义千问则不行,它需要一点点的引导着作画。但从做出的图画质量上来看,通义千问更胜一筹。
  • 界面UI方面:文心一言的界面充斥着各种各样的充值入口,给人的观感很不好,通义千问则没有这个问题。
  • 文件分析方面:两者的文挡分析都相差不大,个人感觉上来说,通义千问要好一些。
  • 长时对话记忆功能:二者都有所欠缺,这方面对比业内其他AI平台来说,做到还是不够好。

2、用户体验方面:

  • 两者都有着一些用户体验方面的BUG,总体上来讲,都没啥大问题,个人选择的话,会觉得 通义千问>文心一言。

2.3 给软件团队的具体建议

  • 文心一言:
    • 改进一下前端界面,减少一些充值入口,会让人感觉好很多。
    • 优化一下文档分析功能,不再与绘图功能产生BUG
  • 通义千问:
    • 优化一下文档上传记录功能
    • 可以让界面更简洁一下,去除掉一些不必要的广告和频道

2.4 bug原因分析

  • 文心一言:
    可能是设计团队没有考虑过这两个功能会有人交叉使用,还可能是因为测试没有能够覆盖到这一方面所导致的。
  • 通义千问:
    可能是因为测试没有覆盖到吧,也有可能是开发团队不够重视这个问题,导致一直存在到现在。

3、建议与规划

3.1 市场概况

1、市场大小

多个研究机构和分析报告均指出,2024年中国人工智能市场规模将实现显著增长。有预测认为,市场规模将突破6000亿元大关,这显示了人工智能行业的强劲发展势头。工智能技术在各行各业的应用不断扩展,为市场增长提供了强大的动力。未来,随着技术的进一步成熟和应用场景的深化,人工智能市场规模有望继续保持高速增长。

2、用户多少

直接用户:包括人工智能企业用户、互联网公司相关人员、政府机构相关工作人员、制造业领域相关工作人员等等

潜在用户:教育领域相关从业人员、交通、农业、服务业等领域相关从业人员等等

3.2 市场现状

1、相关同类产品:ChatGPT、文心一言、通义千问、Kimi、讯飞星火等等
2、产品优劣:

  • ChatGPT:
    • 定位:由OpenAI开发的大型语言模型,全球领先的AI模型,行业的领头软件
    • 优势:在处理各各种问题上都有领先其他模型的优势,毕竟是行业的先驱者
    • 劣势:在中国的环境下,稍逊于其他AI模型,同时也存在着网络问题
  • 文心一言:
    • 定位:由百度开发的AI模型,专注于中文自然语言处理和生成任务。
    • 优势:针对中文进行了深度优化,更擅长处理中文相关的内容,支持多模态学习。
    • 劣势:英文资源相对较少,国际化程度不如一些全球性产品。
  • 通义千问:
    • 定位:阿里云推出的大规模语言模型,旨在提供跨领域的语言理解和生成服务。
    • 优势:融合了阿里巴巴集团丰富的行业经验和技术积累,提供了较为全面的服务接口,便于开发者集成使用。
    • 劣势:面临对特定领域专业知识覆盖不足的问题。
  • Kimi:
    • 定位:主要应用于学术论文翻译和理解、法律问题分析、API文档快速理解等领域。
    • 优势:能够处理大规模文本,适用于需要深度阅读和理解的任务。
    • 劣势:相对于其他更广泛用途的AI助手,Kimi的应用范围可能更为专一。
  • 讯飞星火:
    • 定位:科大讯飞推出的语音交互系统,重点在于通过先进的语音识别技术提供高效的语音交互解决方案。
    • 优势:凭借科大讯飞在语音技术上的深厚积淀,拥有领先的语音识别和合成能力。
    • 劣势:英语的训练会相对较少,影响全球性推广。

3、竞争关系

  • ChatGPT几乎占据全球市场的大部分额。
  • 其他几款,文心一言,通义千问等等占据大部分的中国市场,相互竞争。

4、领域阶段

目前看来应该还是风口期,仍有大部分人才尝试挤入这个市场。

3.3 市场与产品生态

1、核心用户群

  • 文心一言:主要面向中文用户,特别是那些需要处理大量中文内容的企业和个人。这包括新闻媒体、内容创作者、研究人员等。
  • 通义千问:企业和开发者群体,尤其是那些需要强大的自然语言处理能力来支持其业务流程或开发新应用的用户。

2、用户及产品生态:

  • 许多用户可能会同时使用多个AI助手来满足不同的需求。例如,一个研究者可能使用文心一言进行初步资料收集,然后用Kimi深入分析文献。
  • 不同AI助手可以根据各自的优势在某些场景下互补,如结合语音识别(讯飞星火)与文本生成(通义千问)提供更全面的服务。

3.4 产品规划

3.4.1 NABCD 分析

功能:给通义千问做一个个性化内容推荐,根据用户个人偏好和历史交互进行深度定制化的内容推荐,实现一个自己的AI。

  • Need:用户在使用通义千问时,可能希望获得更加个性化的信息和知识,以满足他们的特定兴趣或职业发展需要。
  • Approach:通过分析用户的查询记录、阅读习惯等数据来建立详细的用户画像,采用机器学习技术,特别是协同过滤和基于内容的推荐算法,来生成个性化推荐列表。
  • Benefit:用户可以更快地找到与其兴趣相关且高质量的内容,帮助用户发现知识领域,支持其职业生涯和个人兴趣的发展。
  • Competition:市场上已经有一些平台提供类似的服务,Google Discover等个性化内容推荐服务。不过,通义千问可以利用阿里云强大的AI能力,提供更为精准和动态的内容推荐。
  • Delivery:首先在内部团队中进行测试,收集初步反馈并进行调整,然后邀请一部分活跃用户参与封闭测试,进一步完善功能,最后正式向所有用户推出该功能,并通过各种渠道宣传推广。

3.4.2 项目规划

  • 团队配置:
    • 1名产品经理(负责整体规划、需求收集与分析)
    • 2名后端开发工程师(负责实现功能,包括数据库设计、API开发等)
    • 1名前端开发工程师(负责用户界面的设计与实现)
    • 1名测试工程师(负责编写测试用例,执行各种测试)
    • 1名UI设计师(制作原型图和高保真设计稿)
  • 详细规划:
    • 第1-2周:需求分析定义与规划
    • 第3-5周:设计与前期开发
    • 第6-11周:核心功能开发
    • 第11-13周:全面测试与优化
    • 第14-15周:最终调试与准备上线
    • 第16周:正式发布与后续支持
...全文
16 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

108

社区成员

发帖
与我相关
我的任务
社区描述
202401_CS_SE_FZU
软件工程 高校
社区管理员
  • FZU_SE_TeacherL
  • 032002124林日臻
  • 助教姜词杰
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧