软件工程实践——软件评测作业

222100411刘畅 2024-04-15 20:02:04
这个作业属于哪个课程2302软件工程社区
这个作业要求在哪里软件工程实践——软件评测作业
这个作业的目标调研,评测两款软件,分析软件质量优劣,并给出自己的建议和规划
其他参考文献《构建之法》

第一部分 调研,评测

Bug评级量化标准:

描述星级
该Bug会导致系统崩溃或无法启动;造成数据丢失或数据完整性受损;存在严重的安全漏洞,允许未经授权的访问或攻击。
该Bug导致关键功能不可用或无法正常工作;对用户体验造成重大影响,但系统仍然可用;存在重要的安全漏洞,可能会导致敏感信息泄露或系统受损。
该Bug导致某些功能异常,但不影响系统的核心功能;对用户体验造成一定程度的不便,但仍可接受;存在一些安全漏洞,但需要一定条件才能利用。
该Bug存在一些较小的功能异常或界面问题,但不影响系统的正常运行;对用户体验影响较小,或者只影响一小部分用户;存在一些潜在的安全隐患,但风险较低,不太可能被利用。
该Bug通常是一些拼写错误、排版问题或视觉上的细微缺陷;对系统功能和安全性没有直接影响,只是影响外观或用户感知;不会影响系统的可用性或性能。

1.文心一言

文心一言(英文名:ERNIE Bot)是百度全新一代知识增强大语言模型,文心大模型家族的新成员,能够与人对话互动、回答问题、协助创作,高效便捷地帮助人们获取信息、知识和灵感。文心一言从数万亿数据和数千亿知识中融合学习,得到预训练大模型,在此基础上采用有监督精调、人类反馈强化学习、提示等技术,具备知识增强、检索增强和对话增强的技术优势。

1.1体验

1.1.1使用体验
  • 先进行测试是否能够正确回答基本的常见问题

    9PWFPZ2J6RIMPMXW~AQ7NAL.png

  • 然后进行测试其能否正确识别并回答不同领域的问题,如历史、科学、文化等。

    ES___VRU8SHZLU_HME1OB@V.png

  • 然后再测试其是否能够理解复杂的问题,如含有多个条件或限定的问题。

    B6Q_PGKY@_X_Z_GK___UBSN.png

  • 在百宝箱中发现其可以AI作画,测试了一下其功能,发现存在诸多Bug,无法根据描述的一句话画出所需求的图片。

    9~@U_TA7BL_KM__F_BJ8GOG.png

    1.1.2优缺点分析
    优点:
  • UI界面简洁美观,使用方便。
  • 具有免费大模型版本,能够完成一些基本问题。
  • 可以进行免费AI作画,具有独特亮点。
  • 处理大量并发请求时的响应速度较快,暂未存在回答超时或延迟的情况。

缺点:

  • 尽管在语言理解方面取得了巨大进步,但仍然存在理解复杂语义和上下文的挑战,导致部分问题无法准确回答或产生误解。
  • 通常无法理解人类的情感和情绪,难以提供情感化的回答或支持。
  • 通常只能基于已有的数据和知识进行回答,缺乏人类的创造性和想象力,无法提供创新性的解决方案或意见。
  • 用户的个人信息和查询历史可能会被收集和分析,存在隐私泄露的风险。
1.1.3其他用户体验

采访对象:是软件工程本专业的一个朋友,选他的原因是他平时热衷于翻墙使用AI技术解决一些问题作为参考,这次让他测试一下国内的AI,让他给出一些用户体验。
![20_TP_E66LH_UFE2`PHCF.png](https://s2.loli.net/2024/04/15/YfGEvbIdxz63npZ.png)

1.1.4改进意见

加强在理解语义和上下文方面的能力,使其能够更好地理解复杂问题并给出准确的答案。引入常识推理和逻辑推理的机制,使模型能够基于常识和逻辑思维来回答问题,而不仅仅是依赖于大量的数据和语料库。加入情感分析功能,使模型能够理解和回应用户的情感,提供更加人性化的交流和支持。

1.2BUG

1.2.1Bug发生时的测试环境
  • 操作系统:Windows10
  • 浏览器环境:Firefox浏览器
  • 发生时间:2024/04/15 17:10
  • 发生原因及结果:让他画一个白人警察在追捕一个白人,结果就生成了一个警察。
    1.2.2Bug的可复现性及具体复现步骤
    • Bug的可复现性:Bug的可复现性是指在相同或类似的环境下,是否能够重现出相同的错误或异常情况。比如对画一个白人警察在追捕一个白人这个问题,我输入了两次,两次生成的结果都只生成了一个警察。
  • Bug的复现步骤:换一个类似的问题,或者对这个问题进行更加深入的描述,看是否还会出现这个Bug。
  • Bug的具体描述:在多次测试并且对比输出结果来看,如果我进一步具体描述,该AI就能进行大致的正确输出,但再进行更加详细的指出他的不足时,Bug又会再次出现。如下图:

    J_1J6_2~CB1EN0L7YAM5_RG.png

1.2.3Bug分析
  • Bug的可能成因:
    该AI模型的语义理解能力不足,无法根据用户描述完成相应功能。
  • Bug的严重性:⭐️⭐️⭐️
    用户体验很差,让用户多次进行精细化的提问,提问了还不能完成相应的作画。
  • 对于Bug的预期及改进建议:
    使用的版本是文心一言的3.5大模型,可能相比于4.0会存在不足,但基本的客户需求无法得到满足,开展更多扩展功能实在是有点多余,希望能更倾向于训练模型以达到能更好的理解客户需求。

    1.3结论

    测评指标得分(满分10分)评价
    用户界面8良好
    功能完整性8良好
    响应速度7一般
    可靠性5一般
    安全性7一般

总体来说我一般推荐这款AI软件,他作为一款国产AI,比较面向大众的,基本的问答的常识和限定语句的理解尚可,相对简单的AI作画还是可以实现,但放在业内是实在没有达到标准的一款产品。总的来说他是比较适合大众体验AI技术的一款产品。

2.Kimi

Kimi,是月之暗面于2023年10月推出的一款智能助手,主要应用场景为专业学术论文的翻译和理解、辅助分析法律问题、快速理解AAPI开发文档等,是全球首个支持输入20万汉字的智能助手产品。

2.1体验

2.1.1使用体验
  • 首先,根据上一个测试产品糟糕的AI作画体验,我先问了kimi是否会作画,他并不会,确实并不成熟的AI作画技术还不如不使用。
    ![BNNJ09A9_`M3T9_YPO6MWA7.png](https://s2.loli.net/2024/04/15/vo5JtKa9iCmG2ID.png)
  • 为了统一标准,我问了与上一个产品相同的几个问题,发现其能够正确回答基本的常见问题,也能正确识别并回答不同领域的问题。

    Y5K_6EMRQ2TN_O@F5WD8O_5.png

  • 其中最让我感到惊喜和意外的是他能够从互联网上获取资料并附上资料的链接,在问答框那边发现了他可以手动选择是否接入互联网,这是一个比较好的功能。

    H5ZK7E567L8GS_0KS_BCF1G.png

  • 在接入互联网功能旁边是他的上传文件功能,我尝试上传一个Word文件让他生成PPT,这点无法做到,但是他能根据文档内容给出生成PPT的建议,这是一大亮点。

    ~WH1_A_0C_R2CWL2DYHA_NE.png

    ##### 2.1.2优缺点分析
    优点:
  • 能够流畅进行对话,对话具有逻辑性。
  • 可以快速访问和分析大量的文本信息,为用户提供准确的信息和答案。
  • 可以上传文件并根据文件内容给出建议。
  • 回答问题时能接入互联网,调用更多数据。

缺点:

  • 无法实现直观的视觉界面效果。
  • 无法根据已有内容创作文件。
  • 依赖已经被训练好的模型。
  • 情感理解有限,虽然可以进行一定的高情商对话,但对话内容僵硬,与真人存在较大差距。
  • 创造力局限,不如人类那样具有高度的创造力和想象力。
    2.1.3其他用户体验
    还是跟上一个产品同一位测试用户,根据他的反应得出两款产品的区别。

    ISY8V_FMFC0I6ORXNVBFR_5.png

    2.1.4改进意见
    功能结构较为单一并不一定是弱项,如果专注于训练ai模型,提高交互速度以及拓展文件处理,会比功能繁多但并不专精的产品效果更好,更能吸引用户。

    2.2BUG

    2.2.1Bug发生时的测试环境
  • 操作系统:Windows10
  • 浏览器环境:Firefox浏览器
  • 发生时间:2024/4/15 19;09
  • 发生原因及结果:我问他“你为什么要难过,你的人生已经足够可笑”,他无法理解这一个梗。
    2.2.2Bug的可复现性及具体复现步骤
    • Bug的可复现性:多次测试之后发现,他的理解并不足以达到能理解人类的一些梗和冷笑话之类的。
  • Bug的复现步骤:不断地问他类似的问题,他就会输出不同的结果,可能是承认自己作为ai无法理解人类的情感,也可能是根本不理解这个梗,反而对这个问题中的关键字进行分析。
  • Bug的具体描述:
    我跟他玩了个梗“你为什么要难过,你的人生已经足够可笑”,他无法理解这是什么意思,承认自己无法理解人类情感。

    GNHDEZ86VH7W@KK__IRNL_X.png


    我又问了他类似的玩笑问题,他并没能理解其中的玩笑意味,一本正经的做出解释。
    ![8G3RV75MIJ`30_P_4O_UXF3.png](https://s2.loli.net/2024/04/15/epN78v231PiLdXZ.png)

    YZ@C32F_L_@_PQI9PTM_BHV.png


    但有趣的是,他作为一个ai模型,会对宗教信仰和个人生命观产生尊敬和谨慎

    _@L85F2_X@C_@9@95@__E9R.png

2.2.3Bug分析
  • Bug的可能成因:
    通常难以理解人类的情感和情绪,难以提供情感化的回答或支持。
  • Bug的严重性:⭐️
    这算不上什么很大的问题,本来就是对于ai模型的一种测试其情感性,ai的情感性太高反而并不是一件什么好事,同时,他能读取问题中的关键字给出相关回答,相对比较严肃,符合一个机器应有的标准。
  • 对于Bug的预期及改进建议:
    情感化ai,让他具有高情商能模仿真正人类一样是一条可以设想的道路,可以加入情感分析功能,使模型能够理解和回应用户的情感,提供更加人性化的交流和支持。

    2.3结论

    测评指标得分(满分10分)评价
    用户界面9优秀
    功能完整性6一般
    响应速度8良好
    可靠性9优秀
    安全性8良好
    界面整洁,功能相比于行业并不完整,但是胜在模型训练的较好,响应速度快,回答可靠性高,我会比较推荐这款产品。

    第二部分 分析

    1.开发时间估计

    AI模型的开发时间因多种因素而异,包括但不限于以下几点:
  1. 复杂性: 模型的复杂性是影响开发时间的关键因素。较简单的模型可能只需要几周或几个月的时间来开发,而更复杂、更庞大的模型可能需要数月甚至数年。

  2. 数据收集和清洗: 数据是训练AI模型的关键。收集、清洗和准备数据可能是一个耗时且繁琐的过程,特别是当需要大量的标记数据时。

  3. 算法研究和优化: 如果模型涉及到新颖的算法或技术,可能需要更多的时间来进行研究、实验和优化。

  4. 团队规模和技能水平: 开发团队的规模和成员的技能水平也会影响开发时间。一个经验丰富的团队可能能够更快地完成开发任务。

  5. 资源投入: 资源投入包括时间、人力、硬件设备等。有足够的资源支持,可能能够加快开发进度。

综合考虑以上因素,一款AI模型的开发时间可能从几个月到数年不等。通常情况下,一个中等规模的AI模型的开发时间可能在6个月至2年之间。但这只是一个粗略的估计,具体的开发时间还需要根据具体情况进行评估。

2.同类产品对比排名

  • 对于文心一言这款产品,我的评价是其多而不精,有一种什么都想要什么都不完整的感觉,比较适合当一款大众体验类产品,相比于行业内其他产品竞争性不强,在国内可能名气大于实力,排名虚高。
  • 对于Kimi这款产品,在此之前并没怎么听说过,用了眼前一亮,我觉得其与文心一言相反,专注于自身优势,并不扩展更多功能,认清自身优势,发展相关扩展,实力大于名气,排名应该也挺高。

    3.软件工程方面的建议

  1. 需求分析与规划: 在项目开始阶段,确保对需求进行全面的分析和规划。明确项目的目标、范围和优先级,以便团队能够有针对性地进行开发工作。

  2. 模块化设计: 将整个开发过程分解为模块,并进行模块化设计。每个模块应该具有清晰的职责和接口,便于团队成员之间的协作和交流。

  3. 版本控制: 使用版本控制系统(如Git)对代码进行管理。确保团队成员能够方便地共享、协作和追踪代码的变更历史。

  4. 代码审查: 实施代码审查机制,确保代码质量和一致性。通过代码审查可以发现潜在的问题和改进的机会,提高代码的可维护性和可扩展性。

  5. 持续集成与自动化测试: 建立持续集成和自动化测试流程,确保每次代码提交都能够进行自动化测试和部署。这有助于及时发现和解决问题,并确保软件质量。

  6. 文档编写与知识共享: 编写清晰、详细的文档,包括设计文档、API文档、用户手册等。确保团队成员能够理解和共享项目的知识和经验。

  7. 团队沟通与协作: 建立良好的团队沟通和协作机制。定期举行会议、讨论和沟通,确保团队成员之间能够有效地交流和合作。

  8. 迭代开发与反馈循环: 采用迭代式的开发模式,定期发布版本并收集用户反馈。根据用户反馈不断改进和优化产品,确保产品能够满足用户需求。

4.BUG存在的原因分析

  1. 数据质量问题: 数据质量不佳是导致模型出现Bug的常见原因之一。如果训练数据存在噪声、错误标注或不平衡的情况,模型可能无法正确学习到数据的特征,从而导致Bug的出现。

  2. 算法选择问题: 选择不适合问题场景的算法或模型结构也可能导致Bug的出现。不同的问题可能需要不同的算法和模型结构,如果选择不当,模型可能无法很好地拟合数据,导致性能下降或错误预测。

  3. 训练过程问题: 训练过程中可能存在超参数选择不当、训练数据过拟合、梯度消失或爆炸等问题,这些都可能导致模型出现Bug。

  4. 模型复杂性问题: 当模型过于复杂时,可能会导致模型过拟合、训练时间过长或计算资源不足等问题,从而影响模型的性能和稳定性。

  5. 数据偏差问题: 数据偏差指的是训练数据与实际应用场景的差异,如果训练数据无法很好地代表实际场景,模型可能无法泛化到新的数据,导致Bug的出现。

  6. 特征选择问题: 特征选择不当可能导致模型无法捕获数据的重要特征,从而影响模型的性能和泛化能力。

  7. 部署环境问题: 模型在部署环境中可能受到硬件设备、网络延迟、数据传输等因素的影响,这些因素可能导致模型在实际应用中出现Bug。

第三部分 建议和规划

1.市场概况

  1. 市场规模: AI行业的市场规模正在快速增长,根据不同的研究和报告,AI市场的规模可能在数千亿美元至数万亿美元之间。随着人工智能技术的不断发展和应用场景的扩大,预计市场规模还将继续增长。

  2. 直接用户: AI行业的直接用户包括各种企业、组织和机构,他们通过采购AI技术和服务来提升业务效率、创新产品和服务,以及解决复杂的问题。这些直接用户可能涉及到各个行业领域,如金融、医疗、零售、制造等。

  3. 潜在用户: 潜在用户包括所有可能受益于AI技术的个人、企业和组织。随着AI技术的普及和应用场景的拓展,潜在用户的数量可能是巨大的。从智能家居产品到智能手机应用,从自动驾驶汽车到智能医疗设备,都有潜在的用户群体。

    2.市场现状

    目前市场上存在多款生成式AI软件,包括文心一言、ChatGPT、Kimi等,各具特色。

  • ChatGPT:

    • 定位: ChatGPT是一个通用性的对话生成模型,旨在与用户进行自然语言交互,并提供各种类型的信息和服务。
    • 优势:
      • 高度通用:可以应用于多种场景,包括客户服务、虚拟助手、教育等。
      • 多功能性:能够回答各种类型的问题,并提供广泛的知识和信息。
      • 自然语言理解能力强:能够理解和生成自然、流畅的语言。
    • 劣势:
      • 缺乏特定领域的深度专业知识:在某些特定领域的专业知识上可能不如专业的领域模型。
      • 对话质量受限于训练数据和语言模型的局限性。
      • 可能存在理解误差或生成不合逻辑的回答。
  • 文心一言:

    • 定位: 文心一言是一个提供启发性语录的生成式AI应用,旨在提供心灵抚慰和启发。
    • 优势:
      • 简单易用:通过简洁的命令行界面即可生成启发性的语录。
      • 心灵抚慰:提供富有启发性和哲理性的句子,能够激励人们思考和反思。
      • 跨文化传播:语录涵盖多个领域和文化,适用于全球用户。
    • 劣势:
      • 功能单一:只能生成语录,缺乏其他功能或交互方式。
      • 缺乏个性化定制选项:不能根据用户的偏好或需求生成定制化的语录。
      • 依赖于静态数据:语录内容可能受限于固定的数据来源。
  • Kimi

    • 定位: Kimi是一个专注于创意和文学创作的生成式AI应用,旨在为用户提供创意和灵感。
    • 优势:
      • 创意性强:提供创意性的故事情节、人物设定等,有助于创意和文学创作。
      • 文学知识丰富:基于大量的文学作品和创意素材,能够生成多样化且质量高的创意内容。
      • 支持多种文学风格和类型:能够根据用户的需求生成不同风格和类型的创意内容。
    • 劣势:
      • 受限于生成文本的连贯性和逻辑性:生成的文本可能存在逻辑不通或内容不连贯的问题。
      • 无法替代人类创作:虽然能够提供创意和灵感,但不能完全替代人类的创作过程和思维。
      • 可能存在版权问题:生成的文本可能受限于版权法律,无法商用或出版。
  • 以上三款产品间的市场关系:

    • 互补关系:

      • ChatGPT作为一个通用性的对话生成模型,主要用于与用户进行自然语言交互,提供各种类型的信息和服务。它的市场定位相对广泛,适用于多种场景,包括客户服务、虚拟助手等。
      • 文心一言主要提供启发性语录,用于提供心灵抚慰和启发。它的市场定位相对特定,专注于为用户提供灵感和心灵抚慰,与ChatGPT的通用性有所区别。
      • Kimi专注于创意和文学创作,提供创意性的故事情节和人物设定,有助于文学创作和创意产生。它的市场定位也相对特定,与ChatGPT和文心一言的功能有明显区别。
    • 协同合作关系:

      • 虽然三款产品的市场定位不同,但它们在某些方面也可以形成协同合作关系。例如,ChatGPT可以作为文心一言和Kimi的后端引擎,为其提供生成语录和创意文本的支持,从而增强其功能和用户体验。
      • 文心一言和Kimi也可以作为ChatGPT的应用场景之一,将ChatGPT的对话生成能力应用到心灵抚慰和文学创作中,从而拓展ChatGPT的应用领域和用户群体。
    • 竞争关系:

      • 尽管三款产品具有协同合作的潜力,但它们也存在一定程度的竞争关系,特别是在吸引用户注意力和市场份额方面。用户在选择使用某一款产品时,可能会考虑到其功能、体验、品牌知名度等因素,因此这三款产品之间也存在一定程度的竞争。
  • 整个领域正处于上升阶段,类似产品还会源源不断

    3.市场与产品生态

  1. 核心用户群:

    • 创意工作者:包括作家、艺术家、编剧等,他们可能会使用AI产品来获取创意灵感、辅助创作或生成创意素材。
    • 研究人员:包括学者、科研人员等,他们可能会利用AI产品进行数据分析、模型训练或实验设计等科学研究工作。
    • 教育工作者:包括教师、教育机构等,他们可能会利用AI产品来辅助教学、制作教学资源或个性化教育。
    • 创业者和企业家:包括初创企业的创始人、业务开发人员等,他们可能会利用AI产品来创新业务模式、提高生产效率或优化管理流程。
    • 技术爱好者:包括程序员、工程师等,他们可能会对AI技术和产品感兴趣,并希望通过自己的实践来深入了解和应用。
  2. 典型用户:

    • 年龄范围:20岁至50岁之间,主要集中在职场人士和有一定工作经验的人群。
    • 学历和专业:本科及以上学历,主要专业可能涉及到文学、艺术、计算机科学、数据科学等领域。
    • 收入水平:中等以上收入水平,具有一定的消费能力和支付意愿。
    • 爱好和特点:对创意、文学、科学等领域感兴趣,具有创造性思维和求知欲,追求个性化和定制化的体验。
    • 表面需求:获取创意灵感、提升工作效率、解决具体问题等。
    • 潜在需求:追求个性化定制、享受智能化服务、提高生活品质等。可能需要产品能够满足其特定的需求和偏好,提供个性化的服务和体验。
  3. 产品的用户群体之间的关系和可能性:

    • 不同AI产品的用户群体之间可能存在一定的重叠,因为他们都有共同的使用场景和需求。
    • 用户群体之间的交互和共享可能促进用户生态的构建,例如用户之间的交流和分享经验,以及参与产品社区活动等。
  4. 产品的子产品及其他相关产品之间的关系和可能性:

    • 一些AI产品可能具有子产品或衍生产品,例如ChatGPT可能有ChatGPT Lite、ChatGPT Pro等不同版本或功能扩展。
    • AI产品之间也可能存在合作或整合的可能性,例如文心一言和Kimi可能与ChatGPT进行整合,为用户提供更丰富的功能和体验。
    • 利用各个产品特性之间的相互关系,可以构建更完整和多样化的产品生态,从而提供更全面的解决方案和服务。例如,结合ChatGPT的对话生成能力和文心一言的启发性语录,可以为用户提供更灵活和个性化的心理抚慰和启发服务。

4.产品规划

1. ChatGPT 新功能设计:

新功能: 情感分析和情绪识别功能

为何要做这个功能: 情感分析和情绪识别是提升用户体验和交互质量的关键功能。通过识别用户的情感和情绪,ChatGPT可以更好地理解用户的需求和情境,从而提供更个性化、情感化的回答和服务。

用户使用原因:

  • 用户可以更轻松地与ChatGPT进行交流,并获得更符合自己情感状态的回答。
  • 这个功能可以在心理抚慰、娱乐消遣等场景中提供更加个性化和情感化的服务。

创新点:

  • ChatGPT将通过情感分析和情绪识别,实现更智能、更人性化的对话交互,提升用户体验和忠诚度。

NABCD分析:

  • Need:用户需要更加个性化和情感化的对话交互,以满足不同情境下的需求。
  • Approach:通过情感分析和情绪识别,实现智能的对话交互,更好地理解用户情感和情绪。
  • Benefit:提升用户体验,增强用户黏性,增加产品的市场竞争力。
  • Competition:其他AI对话模型可能也在探索情感分析和情绪识别领域,但ChatGPT可以通过其强大的语言模型和训练技术获得竞争优势。
  • Delivery:新功能的交付需要充分的测试和验证,确保功能的准确性和稳定性。

2. 团队配置:

  • 2名开发人员:负责新功能的设计、开发和测试。
  • 1名测试人员:负责测试新功能的稳定性和可靠性。
  • 1名产品经理:负责新功能的需求分析、用户调研和项目管理。
  • 1名设计师:负责界面设计和用户体验优化。
  • 1名项目经理:负责整体项目进度管理和团队协调。

3. 项目周期规划:

  • 第1-2周:需求分析和功能设计,确定新功能的具体需求和功能设计方案。
  • 第3-6周:开发和测试,开发人员负责新功能的编码和测试人员进行功能测试。
  • 第7-8周:界面设计和优化,设计师负责设计新功能的界面和用户体验优化。
  • 第9-12周:整体测试和调试,测试人员负责对新功能进行全面测试和调试。
  • 第13-14周:发布前准备,准备发布新功能的相关文档和宣传资料。
  • 第15周:内部测试和反馈,团队内部测试新功能,并收集用户反馈进行优化。
  • 第16周:发布新功能,将新功能正式发布给用户,并持续跟踪和优化。
...全文
78 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

122

社区成员

发帖
与我相关
我的任务
社区描述
FZU-SE
软件工程 高校
社区管理员
  • LinQF39
  • 助教-吴可仪
  • 一杯时间
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧