软件工程实践——软件测评

222200116吴源桓 2024-10-14 15:23:01

软件工程实践——软件测评作业

这个作业属于哪个课程我们的社区
这个作业要求在哪里作业要求
这个作业的目标软件的调研、分析、建议与规划
其他参考文献

目录

  • 软件工程实践——软件测评作业
  • 一、调研
  • 通义千问
  • 简介
  • 软件使用
  • 优缺点分析:
  • 改进意见
  • 用户采访
  • Bug描述
  • 结论
  • 文心一言
  • 简介
  • 软件使用
  • 优缺点分析:
  • 改进意见
  • 用户采访
  • Bug描述
  • 结论
  • 二、分析
  • 开发时间估计:
  • 通义千问
  • 文心一言
  • 同类产品对比
  • 软件工程方面的建议
  • 通义千问
  • 文心一言
  • bug原因分析
  • 通义千问
  • 文心一言
  • 三、建议与规划
  • 市场概况
  • 市场现状
  • 市场与产品生态
  • 产品规划
  • 团队人员分配
  • 16周开发周期规划

一、调研

通义千问

简介

通义千问是阿里巴巴达摩院自主研发的超大规模语言模型。诞生源于阿里巴巴对人工智能技术的探索和实践,旨在为各行各业提供优质的自然语言处理服务,并且能够应对各种复杂的任务挑战。
截至2024年5月,通义千问提供通义灵码(编码助手)、通义智文(阅读助手)、通义听悟(工作学习)、通义星尘(个性化角色创作平台)、通义点金(投研助手)、通义晓蜜(智能客服)、通义仁心(健康助手)、通义法睿(法律顾问)8大行业模型。
8大行业模型可以帮助人们写代码、读代码、查BUG、优化代码等;短时间内获取长文本提要和概述,掌握要点;对音频内容转写、翻译、角色分离、全文摘要、章节速览、发言总结、PPT提取等功能,并支持标重点、记笔记; 可以解读财报研报,分析金融业事件,自动绘制图表表格,实时市场数据分析等。

软件使用

登陆:使用手机号码登陆或者淘宝扫码登陆

加粗样式


使用:

在这里插入图片描述


在这里插入图片描述


在这里插入图片描述

优缺点分析:

优点:

  1. 持续可用性:不受时间限制,可以全天候提供服务。
  2. 多语言支持:能够使用多种语言进行交流,帮助跨越语言障碍。
  3. 学习与适应能力:通过机器学习算法不断改进,以更好地理解和回应用户需求。
  4. 知识广度:基于广泛的数据和信息源,能够在多个领域提供准确的信息。

缺点:

  1. 响应速度较慢:在使用过程中,对比其他同类型的软件,响应速度慢
  2. 必须先注册登陆才能使用。

    改进意见

  3. 优化算法,加快响应速度
  4. 可以在未登录时以游客模式使用
  5. 提供更多的登陆方式

    用户采访

  • 采访对象:软件工程专业学生

在这里插入图片描述

Bug描述

  • Bug量化标准
    1 - 非常低:轻微的问题,如文本错误或视觉上的小瑕疵。
    2 - 低:不影响主要功能的小问题,但可能影响用户体验。
    3 - 中等:影响部分功能或用户体验,但有变通方法可以继续工作。
    4 - 高:影响重要功能的正常运作,可能导致用户无法完成关键任务。
    5 - 极高:系统崩溃或无法启动,完全阻止了关键功能的使用。
    优先级(Priority)
  • bug发生时的测试环境:
    操作系统:Windows11 23H2
    浏览器:Edge28.0.2739.54 (正式版本) (64 位)
  • Bug的可复现性及具体复现步骤
    复现频率:必然发生
    发生条件:询问一些革命时期的人物时
    复现步骤:
    1. 在聊天框输入对应的内容
    2. 点击发送后系统一次性给出回答,而不是像平常一样逐渐输出回答
    3. 之后该会话被强行结束,无法再进行提问

      在这里插入图片描述

  • bug分析:
    bug的可能成因:
    • 系统在面对政治这类敏感话题时,不论正常提问或是违禁提问都一视同仁地选择Ban掉
  • 严重性:
    • 系统功能:强制结束当前对话,必须得新建一个对话才能继续使用
    • 安全性:不影响系统安全
    • 用户体验:对于像了解这方面知识的用户影响较大
  • 严重性评级:
    3
  • 理由:
    该bug影响了用户体验,但是系统任稳定运行,并且可以通过新建会话继续工作。
  • 对于Bug的预期及改进建议
    在用户输入政治类敏感问题时,系统因加强审查,进而分辨是正常提问还是违禁问题。建议针对该类问题设置一个算法用于判断用户的意图

    结论

  • 推荐程度:d
  • 定量评价
类别描述评分(满分 10 分,良好 6 分,及格 4 分,聊胜于无 1 分,很差 -3 分)
核心功能分析三个核心功能,功能设计和质量。8
细节有什么为用户考虑的细节?8
用户体验当用户完成功能时,不干扰用户 (例如: 是否不断弹出不相关广告)。10
辅助功能一些辅助功能如皮肤等8
差异化功能这个软件独特的功能。它对用户的吸引力有多大?7
软件的效能占用内存,启动速度,内存泄漏情况6
软件的适应性在联网/断网,大小屏幕,没有鼠标的的情况下都可以顺畅操作。和不同平台的软件能流畅协作6
成长性记住用户的选择,适应用户的特点,用户越用越方便8
用户有控制权系统状态有反馈,等待时间要合适。关键操作有确认提示,有明确的错误信息。让用户方便地从错误中恢复工作,快捷操作键可调整。7
总分68

文心一言

简介

文心一言(英文名:ERNIE Bot)是百度全新一代知识增强大语言模型,文心大模型家族的新成员,能够与人对话互动,回答问题,协助创作,高效便捷地帮助人们获取信息、知识和灵感。文心一言是知识增强的大语言模型,基于飞桨深度学习平台和文心知识增强大模型,持续从海量数据和大规模知识中融合学习具备知识增强、检索增强和对话增强的技术特色 。

软件使用

登陆:
支持百度扫码登陆、账号登陆、手机验证码登陆以及微信、微博、QQ第三方登陆

在这里插入图片描述


使用:

在这里插入图片描述


在这里插入图片描述

优缺点分析:

优点:

  1. 知识丰富:文言一心经过大量文本数据的训练,涵盖了广泛的主题和知识领域,可以提供丰富的信息和解答。
  2. 快速响应:文言一心能够在短时间内处理并回答用户的问题,提供即时的帮助和信息。
  3. 多语言支持:文言一心支持多种语言,可以与全球用户进行交流,突破语言障碍。
  4. 持续学习:文言一心可以通过不断的训练和更新来改进自己的性能和准确性,以更好地满足用户需求。

缺点:

  1. 需要充值会员:想要使用更强大的模型必须充值会员
  2. 缺乏主观判断:基于算法和数据进行工作,无法像人类一样进行主观判断或拥有个人意见。
  3. 对语境的依赖性:模型的理解能力在很大程度上依赖于语境和上下文的准确性。如果语境不明确或存在歧义,可能会给出不准确的回答。

    改进意见

  4. 对于会员收费改革,有些人只要偶尔使用一次,却要充值一个月的会员
  5. 优化算法,在面对不明确的语境时可以给出多个回答

    用户采访

  • 采访对象:软件工程专业学生

    在这里插入图片描述

Bug描述

  • Bug量化标准
    1 - 非常低:轻微的问题,如文本错误或视觉上的小瑕疵。
    2 - 低:不影响主要功能的小问题,但可能影响用户体验。
    3 - 中等:影响部分功能或用户体验,但有变通方法可以继续工作。
    4 - 高:影响重要功能的正常运作,可能导致用户无法完成关键任务。
    5 - 极高:系统崩溃或无法启动,完全阻止了关键功能的使用。
    优先级(Priority)
  • bug发生时的测试环境:
    操作系统:Windows11 23H2
    浏览器:Edge28.0.2739.54 (正式版本) (64 位)
  • Bug的可复现性及具体复现步骤
    复现频率:必然发生
    发生条件:询问一些革命时期的人物时
    复现步骤:
    1. 在聊天框输入对应的内容
    2. 点击发送后系统给出错误回答

      在这里插入图片描述


      在这里插入图片描述

  • bug分析:
    bug的可能成因:
    • 机器在读取中文字符时,未能正确的读取编码
  • 严重性:
    • 系统功能:影响用户体验,但不影响系统安全
    • 安全性:不影响系统安全
    • 用户体验:轻微影响用户体验
  • 严重性评级:
    2
  • 理由:
    该bug影响了用户体验,但是系统任稳定运行,也不影响主要功能。
  • 对于Bug的预期及改进建议
    优化机器对于中文字符的读取与区分

    结论

  • 推荐程度:d
  • 定量评价
类别描述评分(满分 10 分,良好 6 分,及格 4 分,聊胜于无 1 分,很差 -3 分)
核心功能分析三个核心功能,功能设计和质量。8
细节有什么为用户考虑的细节?8
用户体验当用户完成功能时,不干扰用户 (例如: 是否不断弹出不相关广告)。10
辅助功能一些辅助功能如皮肤等8
差异化功能这个软件独特的功能。它对用户的吸引力有多大?7
软件的效能占用内存,启动速度,内存泄漏情况7
软件的适应性在联网/断网,大小屏幕,没有鼠标的的情况下都可以顺畅操作。和不同平台的软件能流畅协作8
成长性记住用户的选择,适应用户的特点,用户越用越方便8
用户有控制权系统状态有反馈,等待时间要合适。关键操作有确认提示,有明确的错误信息。让用户方便地从错误中恢复工作,快捷操作键可调整。8
总分72

二、分析

开发时间估计:

通义千问

  1. 项目准备阶段(1-2周)
  • 需求分析:明确产品定位、目标用户群及核心功能。
  • 市场调研:了解竞品情况,确定差异化特点。
  • 技术栈选择:基于团队熟悉程度和技术发展趋势做出决定。
  • 初步设计:包括系统架构设计和UI/UX设计草图。
  1. 设计与原型制作(2-3周)
  • UI/UX详细设计:完成界面设计和用户体验流程规划。
  • 原型测试:通过快速原型工具制作可交互的原型,并进行内部测试以收集反馈。
  1. 技术实现(8-12周)
  • 后端开发:搭建服务器环境,开发API接口,集成NLP/NLU引擎或自研模型
  • 前端开发:根据UI设计稿开发网页版/移动应用版、确保良好的跨平台兼容性
  • 数据处理:构建知识库,训练AI模型等。
  • 安全性和性能优化:确保系统稳定可靠地运行。
  1. 测试与调整(2-4周)
  • 单元测试:对各个模块进行独立测试。
  • 集成测试:将所有组件组合起来进行全面测试。
  • 用户体验测试:邀请部分真实用户参与试用并收集反馈。
  • 迭代改进:基于测试结果进行必要的调整。
  1. 发布与维护(持续)
  • 正式上线:完成最后的准备工作后正式对外发布。
  • 持续监控:关注用户使用情况,及时发现并解决问题。
  • 定期更新:根据用户反馈和技术进步不断升级产品。

    文心一言

  1. 项目规划与需求分析(1-2周)
  • 目标设定:明确软件的功能、目标用户、市场定位等。
  • 需求分析:收集用户需求,进行市场调研,确定功能列表。
  • 技术选型:根据需求选择合适的编程语言、框架、数据库等。
  • UI/UX设计:与专业UI设计师合作,制定界面设计风格和用户体验策略。
  • 项目计划:制定详细的项目时间表、任务分配和里程碑。
  1. 系统设计与架构(2-3周)
  • 系统架构设计:设计软件的整体架构,包括前端、后端、数据库等。
  • 接口设计:定义API接口,确保前后端交互顺畅。
  • 数据库设计:设计数据库模型,优化数据存储和查询效率。
  • 技术文档:编写详细的技术文档,为后续开发提供参考。
  1. 开发与测试(8-12周)
  • 前端开发:实现用户界面,与UI设计师紧密合作,确保视觉效果与用户体验。
  • 后端开发:实现业务逻辑,处理数据请求和响应。
  • 数据库开发:创建数据库,编写数据访问层代码。
  • AI模块开发:如果软件包含AI功能,如自然语言处理、机器学习等,需要额外时间进行模型训练和算法优化。
  • 集成测试:进行单元测试、集成测试,确保各模块功能正常,无严重bug。
  • 用户体验测试:邀请目标用户进行试用,收集反馈,进行迭代优化。
  1. 部署与上线(1-2周)
  • 环境配置:配置服务器、数据库等运行环境。
  • 部署上线:将软件部署到生产环境,进行最后的测试和调整。
  • 安全审计:进行安全漏洞扫描和修复,确保软件安全。
  1. 后期维护与迭代(持续)
  • 用户反馈收集:持续收集用户反馈,了解用户需求变化。
  • 功能迭代:根据用户反馈和市场需求,不断迭代优化软件功能。
  • 性能优化:监控软件性能,进行必要的优化和调整。
  • 安全防护:定期更新安全策略,防范潜在的安全威胁。

    同类产品对比

  • 优点
    • 通义千问
      多模态支持:通义千问不仅支持文本处理,还能够理解图片内容,并据此进行对话。
      广泛的应用场景:在多种实际应用场景中表现良好,如客户服务、教育辅助、创意写作等。
      安全性和合规性:遵循严格的安全标准和社会伦理规范,在设计上注重避免产生有害或不恰当的内容。
    • 文心一言
      中文优化:由于百度长期深耕中文市场,文心一言可能在处理中文相关任务时表现出更强的能力。
      生态整合:作为百度的一部分,文心一言可能会更容易地与其他百度产品和服务相结合,形成更完整的解决方案。
      持续更新与迭代:背靠百度的技术力量,文心一言也会得到定期的更新和性能提升。
  • 局限性
    • 通义千问
      特定领域知识深度:尽管具有广泛的通用知识,但在某些高度专业化的领域内可能不如专门领域的专家深入。
      个性化体验:目前提供的个性化服务主要基于用户即时输入的信息,对于基于长期记忆或深层次个人偏好的定制化服务还有待加强。
    • 文心一言
      国际语言支持:相较于通义千问,文心一言在非中文语境下的表现可能存在差距。
      应用范围:虽然在多个领域都有所涉猎,但其具体的适用范围和技术细节公开资料相对较少,这可能影响到开发者对其能力的全面了解和利用。
      开放程度:根据百度的具体策略,文心一言对外部开发者的开放程度及API接口的灵活性可能有所不同。

      软件工程方面的建议

      通义千问

      建议:
  1. 适当加强对敏感话题的审查而不是全都ban掉。
  2. 提升对复杂对话中长程依赖关系的理解能力,增强在多轮对话中的记忆能力和逻辑一致性。
  3. 在特定的专业领域内深化知识库,如医学、法律等领域,以提供更准确的信息支持。与行业专家合作,确保专业知识的权威性和准确性。

    文心一言

    建议:
  4. 定期收集并整合新的数据源,包括学术论文、行业报告、新闻报道等,以确保知识库保持最新。
  5. 持续优化自然语言处理算法,包括语义分析、句法分析等,以提高对复杂语言结构的理解和生成能力。
  6. 确保服务能够在不同设备和操作系统上流畅运行,提供一致的用户体验。

    bug原因分析

    通义千问

    对于我发现的通义千问的bug,我认为可能是因为面对这些敏感话题时,开发团队考虑不够充分,也可能因为由于其他原因导致这类问题不好处理。

    文心一言

    可以由于机器学习需将字符转为编码,而在转码解码的过程中出现差错,或是机器错误的读取了编码导致的问题

    三、建议与规划

    市场概况

  • 在中国市场,AI智能语音助手展现出强大的发展潜力。例如,在2021年的报告中提到中国智能语音助手市场规模已经突破了240亿人民币,并且智能家居成为关键的应用场景之一。随着智能家居、车载系统等领域的不断扩展,AI助手的普及率也在不断提高。
  • 直接用户:截至2021年左右,据一些市场研究报告估计,全球范围内使用智能语音助手的直接用户数已经达到数亿级别。例如,Google Assistant、Amazon Alexa和Apple Siri等主要平台在全球拥有庞大的用户基础。
  • 潜在用户:考虑到智能手机用户基数庞大(超过50亿),且越来越多的日常设备(如汽车、家用电器)开始集成智能助手功能,全球潜在用户规模可能接近甚至超过现有的智能手机用户数量。

    市场现状

  • 目前市场是上已经存在chatgpt、通义千问、文心一言、kimi等同类产品
  • 产品定位
    • ChatGPT:得益于其强大的英文处理能力和广泛的国际影响力,ChatGPT在全球范围内拥有较高的知名度和用户基础。
    • 通义千问:在中文处理上表现出色,结合阿里云的生态体系,可以快速集成到各类企业级应用中。
    • 文心一言:凭借百度在搜索引擎和大数据分析上的优势,对于中文内容的理解更加深入。
    • Kimi:专注于教育领域,通过针对性的服务来满足特定用户的个性化需求。
  • 领域阶段
    • 该领域处于风口阶段,未来几年内有望继续保持高速增长。

      市场与产品生态

  • 核心用户群体:本科及以上,大学生、研究生、博士生以及学术界人士。
  • 需求:解决学术上的问题,提炼文本内容等
  • 产品的用户群体之间确实可能存在一定的关系,并且这些关系可以被用来构建一个更加丰富和互动的用户生态系统。这种用户生态系统的构建不仅能够增强用户的参与度,还能促进产品的价值传递和持续发展。

    产品规划

  • 我想在当前基础上开放接口,使得在其他软件(word、excel等)软件内可以更方便地使用ai,并且可以针对对应的软件专门训练模型,加强模型在面对特定软件的能力。
  • 原因:在使用过程中,对于某些软件,软件的能力见短,并且在两个软件直接的切换也不太方便
  • 用户使用原因:集成在软件内部的模型更加方便,针对性也更强,对应的能力也更强
  • NABCD分析:
    • Need:用户期望在使用其他软件时能够方便地利用ai工具
    • Approach:开放接口,集成模型到软件内
    • Benefit:方便用户使用,针对特定软件专门训练ai以增强ai的能力,同时提升用户体验
    • Compeitiors:与其他ai软件竞争
    • Delivery:以插件的形式发布,同时不断训练迭代模型

      团队人员分配

  • 3位后端开发,负责后端代码,接口实现,模型训练
  • 1位前端开发,负责ui设计
  • 1位测试人员,负责功能测试和性能测试
  • 1位产品经理,负责市场调研和需求分析

    16周开发周期规划

  • 第1-2周:项目启动与需求分析
    目标:明确项目范围、目标和预期成果;收集并分析用户需求。
    任务:
    • 项目启动会议,确定团队成员及角色。
    • 制定项目计划,包括时间表、里程碑和资源分配。
    • 编写用户故事和需求文档。
    • 确定技术栈和工具集。
  • 第3-4周:详细设计与架构
    目标:完成系统设计和架构规划。
    任务:
    • 设计系统架构图,包括数据库设计、接口设计等。
    • 完成UI/UX设计原型。
    • 制定详细的开发规范和技术文档。
  • 第5-8周:第一阶段开发
    目标:实现核心功能,建立基础框架。
    任务:
    • 按照优先级顺序开始编码工作。
    • 实现主要模块的核心功能。
    • 编写单元测试,确保代码质量。
    • 定期进行代码审查,保持代码的一致性和可维护性。
  • 第9-10周:第二阶段开发
    目标:完善功能,优化性能。
    任务:
    • 继续开发剩余的功能模块。
    • 对已实现的功能进行优化和重构。
    • 集成第三方服务或API。
    • 开始编写集成测试用例。
    • 更新技术文档和用户手册。
  • 第11-12周:全面测试
    目标:进行全面的质量保证,确保产品稳定可靠。
    任务:
    • 执行单元测试、集成测试和系统测试。
    • 进行性能测试和压力测试。
    • 收集并修复测试中发现的问题。
    • 用户验收测试(UAT),邀请部分用户参与测试,收集反馈。
    • 准备上线前的最终版本。
  • 第13-14周:预发布准备
    目标:为正式上线做最后的准备工作。
    任务:
    • 最终一轮的回归测试。
    • 准备部署脚本和文档。
    • 进行安全审查,确保没有明显的安全漏洞。
    • 配置监控和日志记录系统。
  • 第15周:上线与初期运维
    目标:正式上线产品,并提供初期支持。
    任务:
    • 选择合适的时间窗口进行部署。
    • 监控系统的运行情况,快速响应任何问题。
    • 收集用户的初始反馈,记录问题和改进建议。
    • 准备应急计划,以防出现重大问题。
  • 第16周:项目总结与后续规划
    目标:总结项目经验,规划后续工作。
    任务:
    • 举行项目总结会议,回顾整个开发过程中的成功经验和教训。
    • 编写项目总结报告,包括技术文档、用户手册等。
    • 规划下一阶段的工作,如新功能开发、性能优化等。
...全文
98 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

108

社区成员

发帖
与我相关
我的任务
社区描述
202401_CS_SE_FZU
软件工程 高校
社区管理员
  • FZU_SE_TeacherL
  • 032002124林日臻
  • 助教姜词杰
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧