软件工程实践——软件测评

222200222胡彭 2024-10-14 23:53:16
这个作业属于哪个课程https://bbs.csdn.net/forums/2401_CS_SE_FZU
这个作业要求在哪里https://bbs.csdn.net/topics/619351741
这个作业的目标调研,评测,分析,建议和规划
其他参考文献

目录

  • 第一部分 调研,评测
  • 一、文心一言
  • 1.体验
  • 2.采访
  • 3.BUG
  • 3.1BUG发生时的测试环境
  • 3.2Bug的可复现性及具体复现步骤
  • 3.3Bug具体情况描述
  • 3.4Bug分析
  • 4.结论
  • 二、通义千问
  • 1.体验
  • 2.采访
  • 3.BUG
  • 3.1BUG发生时的测试环境
  • 3.2Bug的可复现性及具体复现步骤
  • 3.3Bug具体情况描述
  • 3.4Bug分析
  • 4.结论
  • 第二部分 分析
  • 开发时间估计
  • 同类产品对比排名
  • 总结
  • 软件工程方面的建议
  • 通义千问
  • 文心一言
  • BUG存在的原因分析
  • 第三部分 建议和规划
  • 市场概况
  • 市场规模
  • 用户规模
  • 市场现状
  • 现有产品
  • 产品关系
  • 发展阶段
  • 市场与产品生态
  • 核心用户群
  • 用户生态
  • 产品生态
  • 产品规划
  • 新功能设计
  • 项目团队配置
  • 16周期规划

第一部分 调研,评测

一、文心一言

1.体验

介绍和使用软件: 根据百度百科的描述,文心一言(英文名:ERNIE Bot)是百度推出的一个新一代知识增强型大语言模型,它属于文心大模型家族的新成员。文心一言能够与用户进行对话互动、回答问题、帮助进行创作,并能高效便捷地提供信息、知识和灵感。该模型通过学习数万亿的数据和数千亿的知识构建了预训练大模型,并进一步通过监督精调、人类反馈强化学习和提示技术等进行优化。文心一言在知识增强、信息检索和对话能力方面具有显著的技术优势。使用文心一言时,用户可以通过手机号完成简单的注册和登录。

优缺点分析:

  • 优点:
    • 文心一言在生成文本方面表现出高度的连贯性和自然流畅性。无论是用户提供的主题还是关键词,它都能快速生成逻辑清晰、表达顺畅的文本,大幅减少了写作过程中的构思难度。在我的第一次使用中,输入了一个主题后,文心一言生成的文章整体非常连贯;
    • 此外,它拥有强大的主题生成能力。无论涉及科技、文化或生活等主题,它都能迅速理解并生成相关的句子和段落,为用户提供了丰富的素材和灵感;
    • 值得一提的是,文心一言在内容生成过程中严格遵循道德与法律规范,避免了暴力、色情等不良内容的传播,表现出了积极健康的价值导向,让我感受到正面的能量与态度。
  • 缺点:
    • 虽然文心一言能够在一定程度上理解用户意图,但在某些复杂或特定的上下文中,仍有可能出现理解偏差或生成内容不够准确的情况;
    • 其次,在生成较长文章时,偶尔会出现内容重复或结构单一的问题,可能影响文章的整体质量;
    • 另外,文心一言对单次提问的字数有一定限制,不能超过2000字,这可能在一定程度上限制了与用户的深度互动,也影响了对问题的全面理解。

改进意见:

  • 扩展专业领域知识:文心一言可以进一步丰富其知识库,涵盖更多专业术语和特定语境的表达,以提高在复杂或特定语境下的理解准确性;
  • 优化模型算法:通过改进深度学习算法和模型结构,增强其对语义和上下文的理解能力,减少生成内容中的偏差与误解;
  • 增强内容拓展功能:让用户能够对生成的初稿进行进一步扩展,通过提供额外的关键词或指示,让文心一言在此基础上生成更丰富的内容;
  • 改进文本处理能力:优化文心一言的处理机制,使其能处理更长的输入文本,同时保持较高的响应效率。

2.采访

采访对象:软件工程专业
需求:文本生成

img

3.BUG

星级说明
⭐ ⭐ ⭐严重性高,非常影响用户使用,以及消息传播不实可能造成严重影响。
⭐ ⭐严重性中等,读取用户提问的问题有误,影响用户使用,不能给出用户需要的结果。
严重性较低,读取用户提问的问题有误,影响用户使用,但用户可在此基础上稍作调整。

3.1BUG发生时的测试环境

浏览器:

  • Microsoft Edge
  • 版本 123.0.2420.81 (正式版本) (64 位)

笔记本:

  • 版本 Windows 11 家庭中文版
  • 版本 21H2
  • 操作系统版本 22000.2538
  • 体验 Windows 功能体验包 1000.22001.1000.0

3.2Bug的可复现性及具体复现步骤

可复现性: 是偶尔发生的bug,错误频率较高,出现频率为100次测试中发生了90次。
具体复现步骤: 向文心一言提问“帮我画出一片天空两个太阳的图片”。

3.3Bug具体情况描述

文心一言没有理解用户的具体意思,画出的图像与用户需求不相符,而且是高频率错误。

img

3.4Bug分析

可能成因: 文心一言的训练数据可能来源于各种渠道,如果这些数据中存在错误、噪声或不准确的信息,就可能导致其生成的画作与要求不符。

严重性: ⭐ ⭐
功能不完善,体验感很差,不能获得想要的目标图片。

预期正确结果:

img

建议:

  • 提升模型的自然语言理解能力,使其能够更精准地解析用户的绘画指令。
  • 构建一个用户反馈机制,允许用户对生成的作品进行直接评价与反馈。
  • 与资深艺术家展开合作,邀请他们为模型提供专业指导和建议。
  • 持续优化和迭代模型,以跟上不断变化的绘画趋势和用户期望。

4.结论

c) 一般
定性结论:文心一言虽然在某些情况下存在问题,但整体而言,其功能和体验都十分positive,适合国内需求不高的用户使用。

维度子项评分标准得分
内容生成质量 (30分)流畅性和连贯性逻辑清晰、语句通顺8
主题理解与创意理解多种领域,有时偏差8
信息准确性出现史实混淆和错误生成5
创新能力 (20分)主题生成能力快速生成跨领域内容,有偏差9
独特性与灵感激发丰富素材,积极帮助10
合规性与价值观 (20分)遵守法规与道德严格遵循,积极避免不良内容10
传递正能量积极健康形象10
用户体验 (20分)交互便捷性提问字数限制3
错误修正反应知错未有效修正2
用户满意度流畅性与创意,准确性问题5
稳定性与可靠性 (10分)一致性与准确度内容重复与理解偏差2
系统稳定性推测常规稳定4
总分76

二、通义千问

1.体验

介绍和使用软件:

  • 首先,通义千问的响应速度非常快,输出结果几乎是即时生成,用户可以实时获得回答。
  • 其次,通义千问的交互体验较好,用户可以通过自然语言进行顺畅的对话,这让交流变得更加自然。同时,它还能根据用户的反馈进行智能调整,进一步优化用户体验,满足用户的多样化需求。

优缺点分析:

  • 优点:
    • 反应迅速,回答过程非常流畅;
    • 交互性强,体验自然。
  • 缺点:
    • 回答的准确性,尤其在数学计算方面,仍有待提升;
    • 知识更新不够及时,对于最新的事件或信息存在滞后;
    • 理解复杂问题时能力有限,模型需要持续优化;
    • 训练数据可能存在偏差,导致生成的回答中可能出现类似偏差或错误。

改进意见:

  • 引入实时的知识更新机制,确保信息的时效性;
  • 提高模型的语言理解与推理能力,进一步优化自然语言处理的算法;
  • 增强数学计算能力,结合符号计算、数值计算和机器学习技术,显著提升AI在处理数学问题时的准确性。

2.采访

采访对象:软件工程专业
需求:代码解释生成

img

3.BUG

星级说明
⭐ ⭐ ⭐严重性高,非常影响用户使用,以及消息传播不实可能造成严重影响。
⭐ ⭐严重性中等,读取用户提问的问题有误,影响用户使用,不能给出用户需要的结果。
严重性较低,读取用户提问的问题有误,影响用户使用,但用户可在此基础上稍作调整。

3.1BUG发生时的测试环境

浏览器:

  • Microsoft Edge
  • 版本 123.0.2420.81 (正式版本) (64 位)

笔记本:

  • 版本 Windows 11 家庭中文版
  • 版本 21H2
  • 操作系统版本 22000.2538
  • 体验 Windows 功能体验包 1000.22001.1000.0

3.2Bug的可复现性及具体复现步骤

可复现性: 是偶发,在测试过程中,发现通义千问在处理数学计算时,存在一定的偏差,导致计算结果不正确。
具体复现步骤:询问通义千问一些比较复杂的数学计算

3.3Bug具体情况描述

询问稍微复杂的国债计算题目,通义会搞不懂逻辑关系,导致计算错误

img

3.4Bug分析

可能成因: AI模型在处理复杂的金融计算时,如果训练数据不充分或推理能力不足,可能会误解某些专业术语或者利息计算方式。例如,它可能将利率当作单利计算而不是复利,或者对年利率在不同年度的变化处理不当。

严重性: ⭐ ⭐
结果错误,可能导致严重后果,不太能相信计算结果。
预期正确结果:

img

建议:

  • 1.优化公式推理能力:建议通义在处理金融问题时,确保其使用正确的复利计算公式,尤其是在跨时间段利率变 化时,确保能够正确应用累积本息的再投资计算。

2.加强对金融领域的专门训练:通过增加对复杂金融问题的训练数据集,确保AI模型能够理解不同金融产品(如国库券、定期存款)利息计算的细微差异,特别是复利、单利以及不同时间段的利率变化。
3.引入精度控制机制:在关键的计算步骤中引入小数点精度控制,避免因精度丢失或舍入导致的累计误差。
4.用户反馈机制:建议通义引入用户反馈系统,让用户在遇到问题时能够直接反馈具体的计算步骤或错误,从而改进模型在金融计算上的准确性。

4.结论

d) 好,不错
定性结论:相比于文心一言来说,通义在用户体验,界面舒适度,语言理解和回答上更加智能,更能理解用户的需求,但存在一些问题,如数学计算能力有限,需要持续优化。

维度子项评分标准得分
内容生成质量 (30分)流畅性和连贯性逻辑清晰、语句通顺10
主题理解与创意理解多种领域,有时偏差8
信息准确性出现史实混淆和错误生成5
创新能力 (20分)主题生成能力快速生成跨领域内容,有偏差9
独特性与灵感激发丰富素材,积极帮助10
合规性与价值观 (20分)遵守法规与道德严格遵循,积极避免不良内容10
传递正能量积极健康形象10
用户体验 (20分)交互便捷性提问字数限制3
错误修正反应知错未有效修正2
用户满意度流畅性与创意,准确性问题7
稳定性与可靠性 (10分)一致性与准确度内容重复与理解偏差2
系统稳定性推测常规稳定4
总分80

第二部分 分析

开发时间估计

文心一言

阶段预估时间
需求分析4周
技术选型2周
数据收集与预处理6周
模型训练与优化12周
后端开发12周
前端开发8周
集成与部署4周
测试与调试4周
用户反馈与优化持续进行

通义千问

阶段预估时间
需求分析4周
技术选型2周
数据收集与预处理6周
模型训练与优化16周
后端开发8周
前端开发10周
集成与部署4周
测试与调试4周
用户反馈与优化持续进行

同类产品对比排名

大模型优点缺点
通义千问响应速度快,交互性好,实时调整能力强数学计算精度有限,知识更新滞后,训练数据偏差影响输出质量
文心一言生成内容流畅,主题理解广泛,严格遵守道德和法律规范在复杂语境下理解偏差,长篇文章生成时重复度高,字数限制影响表达
GPT-4语言理解能力强,覆盖领域广泛,逻辑推理能力优秀处理最新数据时偶尔滞后,生成内容有时冗长,访问成本较高
Kimi定制化灵活,集成特定领域知识,个性化输出能力强推广程度较低,训练数据量相对较少,领域外知识覆盖有限

总结

  • 通义千问:适合实时交互和中短期的任务,但在数学计算和知识更新方面有改进空间。
  • 文心一言:生成内容质量较高,但在复杂场景下表现不够稳定,适合需要快速生成内容的场景。
  • GPT-4:适合广泛领域的复杂任务处理,但其成本和实时性可能不如其他模型。
  • Kimi:在特定领域表现良好,适合定制化应用,但在大众化和知识覆盖面上需要加强。
    在我心中:Gpt-4>通义千问=kimi.ai>文心一言

软件工程方面的建议

通义千问

  1. 优化算法模块的解耦

    • 建议对模型的各个功能模块进行更清晰的分层和解耦,特别是自然语言处理、数学计算和推理部分。通过模块化设计,方便日后迭代更新和维护。
    • 好处:这种模块化结构能提高代码的可维护性,使得在特定领域进行优化时,不会影响到其他部分的稳定性。
  2. 引入更强的并行处理机制

    • 目前通义的响应速度虽然较快,但对于计算复杂度较高的任务仍然存在延迟问题。可以引入并行处理机制,充分利用多核 CPU 和 GPU,加速大规模运算。
    • 好处:提高任务处理的并行度和计算效率,特别是在处理复杂计算任务时,提升整体响应速度。
  3. 改进模型的测试和评估体系

    • 强化单元测试和集成测试框架,确保每个模块能够独立测试并评估其稳定性。同时,增加性能和压力测试的覆盖面,特别是针对高负载或极端输入情境下的表现。
    • 好处:提高通义在复杂场景下的稳定性和可靠性,减少Bug的发生率。
  4. 实时知识更新架构

    • 构建自动化的数据更新机制,以定期爬取、分析和整合最新的信息,并将其无缝集成到模型中,从而保持知识的时效性。
    • 好处:确保通义在应对动态变化的信息(例如新闻、法律政策变化)时能够提供更加准确的回答。

文心一言

  1. 改进长文本生成的缓存与优化机制

    • 文心一言在生成长文本时,有时会出现内容重复的问题。可以通过引入缓存机制和上下文优化策略来减少重复生成的内容,并提升文本结构的多样性。
    • 好处:这种优化将有助于生成长篇内容时保持逻辑一致性和避免冗余。
  2. 优化内存和资源管理

    • 由于生成模型可能消耗大量资源,建议加强对内存的管理,通过内存回收机制优化模型在处理大规模数据时的表现,特别是多用户并发访问时的内存管理。
    • 好处:提升系统的稳定性和扩展性,减少崩溃和资源不足问题。
  3. 增强人机交互设计

    • 在文心一言的界面设计上引入更加智能化的提示和反馈机制,使用户能够更清晰地了解其输入如何影响模型输出。这包括对多轮对话中上下文的保持与清晰度的提示。
    • 好处:通过改善用户体验,特别是在复杂对话或任务中,可以减少用户的学习曲线,并提高模型使用的准确性。
  4. 多场景适配与扩展

    • 文心一言可以设计可插拔的场景适配模块,针对不同领域(如医疗、法律、教育)的特定需求,灵活集成专门的数据和算法优化。
    • 好处:这种扩展性设计能够更好地满足垂直行业的需求,提升模型的实用性和应用场景的广泛性。

BUG存在的原因分析

文心一言 文心一言的训练数据可能来源于各种渠道,如果这些数据中存在错误、噪声或不准确的信息,就可能导致其生成的画作与要求不符。
通义千问 AI模型在处理复杂的金融计算时,如果训练数据不充分或推理能力不足,可能会误解某些专业术语或者利息计算方式。例如,它可能将利率当作单利计算而不是复利,或者对年利率在不同年度的变化处理不当。

第三部分 建议和规划

市场概况

市场规模

目前,AI 大模型市场的需求不断增长,尤其是在自然语言处理、生成式 AI 等领域。根据市场研究,全球人工智能市场规模在2024年预计将达到3000亿美元,而其中语言大模型应用的市场份额也在快速上升。具体到中国,随着技术的发展和企业需求的增加,通义千问和文心一言这样的本土大模型产品迎来了显著增长空间。

用户规模

  • 直接用户:目前使用 AI 大模型的用户主要集中在技术公司、学术研究者、开发者、内容创作者等领域。估计直接用户在国内至少有上百万的规模,企业用户为主。
  • 潜在用户:潜在用户则更加广泛,涵盖了各类中小企业、政府部门、教育机构等,预计潜在用户规模超过5000万。

市场现状

现有产品

目前国内市场上已有多款大模型产品,通义千问和文心一言是代表性产品,而国际上 GPT-4 等产品在全球范围内影响力较大。

  • 通义千问:主打实时响应和高效交互,定位为企业和技术开发者的生产力工具,优势在于其与阿里巴巴云平台的整合。
  • 文心一言:百度旗下的知识增强型大模型,主要面向内容创作者和信息获取者,优势在于其知识检索与生成的结合。
  • GPT-4:OpenAI 的产品,全球影响力广泛,定位为全领域通用的自然语言处理工具,优势在于强大的生成能力和语言理解能力。

产品关系

  • 竞品关系:通义千问、文心一言和 GPT-4 都在人工智能领域中直接竞争,彼此在产品功能上有所重叠,尤其是面向企业级用户的应用场景竞争激烈。
  • 市场竞争态势:目前,GPT-4 在全球市场占有率较高,但国内的通义千问和文心一言凭借本地化的优势,正在加速追赶。

发展阶段

当前,AI 大模型行业处于 成长 阶段。随着技术的成熟和市场需求的爆发,未来几年大模型将有持续的增长空间。

市场与产品生态

核心用户群

  • 核心用户群:通义千问和文心一言的核心用户主要是技术开发者、数据科学家、内容创作者、企业员工等。
  • 典型用户:这些用户大多拥有高等学历(本科及以上),年龄在25-45岁之间,专业多集中在计算机科学、数据科学、AI 相关领域。爱好与技术、编程、创新相关,收入多在中高水平。
  • 需求分析
    • 表面需求:高效的内容生成与数据处理,自动化完成重复性任务。
    • 潜在需求:更加智能化的互动、个性化定制服务,以及跨平台无缝集成。

用户生态

用户之间的关系紧密,特别是在开发者社区中存在广泛的技术交流和资源共享。通过技术社区的互动,有可能形成一个更为活跃的用户生态,推动更多用户参与反馈和模型优化。

产品生态

通义千问和文心一言还可以通过扩展子产品(如 API 接口、集成开发工具)形成更广泛的生态系统。通过对接不同领域的产品(如企业管理系统、内容管理平台等),能够构建出更为完善的 AI 应用生态。

产品规划

新功能设计

  • 功能名称:智能反馈优化系统
  • 功能目标:在用户提交问题或生成内容后,提供基于用户历史数据的个性化反馈,并允许用户对生成结果进行评分和修改建议,进一步提升模型的交互性和精准性。
  • 为何选择此功能:用户往往需要对生成的内容进行调整,而通义千问和文心一言的自动优化反馈机制相对较弱。通过加入此功能,可以增强用户体验,促进模型的自我优化。
  • NABCD分析
    • N:解决用户对模型生成结果反馈不足的问题,提升个性化调整体验。
    • A:用户只需简单交互,就能让模型提供符合需求的反馈与调整建议。
    • B:相比竞争对手,此功能能够缩短内容修订和调整时间,提高使用效率。
    • C:推出这一功能后,用户可以更精准地获得个性化内容,减少手动修改的负担。
    • D:通过在用户社群中测试,并对意见进行收集和调整,逐步优化。

项目团队配置

  • 角色配置
    • 2名开发人员:负责核心功能开发和模型优化。
    • 1名测试人员:进行功能测试和Bug修复。
    • 1名美工/UI设计师:负责界面设计与用户体验优化。
    • 1名产品经理:负责项目管理、需求收集与功能规划。
    • 1名运维人员:负责系统部署与维护。

16周期规划

  • 第1-2周:需求分析与方案设计,制定详细的项目计划。
  • 第3-4周:开发智能反馈优化系统的初版架构。
  • 第5-6周:界面设计和前端UI框架搭建。
  • 第7-8周:后端开发,模型接入和数据处理逻辑搭建。
  • 第9-10周:进行前后端整合,初步实现智能反馈功能。
  • 第11-12周:功能测试与Bug修复,进行用户体验优化。
  • 第13-14周:用户体验测试,收集反馈并进行优化调整。
  • 第15周:系统优化与性能调优,进行最终整合测试。
  • 第16周:部署上线并进行市场推广,持续收集用户反馈。
...全文
41 回复 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

111

社区成员

发帖
与我相关
我的任务
社区描述
202401_CS_SE_FZU
软件工程 高校
社区管理员
  • FZU_SE_TeacherL
  • 言1837
  • 防震水泥
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧