软件工程实践——软件评测作业

222200314吴荣榜 2024-10-12 03:52:54
这个作业属于哪个课程https://bbs.csdn.net/forums/2401_CS_SE_FZU
这个作业要求在哪里https://bbs.csdn.net/topics/619351741
这个作业的目标软件评测、市场分析
其他参考文献

目录

  • 1 调研与评测
  • 1.1 文心一言
  • 1.1.1 体验
  • 1.1.1.1 介绍和使用软件
  • 1.1.1.2 优缺点分析
  • 1.1.1.3 用户对产品的改进意见
  • 1.1.1.4 采访用户
  • 1.1.2 BUG
  • 1.1.2.1 Bug量化指标
  • 1.1.2.2 Bug发生时的测试环境
  • 1.1.2.3 Bug1:窗口最大化导致网页重新加载 ★★★
  • 1.1.2.4 Bug2:图片生成不符合预期 ★★
  • 1.1.2.5 Bug3:莫名其妙的违禁提示 ★★★
  • 1.1.3 结论
  • 1.1.3.1 定性结论
  • 1.1.3.2 定量结论
  • 1.2 Kimi
  • 1.2.1 体验
  • 1.2.1.1 介绍和使用软件
  • 1.2.1.2 优缺点分析
  • 1.2.1.3 用户对产品的改进意见
  • 1.2.1.4 采访用户
  • 1.2.2 BUG
  • 1.2.2.3 Bug1:莫名其妙的封禁 ★★★
  • 1.2.2.4 Bug2:拼写检查错误且回答不一致 ★★★
  • 1.2.3 结论
  • 1.2.3.1 定性结论
  • 1.2.3.2 定量结论
  • 2 分析
  • 2.1 开发时间估计
  • 2.2 同类产品对比排名
  • 2.2.1 中文自然语言处理能力
  • 2.2.2 任务复杂性处理
  • 2.2.3 响应速度与用户体验
  • 2.2.4 多模态处理能力
  • 2.2.5 总体排名
  • 2.3 软件工程方面的建议
  • 2.4 BUG存在的原因分析
  • 3 建议和规划
  • 3.1 市场概况
  • 3.2 市场现状
  • 3.3 市场与产品生态
  • 3.4 产品规划
  • 3.4.1 NABCD 分析
  • 3.4.2 项目管理规划

1 调研与评测

1.1 文心一言

1.1.1 体验

1.1.1.1 介绍和使用软件

文心一言是百度推出的一款基于知识增强的大语言模型的人工智能聊天机器人,能够处理对话、内容创作、问题回答等自然语言任务。该模型依托百度飞桨平台,通过融合学习实现知识增强、检索增强和对话增强,并整合了大规模的中文语料库,使其在处理中文场景时表现尤为出色。

  • 现在文心一言已经支持文件分析和图片分析。因此我们可以采用prompt+文件的形式交付给文心一言分析,并得到他的分析结果。结果显示还可以。

img

  • 你还可以让文心一言帮你规划旅行。

img

  • 也可以让文心一言帮忙画图。

img

1.1.1.2 优缺点分析

优点:

  1. 本地化中文优势:文心一言基于百度的飞桨深度学习平台,结合了大量中文语料,使其在处理中文自然语言任务时表现尤为突出,尤其适用于中文对话、翻译和文本生成等场景。

  2. 知识增强能力:文心一言采用了知识增强的大语言模型,通过融合学习提升了对话的准确性和深度。相比一些纯生成式AI模型,它更注重将外部知识库融入对话,帮助用户获取更准确、可靠的信息和知识。

  3. 多功能支持:文心一言不仅能够生成文本,还支持智能翻译、绘图等功能。用户可以借助它处理复杂的任务,提升工作效率。它在多模态任务中也有一定的应用,具备更广泛的实用性。

  4. 开放性和易用性:2023年8月31日文心一言全面向公众开放,这意味着更多用户可以直接体验这款产品,适用于多个行业,如内容创作、客户服务和学习支持。

缺点:

  1. 伦理问题:文心一言在早期版本的测试中,曾引发了一些伦理争议。2023年4月,有网友测试了文心一言、ChatGPT和New Bing,要求它们生成一篇题为《你真的毫无价值》的文章。ChatGPT和New Bing识别出了这一不符合伦理的命题并提出了修改建议,而文心一言则按照指令生成了具有攻击性的内容,未能识别其中的伦理问题。这一事件在网络上引发了广泛的讨论和批评。

  2. 性能不稳定:虽然文心一言在中文对话和知识增强方面具有优势,但在处理复杂或开放式的对话任务时,生成的内容不够精准或缺乏深度,尤其是在与国际同类产品(如ChatGPT)进行比较时。这一性能上的差距曾导致市场反应不如预期,用户对其早期版本的认可度相对较低。

  3. 市场反应一般:文心一言发布后的早期市场反馈较为冷淡,部分原因可能是其初期对话生成质量未达到用户预期,尤其在与其他国际领先的AI产品竞争时,表现出一定的不足。

1.1.1.3 用户对产品的改进意见
  1. 增强伦理判断能力:用户希望文心一言在处理涉及伦理道德问题时能够更加敏感,避免机械式地执行不当指令。改进后的模型应具备更强的道德判断力,以确保生成内容符合道德规范。
  2. 提高生成内容的准确性与深度:用户期望文心一言在处理复杂对话时生成更精确和深入的内容,特别是在逻辑性和语义理解方面做出改进,增强对复杂任务的处理能力。
  3. 提升性能稳定性:用户反馈文心一言在某些场景下表现不稳定,希望未来版本能够增强多任务、多场景下的表现一致性,保证在各种使用场景中的稳定输出。
  4. 优化市场反馈与用户体验:用户提出文心一言的早期版本在市场上的反响不够理想,希望产品团队能够持续改进其性能,以提升整体用户体验并增加市场认可度。
1.1.1.4 采访用户

采访背景

采访对象是222200127徐煜晖,主要通过使用大语言模型来辅助学习和总结一些资料。选择这位同学进行采访,是因为他对不同大语言模型(如ChatGPT和文心一言)有丰富的使用经验,并且能够从技术角度提供深度的反馈。他的主要需求是通过AI模型生成内容和帮助解决编程问题。

实际使用的产品栏目

徐煜晖在使用文心一言时,主要用于总结资料、提供一些想法,尤其是处理文本内容的理解和生成。他也时常使用文心一言来探索不同的编程相关问题。

使用过程中遇到的问题与亮点

根据反馈,文心一言在文本理解方面表现不错,能够按点输出比较清晰的内容,但在涉及到代码时,问题显得更加明显。文心一言在代码生成和技术问题回答方面经常出现牛头不对马嘴的情况,说明模型在技术性问题上的训练和理解能力还有所不足。此外,文心一言的模型整体训练水平仍显不足,特别是在某些复杂任务的执行上与国际产品(如ChatGPT)相比存在差距。

用户体验改进建议

从用户体验的角度来看,徐煜晖同学认为文心一言的UI界面过于复杂,混杂了太多会员功能,视觉上让人感到不清爽。此外,文心一言的图片生成功能几乎无用,体验很差。他建议对UI进行简化,去除不必要的会员功能和纯粹的广告性内容,优化整体视觉体验,并提升图片生成等次要功能的实用性。同时,在代码生成和技术问题的回答上,需要加强模型训练,提升模型的准确性和灵活性。

img

1.1.2 BUG

1.1.2.1 Bug量化指标
Bug分级解释说明
★★★★★系统崩溃或核心功能完全无法使用,导致数据丢失或重大安全漏洞,用户无法正常操作。
★★★★主要功能受到严重影响,可能导致数据不一致或安全漏洞,但系统仍能部分运行。
★★★系统功能部分失效或不稳定,用户操作流程可能中断,但不会导致数据丢失或安全威胁。
★★次要功能表现异常或偶尔失效,系统性能轻微下降,但用户仍能使用核心功能,用户体验受到一定影响。
视觉或界面小问题,轻微的文案或显示错误,对系统功能无实质性影响。
1.1.2.2 Bug发生时的测试环境
  • 操作系统:macOS Sequoia 15.1 Beta

  • 浏览器:Chrome 版本 129.0.6668.100 (Official Build) (arm64)

1.1.2.3 Bug1:窗口最大化导致网页重新加载 ★★★

(1) Bug的可复现性及具体复现步骤

可复现性

该Bug触发的概率为100%,在特定条件下必然发生。

复现步骤

  1. 打开受影响的网页。
  2. 在网页的输入框中输入一些内容,但不要点击“发送”按钮。
  3. 在输入内容未提交的情况下,将浏览器窗口最大化。
  4. 观察到网页自动重新加载,导致先前输入的内容丢失。

img

(2) Bug具体情况描述

Bug现象

用户在网页的输入框中输入内容后,未发送内容的情况下最大化浏览器窗口,网页会自动重新加载,导致输入的内容消失。这个问题频繁发生,直接影响了用户的输入操作,严重影响用户体验。

问题推测

初步推测问题是由于前端设计了多套布局,布局切换时触发了整个网页的重新加载,而不是局部更新。这导致在切换布局时未能保持输入框中的数据,最终造成数据丢失。

(3) Bug分析

可能的成因

  1. 前端布局切换机制问题:该问题可能是因为开发人员在前端代码中设置了多套布局(如适配不同窗口大小或设备的布局)。当浏览器窗口从较小尺寸切换到最大化时,前端的布局切换被错误地设计为重新加载整个网页,而不是动态更新视图。
  2. 状态管理不足:输入框中的内容未能通过状态管理工具(如React中的useState或Vue中的v-model)进行正确保存,因此在布局重新加载时输入框状态丢失。

严重性

  • 系统功能:该Bug并不会导致系统崩溃或主要功能丧失,但它使用户输入的内容意外丢失,影响了关键的交互操作。
  • 用户体验:用户会因为数据丢失而重复输入,极大降低用户体验,特别是在涉及长文本或复杂输入时尤为显著。
  • 安全性:无安全性问题,但存在严重的用户体验问题。

严重性评级:★★★(中度系统故障,关键用户数据丢失)

(4) Bug的预期及改进建议

预期行为

在用户输入内容未提交的情况下,将浏览器窗口最大化时,网页应保持输入框中的内容不变,不应该触发整个页面的重新加载。网页应通过局部更新来处理不同布局的切换,而不应重新加载页面。

改进建议

  1. 前端优化:改进前端布局切换逻辑,确保在窗口尺寸变化时不会重新加载整个页面,而是通过响应式设计或CSS媒体查询实现布局切换。
  2. 状态管理:确保输入框中的数据通过前端状态管理工具进行保存,即使在布局切换或窗口大小变化时,也能保留用户的输入数据。
1.1.2.4 Bug2:图片生成不符合预期 ★★

(1) Bug的可复现性及具体复现步骤

可复现性

该Bug触发概率较高,但生成结果偶尔有偏差,特定条件下复现。测试多次发现Bug的出现频率较高。

复现步骤

  1. 在图片生成功能中输入特定的生成要求,例如“生成五个苹果三个梨子”。
  2. 点击“生成”按钮,等待图片生成结果。
  3. 观察到生成结果通常为一堆红苹果和青苹果,与输入的要求不符。
  4. 进行类似测试,比如“生成飞行中的蝴蝶照片”,生成的图片却是蝴蝶摆件。

img


img

(2) Bug具体情况描述

Bug现象

用户在图片生成功能中输入特定要求后,生成的图片常常不符合预期。例如,要求生成三个苹果和两个梨子,但结果是多种类型的苹果,完全忽略了梨子;或是要求生成飞行中的蝴蝶照片,结果生成了静态的蝴蝶摆件。此问题频繁发生,影响了图片生成功能的实际使用效果。

问题推测

初步推测问题可能在于图片生成算法的语义理解能力不足,未能准确解析用户输入的指令。模型在处理数量和物体类型的要求时,出现了明显的误差。同时,模型可能对细节(如飞行中的蝴蝶)与摆件等物体未能进行准确区分。

(3) Bug分析

可能的成因

  1. 图片生成算法理解不足:该Bug可能与图像生成模型的语义解析能力不足有关。生成算法未能精准理解用户对数量、类型和动作(如飞行中的蝴蝶)的要求。
  2. 训练数据有限:生成模型的训练数据可能不足或不够多样,导致它在生成特定物体组合或场景时表现不佳。尤其是对于需要精细数量控制的请求,表现出较大的偏差。

严重性

  • 系统功能:此问题不会导致系统崩溃或影响核心功能,但严重影响了图片生成功能的实际用途。
  • 用户体验:用户的输入需求无法得到正确响应,尤其在需要准确生成图像的场景中,可能导致用户失去信任,影响产品整体体验。
  • 安全性:无安全性问题。

严重性评级:★★(较轻系统故障,功能表现不佳)

(4) Bug的预期及改进建议

预期行为

当用户输入图片生成要求时,生成的图像应符合用户的描述,准确匹配物体的数量、类型以及状态(如飞行中的蝴蝶),而不是生成错误或无关的内容。

改进建议

  1. 改进语义理解:优化图片生成模型的语义理解能力,确保模型能够正确解析用户对数量、物体类型及状态的要求。
  2. 扩展训练数据:增加训练数据的多样性和数量,尤其是涉及组合、数量控制和具体场景(如飞行中的物体)的训练样本,以提高生成图片的准确性。
1.1.2.5 Bug3:莫名其妙的违禁提示 ★★★

(1) Bug的可复现性及具体复现步骤

可复现性

该Bug的触发概率较高,尤其在涉及政治、时事或战争等话题时存在一定的随机性和概率性。

复现步骤

  1. 在聊天框中输入相关内容。
  2. 点击“发送”后,系统回复“让我换个话题聊聊吧”或类似违禁提示,并阻止我进一步提问。
  3. 进行类似测试,比如提问关于时事政治、战争等相关内容,发现问题有一定概率发生,但非100%必然触发。

img

(2) Bug具体情况描述

Bug现象

用户在使用AI工具时,输入与时事政治或类似敏感话题相关的问题,如图所示,系统会触发违禁提示“让我换个话题聊聊吧”,并拒绝回答。这种违禁提示在涉及政治、时事、战争等问题时随机出现。对大学生来说,特别是在思政课学习中,频繁的违禁提示影响了正常的学术讨论和学习需求。

问题推测

初步推测问题在于系统的内容过滤机制过于严格,可能设置了一些敏感词过滤器或关键词黑名单,导致合法的学术讨论也被误认为违禁内容。该Bug影响了用户获取有关时事政治、学术问题的正常信息需求。

(3) Bug分析

可能的成因

  1. 敏感词过滤机制过于严格:系统可能通过敏感词过滤算法对特定词汇进行屏蔽,但未能区分合法的学术提问与违禁内容,导致正常的学术讨论被误触发违禁提示。
  2. 算法模型缺乏上下文理解:该问题也可能与AI模型的上下文理解能力不足有关。模型未能正确解析提问的意图,导致不必要的违禁提示频繁出现。

严重性

  • 系统功能:该问题不会导致系统崩溃,但影响了关键的交互功能,即用户不能正常进行关于时事政治、学术问题的讨论和学习。
  • 用户体验:对大学生和学术用户的体验影响较大,尤其是思政课学习或与时事相关的讨论中,用户频繁遇到违禁提示,导致学习过程受阻,影响深远。
  • 安全性:无安全性问题,但内容过滤不够精确影响了功能的合理使用。

严重性评级:★★★(中度系统故障,学习需求受限)

(4) Bug的预期及改进建议

预期行为

当用户提问关于时事政治、学术问题时,系统应能够正常识别并回答提问,不应触发不必要的违禁提示。敏感词过滤器应更具弹性,允许合法的学术讨论与时事提问。

改进建议

  1. 优化敏感词过滤机制:调整敏感词过滤策略,允许合法的学术提问,避免过于严格的关键词屏蔽,尤其是政治学、时事等合法课程相关的提问。
  2. 增强上下文理解能力:通过改进模型的上下文分析能力,确保系统能够正确理解用户的意图,减少误触发违禁提示的情况。

1.1.3 结论

1.1.3.1 定性结论

d) 好,不错

1.1.3.2 定量结论

为对文心一言的整体表现进行量化评价,以下是基于功能完整性、用户体验、响应速度、以及安全性四个维度的评分表,满分为5分,总分为20分:

评价维度维度解释评分 (5分)
功能完整性核心功能是否稳定,是否满足用户需求4
用户体验界面设计、操作便捷性及用户反馈的友好度3
准确性图片生成、复杂对话和任务处理的准确性3
响应速度系统的响应时间及复杂任务处理的效率3
总分13/20

1.2 Kimi

1.2.1 体验

1.2.1.1 介绍和使用软件

Kimi 是由中国的 Moonshot AI 公司开发的一款强大的 AI 助手,主要为用户提供自然语言处理(NLP)能力,涵盖多种文本处理、语音识别、翻译等功能。Kimi 特别擅长处理大量文本,可一次性处理多达 2 百万字的中文内容,非常适合长文档的分析和处理。Kimi 被广泛应用于学术研究、编程协助和内容生成等场景中,并且支持中文和英文的多语言对话模式。

用户通过上传文档或输入文本,可以让 Kimi 分析文档、生成报告、解答问题等。其界面设计简洁,功能易用,适合需要高效处理信息的专业人士及学生用户群体。

可以让他联网整合信息

img

也可以让他帮忙读论文

img

1.2.1.2 优缺点分析

优点:

  1. 超长文本处理:Kimi 能处理超长文本(最多可达 2 百万字),使其非常适合学术研究、法务审查及商业报告等需要处理大量信息的场景。
  2. 智能对话功能:Kimi 的智能对话和生成能力优越,能够在复杂问题、研究分析以及内容生成任务中高效工作。
  3. 多语言支持:支持中英文的多语言处理,扩大了使用场景,使得它适合全球用户需求。
  4. 用户体验良好:Kimi 的操作界面设计简洁,易于上手,用户反馈普遍表示满意,适合各种技术水平的用户。

缺点:

  1. 图像生成功能缺乏:Kimi 并不具备图像生成功能,这限制了其在多模态任务中的应用,只能处理文本和语音输入。
  2. 复杂任务表现有限:在处理需要深度理解的复杂任务时,Kimi 有时表现不如国际领先的 AI,如对编程问题或技术性问题的处理能力稍显不足。
  3. 敏感话题过滤严格:Kimi 的过滤机制较为严格,在涉及敏感话题时容易触发封禁,限制了用户的自由讨论,特别是在学术研究或历史讨论中。
1.2.1.3 用户对产品的改进意见
  1. 增强复杂任务处理能力:用户希望 Kimi 能在编程辅助、科学研究等复杂任务中提供更深度的分析和回答,尤其是在代码生成和技术性问题解答方面,进一步提高处理精确度。

  2. 调整过滤机制:针对内容过滤问题,用户建议 Kimi 在学术或研究场景中能放宽对时事、政治等敏感话题的限制,以提高其在讨论和信息查询中的实用性。

  3. 增加图片处理功能:尽管 Kimi 已在文本处理方面表现出色,用户期望其未来版本能够支持图像分析和生成功能,以扩大应用场景,满足多模态任务需求。

1.2.1.4 采访用户

采访背景

采访对象是222200315张俊腾,他是一位 Kimi 软件的常规用户,主要通过使用 Kimi 来处理PDF和Word文档、生成文章,并进行其他文本处理任务。选择这位同学进行采访,是因为他对 Kimi 的使用经验丰富,并且能够从实际需求的角度提供具体的反馈。TA 的需求主要集中在文档处理和内容生成功能。

实际使用的产品栏目

张俊腾在使用 Kimi 时,主要用于处理PDF、Word文档以及生成文章。根据他的反馈,Kimi 生成的文章质量符合他的期望,尤其在处理长文本时表现优异。此外,他还指出 Kimi 能够通过链接访问并解析网页内容,这一点在日常使用中非常方便。

使用过程中遇到的问题与亮点

张俊腾认为,Kimi 在整体使用上表现不错,尤其是文档处理和文章生成方面。文章的生成质量较高,且能够根据内容上下文生成符合逻辑的文本,满足用户的需求。然而,他也指出 Kimi 的生成图片功能较为有限,无法很好地满足实际需求,认为这一功能更多像是一个“玩具”而非实用工具。此外,张俊腾还提到,Kimi 在代码生成方面不如 ChatGPT,生成的代码并不能完全满足他的要求。

用户体验改进建议

从用户体验的角度,张俊腾建议 Kimi 可以进一步提升图片生成功能,避免生成的内容偏离用户的预期。此外,在代码生成功能上,他也希望 Kimi 能与其他 AI 工具(如 ChatGPT)看齐,提供更精准的代码输出和问题解决方案。

img

1.2.2 BUG

1.2.2.3 Bug1:莫名其妙的封禁 ★★★

(1) Bug的可复现性及具体复现步骤

可复现性

该Bug的触发概率较高,尤其在提问涉及时事、政治或历史相关话题时,系统会随机给出封禁提示,要求用户换话题后再作回应。

复现步骤

  1. 在聊天框中提问关于党的十二大到十九大的相关知识点。
  2. 点击“发送”后,系统提示“让我们换个话题再聊聊吧”,并未直接给出回答。
  3. 用户需进一步解释提问动机,系统才会重新给出相应的回答。

img

(2) Bug具体情况描述

Bug现象

用户在提出涉及党的历史、时事或敏感话题(如党的十二大到十九大的知识点)时,系统并没有直接回答,反而提示用户换个话题。在进一步阐述提问动机后,系统才开始提供相关回答。这种封禁现象并不符合用户的正常使用预期,特别是在学术或学习环境中,这种提示对学习过程带来了干扰。

问题推测

初步推测问题出现在系统的敏感词过滤机制上。该机制可能在检测到某些关键词(如涉及党史或政治话题)后触发封禁,而无法区分用户的实际意图。这种过于敏感的过滤方式导致了用户体验的下降,尤其在学术讨论中出现不必要的限制。

(3) Bug分析

可能的成因

  1. 过于严格的关键词过滤:系统内置了敏感词过滤算法,可能对涉及政治或历史事件的关键词设置了默认封禁规则,导致正常的学术提问也被视作敏感话题。
  2. 上下文理解能力不足:Kimi 的对话系统在处理类似的复杂问题时,缺乏足够的上下文理解能力,未能正确解析用户的真实意图,从而过早触发了封禁提示。

严重性

  • 系统功能:尽管这一问题不会导致系统崩溃,但它对用户的学术讨论和信息查询形成了障碍,影响了功能的顺畅使用。
  • 用户体验:用户在涉及时事政治、历史知识等问题时频繁受到封禁提示,特别是在学习过程中,这一现象严重影响了正常的学习体验。
  • 安全性:无安全性问题,但内容过滤的策略对用户功能使用产生了负面影响。

严重性评级:★★★(中度系统故障,学习需求受限)

(4) Bug的预期及改进建议

预期行为

当用户提问时事、政治或历史相关问题时,系统应能够正确识别用户的意图,直接提供回答,而不是触发无关的封禁提示。对于合法的学术讨论或学习需求,系统应具备更高的灵活性来支持用户的学习过程。

改进建议

  1. 优化关键词过滤策略:调整敏感词过滤规则,允许正常的学术讨论和信息查询。对于涉及政治或历史的提问,过滤器应更具弹性,避免触发不必要的封禁提示。
  2. 增强上下文理解能力:通过改进对话模型的上下文分析和意图理解,确保系统能够正确理解用户的问题,减少误判和不必要的提示。
1.2.2.4 Bug2:拼写检查错误且回答不一致 ★★★

(1) Bug的可复现性及具体复现步骤

可复现性

该 Bug 的触发概率为 100%,用户在提问简单拼写问题时系统多次给出不同错误答案。

复现步骤

  1. 用户在聊天框中提问“strawberry 中有几个 r”。
  2. 系统先回复“2个 r”,随后在再次提问时,系统改为回复“1个 r”。
  3. 无论重复提问多少次,系统仍无法给出正确的答案,且答案不一致。

img

(2) Bug具体情况描述

Bug现象

用户提问关于单词拼写检查或字母统计问题时,系统不仅给出错误答案,还会在重复提问时提供不一致的答案。例如,用户询问“strawberry”中有几个 "r" 时,系统先回答“2个 r”,再询问时又变成“1个 r”,这导致用户对系统的基本语言能力产生怀疑。

问题推测

推测该问题可能与系统的字符统计模块或拼写检查机制的多次调用出现了冲突,导致系统无法维持一致的回答。字符统计逻辑可能未能正确处理字母计数问题。

(3) Bug分析

可能的成因

  1. 字符统计错误:系统在处理基础字符统计任务时,可能存在逻辑错误,导致拼写检查结果不准确且无法保持一致。
  2. 算法冲突:系统在多次调用拼写检查功能时,可能存在不同版本的算法或缓存导致了不一致的结果。

严重性

  • 系统功能:拼写检查功能的基础任务出错,削弱了系统在语言学习和语言应用场景中的可信度。
  • 用户体验:这一 Bug 直接影响用户对基本文字处理功能的信任,尤其是对语言学习和文本准确性要求较高的场景。
  • 安全性:无安全性问题,但基础语言处理功能的准确性遭到质疑。

严重性评级:★★★(中度系统故障,基本功能错误且答案不一致)

(4) Bug的预期及改进建议

预期行为

系统应能够正确计算字符,并确保拼写检查功能在多次调用时给出一致且准确的结果。

改进建议

  1. 修复字符统计算法:改进拼写检查和字符统计的核心算法,确保能够准确处理基础字符问题,并避免出现多次不一致的答案。
  2. 改进数据缓存机制:确保系统在处理多次相同问题时,不依赖错误的缓存或冲突的算法,保持一致性。

1.2.3 结论

1.2.3.1 定性结论

d) 好,不错

1.2.3.2 定量结论

以下是对 Kimi 的整体表现评分,基于功能完整性、用户体验、准确性及响应速度四个维度进行评价(满分 5 分):

评价维度维度解释评分 (5分)
功能完整性核心功能是否稳定,是否满足用户需求4
用户体验界面设计、操作便捷性及用户反馈的友好度4
准确性内容生成、拼写检查和字符统计的准确性3
响应速度系统的响应时间及复杂任务处理的效率4
总分15/20

2 分析

2.1 开发时间估计

在评估开发像 Kimi 和文心一言这样的 AI 软件时,假设团队由 6 名计算机大学毕业生组成,并且有专业 UI 支持,预计开发时间如下:

项目Kimi 开发时间文心一言 开发时间
自然语言处理模型开发6-8 个月8-10 个月
用户界面设计与优化2-3 个月2-3 个月
数据收集与模型训练5-6 个月6-8 个月
系统测试与迭代4-6 个月5-6 个月
总时间18-24 个月21-27 个月
  • Kimi 强调文本处理与长文本分析,相对容易实现,因此时间较短。
  • 文心一言 包含图像生成和多模态任务,需要更多时间进行数据收集、训练和优化。

2.2 同类产品对比排名

2.2.1 中文自然语言处理能力

文心一言 > 讯飞星火 > 通义千问 > Kimi > ChatGPT

文心一言在中文自然语言处理上有显著优势,尤其是在复杂语境理解和生成上表现更强。讯飞星火在语音处理和识别上有优势,而通义千问在阿里云支持下中文理解强大。Kimi 擅长长文本处理,但复杂任务表现稍弱。ChatGPT 虽然具备强大的语言处理能力,但在中文理解上不如前几位。

2.2.2 任务复杂性处理

ChatGPT > Kimi > 文心一言 > 讯飞星火 > 通义千问

ChatGPT 在复杂任务如编程、技术性问题上表现优异,能处理多步骤和复杂逻辑任务。Kimi 也具备较好的文本处理和分析能力,尤其适合长文本和研究用途。文心一言在中文复杂任务处理上表现较好,但整体复杂度仍不如前两者。讯飞星火和通义千问在处理复杂性上较为基础。

2.2.3 响应速度与用户体验

讯飞星火 > 通义千问 > Kimi > 文心一言 > ChatGPT

讯飞星火在国内市场优化最佳,响应速度快,用户体验流畅。通义千问在阿里云的支持下,也具有较好的性能表现。Kimi 的界面设计简洁,用户体验较为稳定。文心一言因为任务复杂性,响应速度稍慢。ChatGPT 在某些高负载情况下响应时间略显不足。

2.2.4 多模态处理能力

ChatGPT > 文心一言 > 讯飞星火 > 通义千问 > Kimi

ChatGPT 能够处理文本、图像、音频等多模态任务,表现出色。文心一言虽然在多模态任务中稍逊,但图片生成和文本处理结合能力较强。讯飞星火和通义千问则在语音处理和多模态支持方面有一定优势。Kimi 的多模态处理能力较弱,主要集中在文本分析和生成上。

2.2.5 总体排名

ChatGPT > 文心一言 > 讯飞星火 > Kimi > 通义千问

2.3 软件工程方面的建议

Kimi:

  • 改进建议:增加图片生成和更复杂任务的处理能力,进一步优化基础功能(如拼写检查)。
  • 提高测试覆盖率:特别是在基础任务和边界条件下进行更多测试,确保字符统计和拼写检查的准确性。
  • 需求收集与反馈循环:与用户进行更多互动,了解他们的真实需求,尤其是在文本处理之外的功能需求。

文心一言:

  • 增强系统稳定性:改进对话模型在复杂任务处理中的表现,减少由于性能瓶颈导致的响应时间延迟。
  • 优化图像生成准确性:针对图像生成准确性问题进行更多模型优化,确保满足用户生成要求。
  • 敏感词过滤调整:平衡过滤机制的严格性,允许学术场景下的更多讨论,提高学术用户的使用体验。

2.4 BUG存在的原因分析

产品原因分析解释与建议
Kimi测试覆盖不足、基础功能未优先考虑拼写检查和字母统计的错误表明基础测试的缺失,需加大测试
文心一言复杂任务处理性能瓶颈、过滤过严对复杂任务的性能不足及过滤策略过于严格,需优化模型

共同点

  • 对用户需求掌握不足:两款软件都可能在用户反馈收集上不充分,导致部分功能不满足预期。
  • 测试流程改进:开发人员或测试流程未对基础功能进行充分的测试,需提高测试的覆盖面和质量。

3 建议和规划

3.1 市场概况

根据2024年中国人工智能市场的估计,AI 市场规模预计将超过6000亿元人民币,增长迅速,尤其是在生成式AI工具方面。用户市场可以分为直接用户和潜在用户:

  • 直接用户:包括企业、科研机构、教育工作者、开发人员等。在大型企业中,像通义千问已经拥有超过 90,000 家企业用户,表明市场需求相当可观。
  • 潜在用户:个人用户、自由职业者以及中小型企业也逐步成为 AI 产品的潜在客户,特别是在教育、客户服务和内容生成等领域。

中国市场对于生成式 AI 的需求不断增长,随着政策的推动,AI 应用逐渐普及于多个行业,尤其是在教育、金融、医疗等行业。当前阶段可以认为该领域处于成长阶段,但随着技术的发展和应用场景的拓展,有望在未来几年进入风口期

3.2 市场现状

目前市场上有多款生成式 AI 产品,涵盖不同应用领域。以下是几个主要产品的定位、优势和劣势:

Kimi

  • 定位:长文本处理和自然语言分析,主要面向学术、研究和专业文本处理领域。
  • 优势:中文处理和长文本分析能力强,用户体验简洁。
  • 劣势:缺乏多模态任务支持,拼写检查和基础任务处理存在不足。

文心一言

  • 定位:中文自然语言处理、多模态处理和图像生成。
  • 优势:在中文任务和知识增强方面表现出色,支持多模态任务。
  • 劣势:在用户体验和系统稳定性方面还有待改进,响应速度较慢。

通义千问

  • 定位:阿里云支持的企业级大模型,提供生成式 AI 和文本处理。
  • 优势:背靠阿里云,广泛的企业用户,性能优化良好。
  • 劣势:对复杂任务和创新功能的支持有限。

讯飞星火

  • 定位:专注于语音处理、文本生成和教育场景。
  • 优势:语音识别和文本处理领域的领先者,响应速度快。
  • 劣势:在多模态任务支持和复杂任务处理上稍显不足。

ChatGPT

  • 定位:全球领先的大模型,涵盖多语言支持、多模态任务和复杂问题处理。
  • 优势:支持多种任务、国际化表现优异,任务复杂性处理能力极强。
  • 劣势:在中文处理和本土化优化方面略逊于国内模型。

竞品关系

  • ChatGPT 是全球领先的多模态 AI 模型,处于国际市场的优势地位,针对复杂任务和多语言支持优势明显。
  • 文心一言通义千问讯飞星火在中国市场竞争激烈,分别在不同领域(如中文处理、企业用户、语音处理)表现强势。Kimi 则在长文本处理和用户体验上有独特优势,但在整体功能支持上有待提升。

3.3 市场与产品生态

核心用户群

  • Kimi 的核心用户群体包括学术研究人员、教育工作者、律师和其他需要处理大量文本的专业人士。他们的年龄段多为25-45岁,具有较高的学历背景,主要需求是准确处理和生成专业内容。

  • 文心一言 的核心用户群体主要集中在内容创作者和企业用户,他们需要一个强大的中文生成模型进行创作、翻译和多模态处理。

用户生态与产品关系

  • Kimi 可以与文心一言、讯飞星火等其他产品形成互补生态。例如,Kimi 可以提供长文本处理,而文心一言则可以在复杂的多模态任务上发挥作用。用户可以通过组合不同的产品,形成一个满足多元需求的生态系统。
  • 产品间的交互也可以在企业级场景中发挥作用,如企业用户可能同时使用 Kimi 进行文档处理,并借助通义千问完成企业级应用的任务。

3.4 产品规划

3.4.1 NABCD 分析

  • N(需求):Kimi 的用户需要更加复杂的任务处理功能和拼写检查等基础任务的增强,此外对多模态支持(如图像和语音)需求逐渐增加。
  • A(方法):Kimi 可以引入多模态任务支持(如图片生成和分析),同时优化基础拼写检查功能,使用户在多个领域中受益。
  • B(利益):通过增强拼写检查和引入多模态处理,用户可以完成更多的任务,并在使用过程中享受更高的准确性和稳定性。
  • C(竞争):在与文心一言、讯飞星火等国内竞品的竞争中,Kimi 可以通过专注于长文本处理的精度和复杂任务的效率,保持其在学术和研究领域的独特优势。
  • D(交付):4个月内通过招聘一支6人团队(3名开发、1名测试、1名UI设计、1名产品经理)完成拼写检查优化和多模态处理功能的初步上线。

3.4.2 项目管理规划

  • 团队配置

    • 3名开发人员(专注于模型优化和多模态功能实现)
    • 1名测试人员(保证基础功能和新功能的稳定性)
    • 1名UI设计师(提升用户界面设计)
    • 1名产品经理(协调进度和需求管理)
  • 16周规划

    • 第1-2周:需求分析和功能设计。
    • 第3-6周:开发拼写检查功能和优化文本处理性能。
    • 第7-10周:开始多模态功能(图片生成/处理)的初步开发。
    • 第11-12周:测试拼写检查和长文本处理的增强功能。
    • 第13-14周:多模态任务的集成和UI设计改进。
    • 第15-16周:全面测试和优化,准备功能发布。
...全文
960 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

109

社区成员

发帖
与我相关
我的任务
社区描述
202401_CS_SE_FZU
软件工程 高校
社区管理员
  • FZU_SE_TeacherL
  • 言1837
  • 助教姜词杰
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧