软件工程实践——软件评测作业

042201126杨世铭 2024-10-14 15:21:14
这个作业属于哪个课程https://bbs.csdn.net/forums/2401_CS_SE_FZU
这个作业要求在哪里https://bbs.csdn.net/topics/619351741
这个作业的目标软件评测、市场分析
其他参考文献

目录

1.kimi

1.1介绍和使用软件

1.2优缺点分析

优点:

缺点:

1.3用户对产品的改进意见

1.4采访用户

1)采访背景

2)实际使用的产品栏目

3)使用过程中遇到的亮点

4)用户体验改进建议

1.5BUG

Bug1:图片识别问题 

Bug2:算术比较问题 

Bug3:文档上传识别问题 

1.6评价

1.6.1定性评价

1.6.2定量结论

2讯飞星火

2.1 讯飞星火介绍和使用

2.2 优缺点分析

2.3用户改进体验

2.4 采访用户

1) 采访背景

2) 实际使用的产品栏目

3) 使用过程中遇到的亮点

4) 用户体验改进建议

2.5Bug

Bug1:政治相关提问封禁问题 

Bug2:人物图像生成问题 

Bug3:手机播放音乐时进入App导致通话模式开启 

Bug4:错误问题不纠正而编造答案 

2.6评价

2.6.1定性评价

2.6.2定量评价

分析

1. 开发时间估计

2. 产品的优劣对比

3. 软件工程方面的改进建议

4. Bug为何未修复

建议和规划

1. 市场概况

2.竞品分析

3. 市场与产品生态

4. 产品规划

新功能设计

创新点


1.kimi

1.1介绍和使用软件

Kimi是北京月之暗面科技有限公司于2023年10月9日推出的一款智能助手,主要应用场景为专业学术论文的翻译和理解、辅助分析法律问题、快速理解API开发文档等,是全球首个支持输入20万汉字的智能助手产品。 Kimi在二级市场一度复现了ChatGPT“带货能力”的势头,引发了一众“Kimi概念股”狂飙猛涨。

2024年3月18日,Kimi智能助手启动200万字无损上下文内测。3月21日,Kimi因流量突然剧增无法正常使用。 2024年4月18日,月之暗面官宣旗下Kimi智能助手更新。 4月24日,月之暗面宣布Kimi大模型学会“使用工具”了,API已支持Tool Calling功能。5月,Kimi推出付费打赏功能,开始试探C端付费意愿。 10月,月之暗面正式上线具备AI自主搜索能力的Kimi探索版,搜索量是普通版的10倍,一次搜索即可精读500个页面。 

1)kimi在原本基础的功能上扩展了更多定制化功能,以适应更多不同的场景。

 


2)KiMI支持上传多种文件,包括图片,音频等

 

 

1.2优缺点分析

优点:

  1. 中文处理能力强

    Kimi在中文自然语言处理方面表现出色,尤其擅长长文本处理,支持高达200万字的上下文输入能力,这使它能够处理非常复杂的文本生成和分析任务​在中文语境中的理解和生成能力优异,特别是在处理本地化语料时比一些国际大模型表现更好​
  2. 适应多场景应用

    Kimi被广泛应用于多种场景,包括智能搜索、文本生成、文档处理、长文总结等。它还具有多模态发展潜力,可以集成到更多应用中,如企业自动化、内容生成和智能助手等​

缺点:

  1. 多语言支持较弱

    相比国际大模型,如OpenAI的GPT-4,Kimi的多语言处理能力相对较弱,尤其在处理英文或其他外语内容时表现较为一般​。
  2. 高成本与算力限制

    Kimi的推理和训练需要大量的计算资源,随着用户数量增长,算力需求增加,可能导致模型的运行成本较高。企业在使用Kimi时需要考虑其算力需求与成本的平衡​。对于一些需要联网的场景,kimi处理速度出现了过慢的情况。
  3. 市场竞争激烈

    尽管Kimi在中文领域表现出色,但国内AI市场竞争激烈,如百度的文心一言、阿里的通义千问等大模型在各自的场景中也有强劲的表现。Kimi在某些领域的创新性和商业化路径上仍有待进一步探索​

1.3用户对产品的改进意见

1. 算力问题

虽然Kimi支持大规模的长文本处理,但随着用户增长,算力压力明显增加,导致在高负载时可能出现性能瓶颈。例如,有时推理速度较慢,尤其是在同时处理多个长文本任务时。为此,建议增加算力支持,或优化推理架构,以保证高效处理和更好的用户体验。

2. 多语言支持提升

Kimi在中文处理上表现优异,但在多语言支持,特别是英语处理方面仍有不足。这限制了它在国际化场景中的竞争力。为了让Kimi更具全球竞争力,建议进一步提升对其他语言的处理能力,特别是常见国际语言的支持

3. 模型创新和多模态支持

尽管Kimi在长文本处理上有独特优势,但市场趋势表明多模态模型(即能够处理文本、图像、音频等多种输入类型的模型)正在兴起。Kimi未来可以在这一方向发力,增加图像生成、音频处理等能力,从而覆盖更多的应用场景

4. 定制化和个性化

目前Kimi的个性化功能仍有待提升,特别是在内容生成时对角色或情感的精准把控稍显不足。改进建议是加强对用户需求的理解,通过个性化定制,使生成内容更符合用户的语气和风格要求。

 

1.4采访用户
 

1)采访背景

采访对象是052207115欧阳开源,他主要通过使用大语言模型Kimi来辅助学习和总结各种资料。选择欧阳同学进行采访,是因为他在不同大语言模型(如Kimi和ChatGPT)的使用方面有丰富的经验,且能够从技术角度提供深入的反馈。他的主要需求是通过AI模型生成内容,并帮助解决编程相关的问题。

2)实际使用的产品栏目

欧阳开源在使用Kimi时,主要用于总结资料、生成创意和灵感,特别是在文本内容的理解和生成方面。Kimi能够高效处理复杂的文本任务,并为他提供编程问题的解决方案。此外,欧阳也使用Kimi探索技术问题,得到了较为精准和有效的反馈。

3)使用过程中遇到的亮点

根据反馈,Kimi在文本理解和生成方面表现优异,特别是在处理复杂的文本分析和总结时,能够提供清晰、结构化的输出。此外,欧阳同学特别提到Kimi在代码生成和技术问题解决上的强大能力。与其他模型相比,Kimi不仅能准确生成代码,还能深入理解技术问题,给出合理的解决方案,这为他的编程学习提供了极大帮助。

4)用户体验改进建议

欧阳开源认为,虽然Kimi在文本和技术支持上表现出色,但可以进一步优化用户界面,使其更加简洁高效。他建议减少某些次要功能的展示,突出核心的文本生成和编程辅助功能,以提升整体的用户体验。此外,尽管Kimi已经在技术问题解决上表现优秀,他认为未来仍可在多模态处理(如图片生成)等方面进一步扩展功能,使模型更加多样化和实用。

 

1.5BUG

Bug1:图片识别问题 

 

(1) Bug发生时的测试环境

  • 操作系统:HarmonyOs
  • 测试设备:华为Mate60 pro
  • App版本:1.5.6
  • 发生时间:2024年10月10日
  • 测试条件:使用Kimi的图片识别功能,在测试中尝试上传多种图片,包括复杂背景图像和简化的线条图,进行图片识别测试。

(2) Bug的可复现性及具体复现步骤

  • 可复现性:该Bug的发生概率为10%,偶尔发生。
  • 复现步骤:
    1. 打开Kimi的图片识别功能。
    2. 上传一张包含多物体或复杂背景的图片(如风景图或具有细节的机械零件图)。
    3. 观察图片识别结果,发现模型无法正确识别图片中的所有物体。
    4. 多次重复上传不同的图片,偶尔会遇到识别不正确的情况。

(3) Bug具体情况描述

  • Bug现象:图片上传后,Kimi无法正确识别图片中的所有物体,特别是复杂场景下的图片,某些细节物体经常被遗漏,或者识别出的物体类别不符合图片内容。例如,将一张包含树木和鸟类的图片上传后,Kimi仅识别出树木,忽略了鸟类。

(4) Bug分析

  • 可能的成因:
    • 图片识别算法训练数据不足,尤其是复杂场景和多物体情况下,模型对图像细节和不同物体的区分能力欠佳。
    • 图像识别的语义理解模块对复杂背景的物体识别不准确,导致识别结果不完整。
  • 严重性:
    • 系统功能:核心功能未崩溃,但影响了图片识别的准确性,可能影响用户使用该功能进行细节分析。
    • 用户体验:用户对图片识别的期望未能实现,影响了功能的信任度,尤其是在涉及复杂图片时。
    • 安全性:无直接安全性问题。
    • 严重性评级:★★★(中度系统故障,识别准确性不足)。

(5) Bug的预期及改进建议

  • 预期行为:Kimi应能够正确识别图片中的所有物体,特别是复杂背景下,模型应能区分不同物体并给予准确的识别结果。
  • 改进建议:
    • 增加图片识别模型的训练数据,尤其是复杂场景和多物体类别的图片数据。
    • 优化语义理解算法,确保模型能更好地处理复杂图片背景,准确识别出图像中的所有物体。

Bug2:算术比较问题 

 

(1) Bug发生时的测试环境

  • 操作系统:HarmonyOs
  • 测试设备:华为Mate60 pro
  • App版本:1.5.6
  • 发生时间:2024年10月10日
  • 测试条件:在Kimi中进行一系列的基本算术比较问题。

(2) Bug的可复现性及具体复现步骤

  • 可复现性:该Bug的发生概率为5%,偶尔发生。
  • 复现步骤:
    1. 在Kimi的聊天框中输入简单的算术问题,如“1.2 > 1.19”或“5/2等于多少”。
    2. 观察Kimi返回的算术结果。
    3. 偶尔会遇到算术计算错误或比较错误的情况,结果与预期不符。

(3) Bug具体情况描述

  • Bug现象:在一些算术比较问题中,Kimi无法正确处理浮点数的比较,例如在“1.2 > 1.19”的问题中,返回结果为“错误”或不准确。此外,在一些除法问题中,Kimi有时无法给出正确的结果。

(4) Bug分析

  • 可能的成因:
    • 算术模块的浮点数处理精度不足,导致在特定条件下出现浮点数误差。
    • 算术逻辑计算模块未能正确处理某些边界值,导致算术比较结果出错。
  • 严重性:
    • 系统功能:算术功能对一些应用场景非常关键,如在学习和工作中使用时会对准确性提出高要求。
    • 用户体验:影响了Kimi作为问题解决助手的可信度,尤其是在计算场景中可能导致用户失望。
    • 安全性:无直接安全问题。
    • 严重性评级:★★(轻度功能错误,影响某些特定场景的使用)。

(5) Bug的预期及改进建议

  • 预期行为:Kimi应能够正确处理基本的算术比较和计算,尤其是在涉及浮点数时,结果应与数学规则相符。
  • 改进建议:
    • 改进算术计算模块,确保浮点数的处理精度,避免因精度问题导致的误差。
    • 优化算法逻辑,确保能够正确处理边界值的算术比较和计算。

Bug3:文档上传识别问题 

 

(1) Bug发生时的测试环境

  • 操作系统:HarmonyOs
  • 测试设备:华为Mate60 pro
  • App版本:1.5.6
  • 发生时间:2024年10月10日
  • 测试条件:在Kimi的文档上传功能中上传多个文档格式(如PDF和Word文档)。

(2) Bug的可复现性及具体复现步骤

  • 可复现性:该Bug的发生概率为6%,偶尔发生。
  • 复现步骤:
    1. 使用Kimi的文档上传功能,尝试上传不同格式的文件(如PDF、Word)。
    2. 观察上传结果,部分文件无法识别或上传失败。
    3. 重复测试,发现该问题偶尔发生。

(3) Bug具体情况描述

  • Bug现象:用户在上传文档时,Kimi无法识别某些特定格式的文件,或者上传后系统显示“文件无法识别”,导致文档处理失败。

(4) Bug分析

  • 可能的成因:
    • 文档处理模块对某些文档格式支持不足,可能仅支持部分格式(如常见的PDF和Word版本),导致一些文档无法被正确识别。
    • 文件解析算法对某些特殊格式或包含复杂内容的文档处理能力有限。
  • 严重性:
    • 系统功能:部分文档上传失败,影响了用户对该功能的使用。
    • 用户体验:上传失败影响了文档处理的流畅性,尤其在需要快速处理多种文档的场景下尤为不便。
    • 安全性:无直接安全问题。
    • 严重性评级:★★(轻度功能错误,偶尔影响文档处理功能)。

(5) Bug的预期及改进建议

  • 预期行为:Kimi应能够正确识别和上传多种格式的文档,确保文档处理功能的全面性和稳定性。
  • 改进建议:
    • 增加对更多文档格式的支持,特别是对非标准PDF和复杂Word文档的解析能力。
    • 优化文件上传模块,确保能够稳定处理并识别不同格式的文件,提升用户体验。

1.6评价

1.6.1定性评价

d) 非常好,表现优异

Kimi整体表现令人满意,特别是在中文处理、文本生成和复杂问题解决方面展现出了卓越的能力。同时,模型在代码生成和技术问题处理方面的准确性和效率也大大提升,超越了一些其他模型的表现。

1.6.2定量结论

为对Kimi的整体表现进行量化评价,以下是基于功能完整性、用户体验、响应速度、以及安全性四个维度的评分表。满分为5分,总分为20分。此次我们优化了评分表格,使其更加清晰,包含更多细节:

评价维度维度解释评分 (5分)详细说明
功能完整性核心功能是否稳定,是否满足用户需求4.5Kimi在文本生成、复杂任务处理、技术问题解决等方面表现优异,功能完备,唯一的小改进点是进一步加强多模态处理(如图片识别的准确性)。
用户体验界面设计、操作便捷性及用户反馈的友好度4用户界面简洁直观,操作流畅,用户反馈积极。可以进一步优化个别功能模块的层次和操作的直观性,使之更加简洁友好。
准确性算术处理、图片识别、复杂对话和任务处理的准确性4.5在代码生成、算术计算等技术问题上表现突出,准确率较高。但在特定场景下(如复杂图片识别)仍存在少量瑕疵。
响应速度系统的响应时间及复杂任务处理的效率4.5Kimi能够快速响应用户请求,在大多数任务下处理效率高,但面对极复杂的长文本或多任务处理时,偶尔会出现轻微的响应延迟。
安全性系统的稳定性、安全机制及用户隐私保护5Kimi具备强大的安全性保障措施,能够确保用户数据的隐私和安全,符合中国本土的法律和监管要求。
多模态处理文本、图片、语音等多模态处理的支持4在文本生成和处理方面表现优异,但在多模态支持(尤其是图片识别)方面仍有提升空间。
总分 22.5/25Kimi整体表现非常优秀,功能齐全、用户体验友好、反应快速,是一款高质量的大模型,特别适合中文处理和技术问题解决场景。

2讯飞星火

2.1 讯飞星火介绍和使用

讯飞星火是由科大讯飞于2023年推出的人工智能大语言模型,旨在应用于多个领域,如教育、医疗、金融等。星火模型在自然语言处理、文本生成、逻辑推理等方面表现出色,同时支持多模态处理,包括文本、图片、音频等,尤其在教育和语音交互领域有着显著的应用和表现。例如,讯飞星火智能批阅机能大幅提升教学效率,提供个性化的作业反馈。

讯飞星火不仅具备强大的语言处理能力,还通过其最新版本(V4.0)在推理、逻辑分析等方面取得了进一步提升,达到国际领先水平。在医学诊断、智能助手等场景中的应用,尤其是面向普通用户和医生的健康管理服务,已经得到了广泛的落地应用。
1)支持自定义图片生成功能


2)支持AI回答语音模型定制与选择

 

 

2.2 优缺点分析

优点:

  1. 多模态支持强大: 讯飞星火不仅支持文本处理,还具备较强的多模态处理能力,能够处理图片、语音等多种输入形式,尤其在教育领域的应用非常成熟。

  2. 内置功能丰富: 星火大模型支持多种智能工具的集成,用户可以在讯飞App中选择不同的智能体进行特定任务的处理,如编程助手、英语老师等,大大拓宽了应用场景。

 缺点:

     1.聊天缺乏足够的上下文联系:每次退出都会强制新建一个对话,只能下拉聊天框得到上一次对话,更早的对话只能去历史记录里面找

     2.智能体不智能:当你询问错误问题时,智能体不仅无法纠正,甚至会将错就错继续回答,导致回答完全是胡编乱造。
 

2.3用户改进体验

  • 误报与封禁问题: 用户反馈在提出涉及政治问题时,系统可能会直接终止对话,并永久封禁账号。这种行为严重影响了用户体验和信任。

  • 图像生成表现一般: 星火大模型在生成人物图像时,特别是绘制细节如手部时,存在较明显的不足,图像表现欠佳,尤其是复杂物体生成上还需提升。

  • 提升性能稳定性:用户反馈文心一言在某些场景下表现不稳定,响应速度过慢。希望未来版本能够增强多任务、多场景下的表现一致性,保证在各种使用场景中的稳定输出。
  • 错误问题的处理能力较弱: 当用户提出错误问题时,模型没有及时纠正错误,反而编造不准确的回答,显示出模型在处理知识准确性上的不足。

2.4 采访用户

1) 采访背景

采访对象是052207115欧阳开源,他主要通过使用大语言模型讯飞星火来辅助学习和解决编程相关的问题。欧阳同学在多个大语言模型(如讯飞星火、ChatGPT、文心一言等)方面拥有丰富的使用经验,能够从技术角度提供深入的反馈。他的主要需求是通过AI生成文本、处理技术问题以及解决编程相关的挑战。

2) 实际使用的产品栏目

欧阳开源在使用讯飞星火时,主要用于生成文本、总结资料和处理编程问题。星火模型能够处理较为复杂的自然语言任务,并提供一定的多模态处理功能,包括简单的图片生成和处理。此外,欧阳还利用星火探索编程相关的技术问题,体验了它在代码生成和技术解答方面的能力。

3) 使用过程中遇到的亮点

根据反馈,讯飞星火在语音交互和自然语言生成方面表现良好,特别是在应对较为简单的文本总结任务时,能够提供结构化且清晰的回答。此外,欧阳同学提到,讯飞星火的语音交互功能流畅,在教育场景中的表现尤其突出,能够较好地理解用户的意图并做出回应

然而,在处理复杂编程问题时,星火模型的表现略显不足,生成的代码片段偶尔不够准确,无法完全解决问题。另外,星火在生成人物图像时存在缺陷,特别是在细节处理上,如手部绘制不够精准,图像质量较差

4) 用户体验改进建议

欧阳开源建议,讯飞星火在用户界面设计上可以更加简洁,以减少不必要的功能展示,突出文本生成和语音交互等核心功能。同时,他指出,模型在技术问题解决和代码生成方面可以进一步加强训练,提升代码生成的准确性。此外,星火在多模态处理,特别是图像生成的细节优化(如手部绘制)方面仍需改进,以提高用户的整体体验

 

2.5Bug

Bug1:政治相关提问封禁问题 

 

(1) Bug发生时的测试环境

  • 操作系统:HarmonyOS
  • 测试设备:华为Mate60 Pro
  • App版本:1.5.6
  • 发生时间:2024年10月10日
  • 测试条件:用户在讯飞星火中输入涉及政治相关的提问,并观察系统响应。

(2) Bug的可复现性及具体复现步骤

  • 可复现性:该Bug的发生概率较高,几乎必然发生。
  • 复现步骤:
    1. 打开讯飞星火App。
    2. 在对话框中输入涉及政治话题的提问,如某些敏感时事问题。
    3. 系统立即终止对话,随后用户账号被永久封禁。

(3) Bug具体情况描述

  • Bug现象:用户在讯飞星火中输入政治相关问题后,系统会立即终止对话,并永久封禁该用户的账号。该问题导致用户失去访问权限,影响了系统的正常使用。

(4) Bug分析

  • 可能的成因:

    1. 系统的敏感词过滤机制过于严格,特别是对于政治相关内容,采取了过于激进的处理方式。
    2. 系统可能缺乏对提问上下文的精确理解,导致合规问题被误判为敏感内容,触发了自动封禁机制。
  • 严重性:

    • 系统功能:不影响核心功能的正常运行,但封禁用户的行为对用户体验和产品信任度造成了严重影响。
    • 用户体验:用户失去了继续使用的权限,并且可能没有合理的申诉途径。
    • 安全性:无直接安全性问题。
    • 严重性评级:★★★(中度系统故障,封禁机制不合理)。

(5) Bug的预期及改进建议

  • 预期行为:系统应能更灵活地处理政治相关提问,而不是直接封禁用户。敏感话题的检测应更加智能,避免误封。
  • 改进建议:
    1. 增强系统的上下文理解能力,优化敏感词过滤机制,减少误判和不必要的封禁行为。
    2. 提供更透明的封禁申诉流程,以确保用户在被误封时能及时恢复使用权限。

Bug2:人物图像生成问题 

(1) Bug发生时的测试环境

  • 操作系统:HarmonyOS
  • 测试设备:华为Mate60 Pro
  • App版本:1.5.6
  • 发生时间:2024年10月10日
  • 测试条件:用户使用讯飞星火的图像生成功能,生成带有人物的图片。

(2) Bug的可复现性及具体复现步骤

  • 可复现性:该Bug发生概率为20%,偶尔发生。
  • 复现步骤:
    1. 打开讯飞星火的图片生成功能。
    2. 输入生成带有人物的图片指令,特别是包含手部的场景。
    3. 观察生成的图像,手部细节往往表现不准确,形状失真。

(3) Bug具体情况描述

  • Bug现象:在生成人物图像时,尤其是手部细节经常失真,无法精确生成。例如,手部可能显得模糊或不合比例,影响了整体图像的质量。

(4) Bug分析

  • 可能的成因:

    1. 图像生成算法对复杂细节(如手部)缺乏足够的训练数据,导致模型无法精确绘制手部细节。
    2. 多模态处理的图像生成模型在处理人体细节时表现出局限性。
  • 严重性:

    • 系统功能:图像生成是重要功能,但对细节的表现力不足可能影响用户对该功能的信任度。
    • 用户体验:图像生成的细节不准确,影响了图像生成质量,尤其是在需要精细化处理的场景中。
    • 安全性:无安全性问题。
    • 严重性评级:★★(轻度系统故障,图像质量不足)。

(5) Bug的预期及改进建议

  • 预期行为:系统应能够准确生成人物图像,特别是在手部等细节上表现出色。
  • 改进建议:
    1. 增加图像生成模型的训练数据,尤其是针对人体细节部分的精细化训练。
    2. 优化多模态生成算法,确保图像中的细节更加准确和自然。

Bug3:手机播放音乐时进入App导致通话模式开启 

 

(1) Bug发生时的测试环境

  • 操作系统:HarmonyOS
  • 测试设备:华为Mate60 Pro
  • App版本:1.5.6
  • 发生时间:2024年10月10日
  • 测试条件:在后台播放音乐的情况下打开讯飞星火App。

(2) Bug的可复现性及具体复现步骤

  • 可复现性:该Bug的发生概率为100%,偶尔发生。
  • 复现步骤:
    1. 在手机后台播放音乐。
    2. 进入讯飞星火App。
    3. 观察到系统自动开启通话模式,导致音乐播放失真模糊。

(3) Bug具体情况描述

  • Bug现象:用户在后台播放音乐时,进入讯飞星火App后系统会自动进入通话模式,导致音乐播放失真模糊。这个问题干扰了用户的正常音乐播放体验。

(4) Bug分析

  • 可能的成因:

    1. 系统对音频资源的管理存在冲突,进入App时可能错误地触发了通话模式,导致音乐播放中断。
    2. 讯飞星火可能默认调用了语音处理模块,导致与音乐播放发生冲突。
  • 严重性:

    • 系统功能:影响了App和音乐播放器的正常功能切换,降低了多任务处理的用户体验。
    • 用户体验:音乐被意外中断,影响了用户的连续使用体验。
    • 安全性:无安全性问题。
    • 严重性评级:★★(轻度功能错误,影响多任务处理体验)。

(5) Bug的预期及改进建议

  • 预期行为:用户在后台播放音乐时,进入讯飞星火App不应导致音乐播放中断或通话模式自动开启。
  • 改进建议:
    1. 优化音频资源管理,确保音乐播放与App的音频处理功能能并行运行。
    2. 进一步调试语音模块,确保它不会在不必要时启动,避免与其他音频任务冲突。

Bug4:错误问题不纠正而编造答案 

 

(1) Bug发生时的测试环境

  • 操作系统:HarmonyOS
  • 测试设备:华为Mate60 Pro
  • App版本:1.5.6
  • 发生时间:2024年10月10日
  • 测试条件:用户向讯飞星火提出一个明显错误的问题,并观察系统的响应。

(2) Bug的可复现性及具体复现步骤

  • 可复现性:该Bug的发生概率为20%,偶尔发生。
  • 复现步骤:
    1. 打开讯飞星火App。
    2. 提出一个明显错误的问题,例如一个历史上不存在的事件。
    3. 观察系统的回答,系统未纠正问题,而是给出了编造的回答。

(3) Bug具体情况描述

  • Bug现象:当用户提出一个错误的问题时,讯飞星火未能指出问题的错误之处,反而编造了一个虚假的回答。例如,当询问一个不存在的历史事件时,模型依然给出了看似合理但实际上错误的回答。

(4) Bug分析

  • 可能的成因:

    1. 系统的知识检索和纠错机制不够完善,无法识别错误信息并及时纠正。
    2. 模型的生成机制倾向于给出合理化的回答,即使问题本身是错误的。
  • 严重性:

    • 系统功能:尽管系统没有崩溃,但这种问题影响了系统的可靠性,尤其是在处理知识性问题时。
    • 用户体验:用户可能因此获得错误的知识,影响了对模型的信任度。
    • 安全性:- 系统功能:尽管系统没有崩溃,但错误的回答会导致知识可靠性受损,尤其是用户在依赖模型获取知识时,错误回答可能造成误导。
    • 用户体验:当用户得到错误信息后,可能失去对模型的信任,影响其长期使用。
    • 安全性:无直接安全性问题,但在某些场景下(如医疗、法律咨询),错误回答可能带来潜在的风险。
    • 严重性评级:★★★(中度系统故障,知识可信度受损)。

(5) Bug的预期及改进建议

  • 预期行为:系统应在用户提出错误问题时能够指出错误,而不是提供虚假的回答。
  • 改进建议:
    1. 加强知识检索和纠错机制,确保在遇到错误问题时能够给出正确的纠正提示。
    2. 优化模型的生成逻辑,使其更倾向于在发现错误时拒绝回答或给出警告提示,而不是编造虚假的答案。

2.6评价

2.6.1定性评价

d) 功能丰富,表现优秀

星火大模型在多模态处理、语音交互和文本生成方面表现出色,适用于多领域应用,尤其在教育和医疗场景中取得了良好成绩。

2.6.2定量评价

评价维度维度解释评分 (5分)详细说明
功能完整性核心功能是否稳定,是否满足用户需求4.5星火大模型在文本生成、语音交互和多模态处理方面表现优秀,但图像生成部分有待改进。
用户体验界面设计、操作便捷性及用户反馈的友好度4.0用户界面友好,操作流畅,但封禁机制需要优化。
准确性生成内容的准确性,特别是对知识点的处理4.0在处理复杂问题时,偶尔会出现错误回答,尤其是当问题输入有误时,模型无法及时纠正。
响应速度系统的响应时间及复杂任务处理的效率4.5处理速度总体较快,尤其在语音交互方面表现出色,但在图像生成部分,处理时间稍长。
安全性系统的稳定性和隐私保护5.0安全性保障强大,数据隐私保护到位。
多模态处理文本、图片、语音等多模态处理的支持4.0支持多模态输入,但图像生成质量需要进一步提升。
总分 22/25星火大模型整体表现出色,适合多场景应用,但在个别问题上仍有提升空间。

分析

1. 开发时间估计

假设团队有6名计算机大学毕业生组成,并有专业的UI设计支持,开发Kimi或讯飞星火这样的AI软件大约需要以下时间:

项目讯飞星火 开发时间Kimi 开发时间
自然语言处理模型开发7-9个月6-8个月
- 模型架构设计2-3个月2-3个月
- 预训练与初步优化2-3个月2-3个月
- 特定任务微调与精度提升3-4个月2-3个月
用户界面设计与优化2-3个月2-3个月
- UI/UX 设计1-1.5个月1-1.5个月
- 前端开发与集成1-1.5个月1-1.5个月
数据收集与模型训练6-7个月5-6个月
- 数据清洗与预处理1-2个月1-2个月
- 模型训练与性能评估4-5个月3-4个月
系统测试与迭代4-6个月4-6个月
- 功能性测试2-3个月2-3个月
- 负载与性能测试1-2个月1-2个月
- 用户反馈与迭代优化1-2个月1-2个月
总时间19-25个月18-24个月

分析

  1. Kimi:开发时间较短,因为它更专注于长文本处理和分析,功能较单一。Kimi主要优化了文本生成和中文处理的准确性,但在多模态处理方面相对较弱,因此需要的训练和数据集更少。
  2. 讯飞星火:因为具备更复杂的语音处理和多模态任务支持,其开发时间稍长。尤其是涉及到教育和语音识别等领域的优化,星火在模型训练和系统测试上需要更多时间。

2. 产品的优劣对比

Kimi

  • 优点

    1. 长文本处理能力强:特别适合用于研究、学术等场景,擅长处理大量的文本内容​
       
    2. 中文语境的理解好:Kimi的中文自然语言处理能力在应对复杂文本和本地化内容时表现较佳​
       
  • 缺点

    1. 多模态处理弱:缺乏图片生成、语音处理等多模态功能,这在与其他大模型(如ChatGPT、文心一言)竞争时稍显不足​
    2. 复杂任务处理不足:在面对多步骤任务和编程问题时,Kimi的表现逊于其他模型​
       

讯飞星火

  • 优点

    1. 语音处理出色:特别是在教育领域,星火大模型能够高效处理语音识别与交互,优化了多种场景下的用户体验​
    2. 响应速度快:相比Kimi和文心一言,星火大模型在国内市场的优化明显,响应速度极快,用户体验流畅​
  • 缺点

    1. 图像生成质量差:在图像生成(特别是细节如手部绘制)上表现不足,影响了多模态任务的整体质量​
    2. 封禁机制严格:对于政治敏感问题的处理方式过于严苛,直接封禁用户账号,降低了用户体验​

3. 软件工程方面的改进建议

通过分析,可以得出以下几点改进建议:

  • Kimi

    1. 多模态支持:Kimi的功能相对单一,缺乏多模态任务的处理能力。建议引入图像和语音处理功能,增强产品的多样性。
    2. 用户需求掌握不足:团队需更多关注用户的潜在需求,如拼写检查、语义纠错和更复杂的任务处理能力,以适应更多场景。
  • 讯飞星火

    1. 图像生成能力提升:改进图像生成模型,特别是在手部等细节的处理上,进一步优化生成图像的质量。
    2. 灵活的敏感词过滤机制:调整敏感词的过滤规则,避免不必要的封禁行为,同时提高用户体验。

4. Bug为何未修复

在发布前,团队未能修复这些Bug的原因可能包括以下几点:

  1. 对用户需求掌握不好:例如,讯飞星火的封禁机制过于严格,可能是团队未能充分考虑用户的实际需求与敏感话题的灵活性。
  2. 测试覆盖不足:图像生成中的手部细节问题、音乐播放中断问题等,可能是团队在特殊场景和配置下测试不充分,导致部分场景未被发现​
  3. 开发人员的粗心大意:在多任务处理上,可能因时间紧张或任务繁杂导致部分边界条件未被充分考虑。
  4. 设计质量不高:一些设计问题(如讯飞星火的错误回答和编造答案)表明设计逻辑可能存在漏洞。

5. 团队可以如何提高

团队在软件工程上可以进一步提高的方面包括:

  1. 需求收集与反馈:与用户进行更多互动,了解他们的潜在需求,特别是在多模态任务和边界条件下的使用体验。
  2. 测试覆盖率:增加对各种场景和配置的测试,尤其是语音识别、图像生成等复杂任务的测试覆盖率,确保产品稳定性。

建议和规划

1. 市场概况

市场规模
到2024年,中国的AI市场规模预计将超过6000亿元人民币,主要受生成式AI工具需求的推动。生成式AI在教育、金融、医疗、内容创作等领域中有着广泛的应用​

用户群体
直接用户包括大型企业、科研机构、教育工作者等;潜在用户涵盖个人用户、自由职业者和中小型企业​。随着AI的普及,特别是生成式AI的能力不断提升,更多企业和个人开始采用AI工具来提升工作效率和创造力。

2. 市场现状

2.竞品分析

  1. ChatGPT:在多模态任务和复杂任务处理上表现出色,尤其在编程和问题解决能力上非常突出。然而,它的中文处理能力相比国内模型稍显逊色​
  2. 文心一言:中文自然语言处理能力极强,尤其在复杂语境理解和生成方面表现优异,还支持图像生成和其他多模态任务​

    。其用户已达到2亿,具备较强的工业应用能力​

  3. 讯飞星火:擅长语音处理和教育场景应用,响应速度极快,但在多模态任务支持和细节处理(如图像生成)方面稍有不足​
  4. Kimi:专注于长文本处理,在学术研究和法律文本生成等场景中表现优异,但在多模态支持和复杂任务处理方面相对较弱​

3. 市场与产品生态

核心用户群

  • Kimi:Kimi的核心用户群包括学术研究人员、律师、以及其他需要处理大量复杂文本的专业人士。这些用户依赖Kimi的长文本生成与分析能力,尤其在编写研究论文、分析法律文档等领域。他们注重工具的准确性和效率,以支持高强度的文本处理任务。

  • 讯飞星火:讯飞星火的核心用户主要集中在教育领域和语音交互场景中。用户包括教师、教育平台开发者和学生等。该模型在语音识别、教育资源管理、自动批改作业等应用中表现尤为突出。它具备对语音的精确识别和快速反馈功能,能够显著提高教育场景中的教学效率。

产品生态

Kimi和讯飞星火可以形成互补关系,满足不同场景下的用户需求:

  • Kimi擅长长文本处理、复杂文档分析,适合学术、法律等需要精确生成和分析的大文本环境。它可以帮助用户在长时间的研究、法律解析中提高效率。
  • 讯飞星火在教育和语音处理方面表现卓越,特别是在互动教学和语音反馈场景中。它的语音识别功能能够更好地辅助教学场景,支持实时交互和个性化教育体验。

结合两者的优势,用户可以在不同的场景下选择合适的工具,例如在教育场景中使用讯飞星火进行语音交互教学,而在需要精细化文本生成时,切换至Kimi。

4. 产品规划

新功能设计

  • 图像生成功能:为Kimi引入图像生成功能,使其在多模态任务中更具竞争力。用户在处理复杂文本时,可能还需要生成与内容相关的图像(如法律案例的流程图、研究数据的可视化等)。这将大大提升Kimi在内容生成中的多样性和实用性。

  • 拼写检查功能:在文本生成的基础上,添加拼写检查功能,提高文本输出的准确性。学术论文、法律文档等要求严谨的场合中,拼写错误会影响专业性,因此,拼写检查是对文本生成质量的必要补充。

创新点

  1. 多模态整合:结合长文本生成与图像生成,Kimi能够为用户提供综合的内容创作工具。用户不仅可以生成高质量文本,还能在同一平台上生成与文本相关的可视化图像,提升工作效率。

  2. 准确性提升:通过拼写检查功能,Kimi能够在文本生成的同时确保内容的准确性,减少后期校对工作量。这对追求高质量输出的用户(如研究人员、律师)尤为重要。

NABCD分析

  • N(需求):用户需要能够生成高质量文本并结合图像的工具,特别是在处理复杂文档时,增强的多模态支持将帮助用户更好地理解和展示信息。
  • A(方法):通过引入图像生成与拼写检查功能,Kimi不仅能够处理长文本,还能在多模态任务中表现出色。
  • B(利益):用户将能够更加高效地处理复杂文本任务,同时生成与内容相关的图像。这不仅减少了多平台切换的麻烦,也提升了工作流程的连贯性和效率。
  • C(竞争):与竞争产品(如ChatGPT和文心一言)相比,Kimi在长文本生成方面有优势,而通过增加图像生成和拼写检查,Kimi在多模态支持上也将逐步追赶这些产品。
  • D(交付):该功能可在4个月内完成初步开发,并集成到Kimi的现有平台中。

团队配置与16周开发规划

  • 团队配置

    • 3名开发人员(负责图像生成与拼写检查功能开发)
    • 1名测试人员(负责测试新功能的准确性和稳定性)
    • 1名UI设计师(负责新功能的界面优化)
    • 1名产品经理(协调团队任务和进度)
  • 16周规划

    • 第1-2周:需求分析与功能设计。
    • 第3-6周:拼写检查功能的开发与初步测试。
    • 第7-10周:图像生成功能的开发和初步测试。
    • 第11-12周:整合拼写检查与图像生成功能,并进行优化。
    • 第13-14周:UI设计与用户体验优化。
    • 第15-16周:全面测试、优化和功能发布。
...全文
38 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

109

社区成员

发帖
与我相关
我的任务
社区描述
202401_CS_SE_FZU
软件工程 高校
社区管理员
  • FZU_SE_TeacherL
  • 032002124林日臻
  • 助教姜词杰
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧