111
社区成员




这个作业属于哪个课程 | 2401_CS_SE_FZU |
---|---|
这个作业要求在哪里 | 软件工程实践——软件评测作业 |
这个作业的目标 | 软件评测及市场分析 |
其他参考文献 | 《构建之法》 |
Kimi是由北京月之暗面科技有限公司(Moonshot AI)推出的智能助手产品,它在2023年10月9日被正式宣布,并于10月10日开放内测。Kimi的主要特点是支持长文本处理,最初支持输入20万汉字,后来在2024年3月18日宣布启动200万字无损上下文内测,这使得Kimi在长文本处理能力上达到了一个新的里程碑。
Kimi的主要功能包括长文总结和生成、联网搜索、数据处理、编写代码、用户交互和翻译。它主要应用在专业学术论文的翻译和理解、辅助分析法律问题、快速理解API开发文档等场景中。Kimi的长文本处理能力使其在全球范围内成为首个支持输入20万汉字的智能助手产品。
优点:
1.多语言支持模型能够理解和生成多语言的文本。以英语为例,模型对不同语言文化和语境的理解程度较高.
2.文本处理能力: 不仅能一次性处理高达 200 万字的文本信息,而且在处理长文本时,能够保持良好的连贯性和逻辑性。可以准确地提取关键信息,进行深入的分析和总结,为用户提供全面而有价值的内容。可以处理多种格式的文档,如 PDF、Word 文档、PPT 幻灯片、Excel 电子表格等。
3.信息搜索与整合: 拥有强大的联网搜索功能,能帮助用户快速在海量信息中找到所需内容,并进行有效地总结和整合。
缺点:
1.逻辑推理与数学能力: 在处理复杂的逻辑推理问题时,往往难以深入分析问题的本质,得出准确的结论。对于数学问题,尤其是涉及多个步骤和复杂计算的问题,容易出现错误。这限制了其在一些需要精确逻辑和数学计算的领域的应用。
2.响应速度和资源效率: 由于处理大量数据和复杂任务,响应速度可能较慢。在处理高负荷的任务时,可能会占用较多的系统资源,影响设备的性能和效率。
3.学习和适应能力: 学习和适应的速度可能相对较慢,对于一些新出现的、较为复杂的问题,可能需要一定时间才能给出较好的回答。
采访对象:采访对象也是一名软件工程专业的大三学生。选择他进行采访是因为他专业对口,对各类软件有较高的敏感度和认知度。其需求是希望找到一个能够高效、准确地回答问题并提供创造性思路的智能助手。
实际使用产品栏目:主要使用了 Kimi 的问题回答功能和图片解析功能。
问题:
亮点
改进意见:
1. 量化标准说明
五颗星:致命性系统故障、致命性安全性漏洞、用户体验严重影响。
四颗星:严重系统故障、服务器鉴权漏洞或重要数据泄露、用户体验较差。
三颗星:中等系统故障、一般安全风险、用户体验受到一定影响。
两颗星:轻微系统故障、较小安全风险、用户体验略有不便。
一颗星:非常轻微的问题、几乎无安全风险、对用户体验影响极小。
2. Bug 可能成因
3. Bug 的严重性
系统功能方面: 多任务处理机制不完善。当同时处理多个题目时,可能由于资源分配不合理或者内部算法在处理多个任务切换时出现混乱,导致部分题目计算错误。例如,在一些具有并行计算功能的软件中,如果线程管理不当,在同时处理多个相似任务时,可能会出现数据混淆或计算错误的情况。
安全性方面 虽然这里没有直接涉及安全性问题,但从广义的系统稳定性角度来看,如果这种错误频繁出现,可能暗示系统存在潜在的不稳定因素,有可能被恶意利用。比如,如果攻击者发现系统在处理大量数据或多个任务时容易出现错误,可能会通过构造大量复杂的请求来干扰系统正常运行,进而寻找可能的安全漏洞。
用户体验方面 用户得到错误的答案会直接影响他们对产品的信任度和使用体验。尤其是对于学习和考试场景下的用户,如果依赖该工具得到错误结果,可能会导致学习方向错误或考试失利。
综合考虑,这个 Bug 的严重性可以评为三颗星。
理由:从系统功能角度,虽然不是所有功能都受影响,但部分重要的计算功能出现问题,影响了用户获取正确答案。从安全性角度,虽然目前没有直接的安全漏洞,但潜在的不稳定因素可能会被利用。从用户体验角度,错误的答案会给用户带来困扰,尤其是对于有准确结果需求的用户,影响较为明显。
4. Bug 的预期及改进建议
预期: 系统应该能够准确处理多个题目,无论是同时处理还是逐个处理,都能给出正确答案。
改进建议: 完善多任务处理算法,合理分配资源,确保在处理多个题目时每个题目都能得到正确的计算。可以借鉴一些成熟的并行计算框架的设计理念,对内部算法进行优化。增加针对多题目处理情况的测试用例,在不同题目数量和复杂程度下进行充分测试,及时发现问题并修复。
分类 | 细分项 | Kimi得分 |
---|---|---|
功能(满分60分) | 核心功能(20分) | 16分 |
细节(10分) | 7分 | |
用户体验(10分) | 7分 | |
辅助功能(10分) | 6分 | |
差异化功能(10分) | 8分 | |
体验(满分30分) | 软件的适应性(10分) | 7分 |
成长性(10分) | 8分 | |
用户有控制权(10分) | 7分 | |
自选(满分10分) - 知识覆盖度 | 7分 | |
总分 | 63分 |
讯飞星火大模型,是科大讯飞推出的新一代认知智能大模型,具有跨领域的知识和语言理解能力,融合多模态输入和输出,能够基于自然对话方式理解与执行任务,从海量数据和大规模知识中持续进化,实现从提出、规划到解决问题的全流程闭环。
讯飞星火具备文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模态能力七大核心能力。
优点:
1.语言理解能力较强
能够较好地理解自然语言输入的问题,无论是日常用语、专业术语还是具有一定复杂逻辑关系的语句,都能较为准确地把握问题的核心。
2. 多领域知识覆盖
拥有广泛的知识储备,涵盖了多个领域,如科学技术、文化历史、生活常识、医学健康等。在回答不同领域的问题时,能够提供较为详细和准确的信息,使用户能够获取到有价值的知识。
3. 良好的交互性
可以与用户进行较为流畅的交互,对用户的追问能够及时做出回应,并根据上下文调整回答内容。这种交互性有助于用户深入探讨问题,获取更全面的答案。
4. 语音交互优势
依托讯飞在语音技术方面的优势,语音识别准确率较高,能够准确地将语音转换为文字进行处理,同时语音合成效果也较为自然,为用户提供了便捷的语音交互方式,尤其适用于一些不方便手动输入的场景。
5.逻辑推理能力较好
对于一些需要逻辑推理的问题,能够进行较为准确的分析和推理,给出合理的答案。比如在解决数学问题、逻辑谜题等方面,能够运用正确的逻辑思维进行解答。
缺点:
答案稳定性有待提高
有时候对于相同的问题,可能会给出不同的答案,答案的稳定性不够高。这可能是由于模型的训练数据、算法等因素导致的,会影响用户对答案的信任度。
缺乏深度理解和创新能力
虽然在很多方面表现出色,但在一些复杂问题的理解上,可能还不够深入,缺乏深度的思考和分析能力。在创新能力方面,有时候生成的文本可能会存在一定的模式化,缺乏创新性和独特性。
采访对象:采访对象是一名软件工程专业的大三学生。选择他进行采访是因为他专业对口,对各类软件有较高的敏感度和认知度。他的需求主要是寻找一款功能强大且易于使用的智能工具,以辅助他在学习和日常生活中解决各种问题。
实际使用产品栏目:主要使用了讯飞星火的文本问答功能、问医功能以及在 app 端尝试了语音通话功能等。
问题:
亮点
改进意见:
1. 量化标准说明
五颗星:致命性系统故障、致命性安全性漏洞、用户体验严重影响。
四颗星:严重系统故障、服务器鉴权漏洞或重要数据泄露、用户体验较差。
三颗星:中等系统故障、一般安全风险、用户体验受到一定影响。
两颗星:轻微系统故障、较小安全风险、用户体验略有不便。
一颗星:非常轻微的问题、几乎无安全风险、对用户体验影响极小。
2. Bug 可能成因
对复杂句子结构的理解不充分:当句子中存在多个修饰成分且逻辑关系较为复杂时,模型在处理逐字倒写的过程中可能出现混淆。例如,对于 “不高不矮”“不多不少” 这样的表述,模型可能在反向处理时错误地组合了字词。
训练数据的局限性:如果训练数据中缺乏足够多的类似复杂句子结构的逐字倒写样本,模型在遇到新的输入时就容易出现错误。
3. Bug 的严重性
系统功能方面:此 Bug 对系统的文本处理功能产生了一定的影响。虽然逐字倒写不是核心的主要功能,但错误的结果显示出系统在处理特定类型的文本操作时存在不稳定性。评为两颗星。
安全性方面:此 Bug 目前看来没有直接的安全风险,不会导致数据泄露或系统被攻击等安全问题。评为一颗星。
用户体验方面:对于普通用户来说,如果偶尔遇到这样的错误结果,可能会感到困惑和失望,影响用户对产品的信任度。但由于不是频繁发生,且不是关键功能的错误,所以对用户体验的影响相对较小。评为两颗星。
综合评定为两颗星。
4. Bug 的预期及改进建议
预期:对于输入的任何句子进行逐字倒写时,都应该准确地按照每个字的反向顺序输出结果,无论句子的长度、结构复杂程度如何。
改进意见:增加更多复杂句子结构的训练数据,特别是包含多个修饰成分和较长长度的句子,让模型更好地学习各种句子的逐字倒写模式。优化算法,提高对长句子和复杂结构句子的处理能力,例如采用更有效的记忆和处理机制,确保每个字词的位置关系正确。
分类 | 细分项 | 讯飞星火得分 |
---|---|---|
功能(满分60分) | 核心功能(20分) | 17分 |
细节(10分) | 8分 | |
用户体验(10分) | 7分 | |
辅助功能(10分) | 6分 | |
差异化功能(10分) | 9分 | |
体验(满分30分) | 软件的适应性(10分) | 8分 |
成长性(10分) | 9分 | |
用户有控制权(10分) | 8分 | |
自选(满分10分) - 知识覆盖度 | 7分 | |
总分 | 69分 |
Kimi
需求分析与设计阶段:约 7 - 8 周
核心功能开发阶段:约 22 - 28 周。
测试与修复阶段:约 13 - 18 周。对软件进行全面测试,修复发现的问题。
UI 设计与集成阶段:约 9 - 13 周。设计简洁易用的界面并与功能集成。
总计约 51 - 69 周。
讯飞星火
需求分析与设计阶段:约 9 - 12 周
核心功能开发阶段:约 27 - 34 周。
测试与修复阶段:约 16 - 21 周。对软件进行全面测试,修复发现的问题。
UI 设计与集成阶段:约 12 - 16 周。设计简洁易用的界面并与功能集成。
总计约 64 - 83 周。
软件名称 | 优势 | 劣势 | 综合排名 |
---|---|---|---|
ChatGPT | 语言处理能力强大,回答准确且富有逻辑性,在全球范围内有极高的知名度和广泛的用户基础。 | 对中文语境的理解相对较弱,可能存在一定的文化差异问题。 | 1 |
讯飞星火 | 语音识别技术先进,在教育、医疗等专业领域表现突出,自然语言处理能力较强。 | 通用场景下的文本生成多样性和趣味性相对不足,用户界面和交互体验在某些方面有待优化。 | 2 |
通义千问 | 支持多种交互方式,具有强大的计算能力和庞大的知识库,能提供较为全面的信息。 | 语音识别存在一定精度问题,对于复杂问题的解决能力有限,回答可能不够准确或完整。 | 3 |
Kimi | 擅长处理长文本,有多种使用方式,方便用户在不同场景下使用,对用户反馈响应积极。 | 逻辑理解能力相对较弱,品牌知名度相对较低,市场份额较小。 | 4 |
提高方面:增强逻辑理解与推理能力
具体建议:
提高方面:加强通用场景下的文本生成多样性和趣味性
具体建议:
对于发现的逻辑理解能力不足的问题,可能原因如下:
对于用户界面和交互体验方面的问题,可能原因如下:
目前人工智能语言模型市场正处于快速成长阶段,市场规模不断扩大。随着人工智能技术在各个领域的广泛应用,对智能语言模型的需求持续增长。预计未来几年,市场规模将继续保持较高的增长率。
直接用户:主要包括企业用户、开发者、学生、科研人员等。目前直接用户数量在不断增加,尤其是在一些特定领域,如自然语言处理、智能客服、文本生成等,用户对智能语言模型的需求较为强烈。
潜在用户:潜在用户范围广泛,包括但不限于各个行业的从业人员、普通消费者等。随着人工智能技术的普及和应用场景的不断拓展,潜在用户数量巨大。
目前市场上主要的智能语言模型产品有 Kimi 、讯飞星火,ChatGPT、文心一言和通义千问等。
Kimi:
讯飞星火:
ChatGPT:
文心一言:
Kimi:作为后起之秀,Kimi 在长文本处理能力上具有独特的优势,这使得它在一些对长文本处理有需求的用户群体中受到关注。然而,它面临着来自其他大厂的竞争压力,在资金、算力和商业化落地等方面还需要进一步加强。
讯飞星火:科大讯飞在语音识别技术方面具有深厚的积累,这为讯飞星火提供了一定的优势。但在与其他产品的竞争中,其在某些方面的表现可能相对较弱,需要不断提升产品的性能和功能,以满足用户的需求。
文心一言:作为百度推出的人工智能产品,文心一言具有较高的知名度和用户基础。百度在搜索领域的技术和数据积累,也为文心一言的发展提供了支持。不过,在与其他产品的竞争中,文心一言需要不断提升其在各个方面的能力,以保持竞争力。
ChatGPT:作为人工智能语言模型的先驱者,GPT 在技术和性能方面具有领先优势,其语言处理能力和多轮对话能力等都受到广泛认可。在全球市场上,GPT 拥有大量的用户和较高的市场份额。然而,随着其他产品的不断发展和竞争,GPT 也需要不断创新和改进,以保持其领先地位。
核心用户群
典型用户特征
用户群体关系
产品用户群体之间存在多种关系,具有构建特定用户生态的潜力。企业用户与专业人士可在工作中共同借助语言模型合作;学生与教师能在教学场景中分别利用语言模型辅助学习与教学。开发者与其他用户相互影响,开发者的应用为其他用户提供便利,其他用户反馈促进开发者改进产品。
构建用户生态的可能性
构建用户生态的可能性包括建立用户社区促进交流与合作、开展合作项目提高项目质量和效率、举办竞赛活动激发用户参与热情和创新能力。这些举措有助于增强用户粘性,推动语言模型产品的发展和完善。
产品关系
产品的子产品及相关产品之间存在关系,具备构建产品生态的可能。不同语言模型产品可相互借鉴学习,与其他人工智能产品可集成融合,与传统软件产品也能通过插件等方式结合。
构建产品生态的可能性
构建产品生态的可能性在于整合不同产品的优势功能,打造综合语言服务平台;构建包括数据采集、模型训练、应用开发等环节的产业链;开发周边产品为用户提供更多选择和支持,从而丰富产品生态,推动语言模型产业发展。
个性化学习助手功能
开发:3 人,负责新功能的开发和现有功能的优化。
测试:2 人,负责对新功能进行测试,确保产品质量。
UI:1 人,负责产品界面的设计和优化,提高用户体验。
阶段 | 描述 |
---|---|
第1 - 2周 | 进行需求剖析与功能规划。 |
第3 - 6周 | 开展拼写检查功能的开发并优化文本处理效能。 |
第7 - 10周 | 启动多模态功能(图片生成/处理)的初步研发。 |
第11 - 12周 | 测试拼写检查以及长文本处理的强化功能。 |
第13 - 14周 | 进行多模态任务的整合与用户界面设计的改良。 |
第15 - 16周 | 进行全面测试与优化,为功能发布做好准备。 |