109
社区成员
这个作业属于哪个课程 | https://bbs.csdn.net/forums/2401_CS_SE_FZU |
---|---|
这个作业要求在哪里 | https://bbs.csdn.net/topics/619351741 |
这个作业的目标 | 软件评测、市场分析 |
其他参考文献 | 无 |
目录
Kimi是北京月之暗面科技有限公司于2023年10月9日推出的一款智能助手,主要应用场景为专业学术论文的翻译和理解、辅助分析法律问题、快速理解API开发文档等,是全球首个支持输入20万汉字的智能助手产品。 Kimi在二级市场一度复现了ChatGPT“带货能力”的势头,引发了一众“Kimi概念股”狂飙猛涨。
2024年3月18日,Kimi智能助手启动200万字无损上下文内测。3月21日,Kimi因流量突然剧增无法正常使用。 2024年4月18日,月之暗面官宣旗下Kimi智能助手更新。 4月24日,月之暗面宣布Kimi大模型学会“使用工具”了,API已支持Tool Calling功能。5月,Kimi推出付费打赏功能,开始试探C端付费意愿。 10月,月之暗面正式上线具备AI自主搜索能力的Kimi探索版,搜索量是普通版的10倍,一次搜索即可精读500个页面。
1)kimi在原本基础的功能上扩展了更多定制化功能,以适应更多不同的场景。
2)KiMI支持上传多种文件,包括图片,音频等
中文处理能力强:
Kimi在中文自然语言处理方面表现出色,尤其擅长长文本处理,支持高达200万字的上下文输入能力,这使它能够处理非常复杂的文本生成和分析任务在中文语境中的理解和生成能力优异,特别是在处理本地化语料时比一些国际大模型表现更好适应多场景应用:
Kimi被广泛应用于多种场景,包括智能搜索、文本生成、文档处理、长文总结等。它还具有多模态发展潜力,可以集成到更多应用中,如企业自动化、内容生成和智能助手等多语言支持较弱:
相比国际大模型,如OpenAI的GPT-4,Kimi的多语言处理能力相对较弱,尤其在处理英文或其他外语内容时表现较为一般。高成本与算力限制:
Kimi的推理和训练需要大量的计算资源,随着用户数量增长,算力需求增加,可能导致模型的运行成本较高。企业在使用Kimi时需要考虑其算力需求与成本的平衡。对于一些需要联网的场景,kimi处理速度出现了过慢的情况。市场竞争激烈:
尽管Kimi在中文领域表现出色,但国内AI市场竞争激烈,如百度的文心一言、阿里的通义千问等大模型在各自的场景中也有强劲的表现。Kimi在某些领域的创新性和商业化路径上仍有待进一步探索1. 算力问题:
虽然Kimi支持大规模的长文本处理,但随着用户增长,算力压力明显增加,导致在高负载时可能出现性能瓶颈。例如,有时推理速度较慢,尤其是在同时处理多个长文本任务时。为此,建议增加算力支持,或优化推理架构,以保证高效处理和更好的用户体验。
2. 多语言支持提升:
Kimi在中文处理上表现优异,但在多语言支持,特别是英语处理方面仍有不足。这限制了它在国际化场景中的竞争力。为了让Kimi更具全球竞争力,建议进一步提升对其他语言的处理能力,特别是常见国际语言的支持
3. 模型创新和多模态支持:
尽管Kimi在长文本处理上有独特优势,但市场趋势表明多模态模型(即能够处理文本、图像、音频等多种输入类型的模型)正在兴起。Kimi未来可以在这一方向发力,增加图像生成、音频处理等能力,从而覆盖更多的应用场景
4. 定制化和个性化:
目前Kimi的个性化功能仍有待提升,特别是在内容生成时对角色或情感的精准把控稍显不足。改进建议是加强对用户需求的理解,通过个性化定制,使生成内容更符合用户的语气和风格要求。
采访对象是052207115欧阳开源,他主要通过使用大语言模型Kimi来辅助学习和总结各种资料。选择欧阳同学进行采访,是因为他在不同大语言模型(如Kimi和ChatGPT)的使用方面有丰富的经验,且能够从技术角度提供深入的反馈。他的主要需求是通过AI模型生成内容,并帮助解决编程相关的问题。
欧阳开源在使用Kimi时,主要用于总结资料、生成创意和灵感,特别是在文本内容的理解和生成方面。Kimi能够高效处理复杂的文本任务,并为他提供编程问题的解决方案。此外,欧阳也使用Kimi探索技术问题,得到了较为精准和有效的反馈。
根据反馈,Kimi在文本理解和生成方面表现优异,特别是在处理复杂的文本分析和总结时,能够提供清晰、结构化的输出。此外,欧阳同学特别提到Kimi在代码生成和技术问题解决上的强大能力。与其他模型相比,Kimi不仅能准确生成代码,还能深入理解技术问题,给出合理的解决方案,这为他的编程学习提供了极大帮助。
欧阳开源认为,虽然Kimi在文本和技术支持上表现出色,但可以进一步优化用户界面,使其更加简洁高效。他建议减少某些次要功能的展示,突出核心的文本生成和编程辅助功能,以提升整体的用户体验。此外,尽管Kimi已经在技术问题解决上表现优秀,他认为未来仍可在多模态处理(如图片生成)等方面进一步扩展功能,使模型更加多样化和实用。
(1) Bug发生时的测试环境
(2) Bug的可复现性及具体复现步骤
(3) Bug具体情况描述
(4) Bug分析
(5) Bug的预期及改进建议
(1) Bug发生时的测试环境
(2) Bug的可复现性及具体复现步骤
(3) Bug具体情况描述
(4) Bug分析
(5) Bug的预期及改进建议
(1) Bug发生时的测试环境
(2) Bug的可复现性及具体复现步骤
(3) Bug具体情况描述
(4) Bug分析
(5) Bug的预期及改进建议
d) 非常好,表现优异
Kimi整体表现令人满意,特别是在中文处理、文本生成和复杂问题解决方面展现出了卓越的能力。同时,模型在代码生成和技术问题处理方面的准确性和效率也大大提升,超越了一些其他模型的表现。
为对Kimi的整体表现进行量化评价,以下是基于功能完整性、用户体验、响应速度、以及安全性四个维度的评分表。满分为5分,总分为20分。此次我们优化了评分表格,使其更加清晰,包含更多细节:
评价维度 | 维度解释 | 评分 (5分) | 详细说明 |
---|---|---|---|
功能完整性 | 核心功能是否稳定,是否满足用户需求 | 4.5 | Kimi在文本生成、复杂任务处理、技术问题解决等方面表现优异,功能完备,唯一的小改进点是进一步加强多模态处理(如图片识别的准确性)。 |
用户体验 | 界面设计、操作便捷性及用户反馈的友好度 | 4 | 用户界面简洁直观,操作流畅,用户反馈积极。可以进一步优化个别功能模块的层次和操作的直观性,使之更加简洁友好。 |
准确性 | 算术处理、图片识别、复杂对话和任务处理的准确性 | 4.5 | 在代码生成、算术计算等技术问题上表现突出,准确率较高。但在特定场景下(如复杂图片识别)仍存在少量瑕疵。 |
响应速度 | 系统的响应时间及复杂任务处理的效率 | 4.5 | Kimi能够快速响应用户请求,在大多数任务下处理效率高,但面对极复杂的长文本或多任务处理时,偶尔会出现轻微的响应延迟。 |
安全性 | 系统的稳定性、安全机制及用户隐私保护 | 5 | Kimi具备强大的安全性保障措施,能够确保用户数据的隐私和安全,符合中国本土的法律和监管要求。 |
多模态处理 | 文本、图片、语音等多模态处理的支持 | 4 | 在文本生成和处理方面表现优异,但在多模态支持(尤其是图片识别)方面仍有提升空间。 |
总分 | 22.5/25 | Kimi整体表现非常优秀,功能齐全、用户体验友好、反应快速,是一款高质量的大模型,特别适合中文处理和技术问题解决场景。 |
讯飞星火是由科大讯飞于2023年推出的人工智能大语言模型,旨在应用于多个领域,如教育、医疗、金融等。星火模型在自然语言处理、文本生成、逻辑推理等方面表现出色,同时支持多模态处理,包括文本、图片、音频等,尤其在教育和语音交互领域有着显著的应用和表现。例如,讯飞星火智能批阅机能大幅提升教学效率,提供个性化的作业反馈。
讯飞星火不仅具备强大的语言处理能力,还通过其最新版本(V4.0)在推理、逻辑分析等方面取得了进一步提升,达到国际领先水平。在医学诊断、智能助手等场景中的应用,尤其是面向普通用户和医生的健康管理服务,已经得到了广泛的落地应用。
1)支持自定义图片生成功能
2)支持AI回答语音模型定制与选择
优点:
多模态支持强大: 讯飞星火不仅支持文本处理,还具备较强的多模态处理能力,能够处理图片、语音等多种输入形式,尤其在教育领域的应用非常成熟。
内置功能丰富: 星火大模型支持多种智能工具的集成,用户可以在讯飞App中选择不同的智能体进行特定任务的处理,如编程助手、英语老师等,大大拓宽了应用场景。
缺点:
1.聊天缺乏足够的上下文联系:每次退出都会强制新建一个对话,只能下拉聊天框得到上一次对话,更早的对话只能去历史记录里面找
2.智能体不智能:当你询问错误问题时,智能体不仅无法纠正,甚至会将错就错继续回答,导致回答完全是胡编乱造。
误报与封禁问题: 用户反馈在提出涉及政治问题时,系统可能会直接终止对话,并永久封禁账号。这种行为严重影响了用户体验和信任。
图像生成表现一般: 星火大模型在生成人物图像时,特别是绘制细节如手部时,存在较明显的不足,图像表现欠佳,尤其是复杂物体生成上还需提升。
错误问题的处理能力较弱: 当用户提出错误问题时,模型没有及时纠正错误,反而编造不准确的回答,显示出模型在处理知识准确性上的不足。
采访对象是052207115欧阳开源,他主要通过使用大语言模型讯飞星火来辅助学习和解决编程相关的问题。欧阳同学在多个大语言模型(如讯飞星火、ChatGPT、文心一言等)方面拥有丰富的使用经验,能够从技术角度提供深入的反馈。他的主要需求是通过AI生成文本、处理技术问题以及解决编程相关的挑战。
欧阳开源在使用讯飞星火时,主要用于生成文本、总结资料和处理编程问题。星火模型能够处理较为复杂的自然语言任务,并提供一定的多模态处理功能,包括简单的图片生成和处理。此外,欧阳还利用星火探索编程相关的技术问题,体验了它在代码生成和技术解答方面的能力。
根据反馈,讯飞星火在语音交互和自然语言生成方面表现良好,特别是在应对较为简单的文本总结任务时,能够提供结构化且清晰的回答。此外,欧阳同学提到,讯飞星火的语音交互功能流畅,在教育场景中的表现尤其突出,能够较好地理解用户的意图并做出回应
然而,在处理复杂编程问题时,星火模型的表现略显不足,生成的代码片段偶尔不够准确,无法完全解决问题。另外,星火在生成人物图像时存在缺陷,特别是在细节处理上,如手部绘制不够精准,图像质量较差
欧阳开源建议,讯飞星火在用户界面设计上可以更加简洁,以减少不必要的功能展示,突出文本生成和语音交互等核心功能。同时,他指出,模型在技术问题解决和代码生成方面可以进一步加强训练,提升代码生成的准确性。此外,星火在多模态处理,特别是图像生成的细节优化(如手部绘制)方面仍需改进,以提高用户的整体体验
(1) Bug发生时的测试环境
(2) Bug的可复现性及具体复现步骤
(3) Bug具体情况描述
(4) Bug分析
可能的成因:
严重性:
(5) Bug的预期及改进建议
(1) Bug发生时的测试环境
(2) Bug的可复现性及具体复现步骤
(3) Bug具体情况描述
(4) Bug分析
可能的成因:
严重性:
(5) Bug的预期及改进建议
(1) Bug发生时的测试环境
(2) Bug的可复现性及具体复现步骤
(3) Bug具体情况描述
(4) Bug分析
可能的成因:
严重性:
(5) Bug的预期及改进建议
(1) Bug发生时的测试环境
(2) Bug的可复现性及具体复现步骤
(3) Bug具体情况描述
(4) Bug分析
可能的成因:
严重性:
(5) Bug的预期及改进建议
d) 功能丰富,表现优秀
星火大模型在多模态处理、语音交互和文本生成方面表现出色,适用于多领域应用,尤其在教育和医疗场景中取得了良好成绩。
评价维度 | 维度解释 | 评分 (5分) | 详细说明 |
---|---|---|---|
功能完整性 | 核心功能是否稳定,是否满足用户需求 | 4.5 | 星火大模型在文本生成、语音交互和多模态处理方面表现优秀,但图像生成部分有待改进。 |
用户体验 | 界面设计、操作便捷性及用户反馈的友好度 | 4.0 | 用户界面友好,操作流畅,但封禁机制需要优化。 |
准确性 | 生成内容的准确性,特别是对知识点的处理 | 4.0 | 在处理复杂问题时,偶尔会出现错误回答,尤其是当问题输入有误时,模型无法及时纠正。 |
响应速度 | 系统的响应时间及复杂任务处理的效率 | 4.5 | 处理速度总体较快,尤其在语音交互方面表现出色,但在图像生成部分,处理时间稍长。 |
安全性 | 系统的稳定性和隐私保护 | 5.0 | 安全性保障强大,数据隐私保护到位。 |
多模态处理 | 文本、图片、语音等多模态处理的支持 | 4.0 | 支持多模态输入,但图像生成质量需要进一步提升。 |
总分 | 22/25 | 星火大模型整体表现出色,适合多场景应用,但在个别问题上仍有提升空间。 |
假设团队有6名计算机大学毕业生组成,并有专业的UI设计支持,开发Kimi或讯飞星火这样的AI软件大约需要以下时间:
项目 | 讯飞星火 开发时间 | Kimi 开发时间 |
---|---|---|
自然语言处理模型开发 | 7-9个月 | 6-8个月 |
- 模型架构设计 | 2-3个月 | 2-3个月 |
- 预训练与初步优化 | 2-3个月 | 2-3个月 |
- 特定任务微调与精度提升 | 3-4个月 | 2-3个月 |
用户界面设计与优化 | 2-3个月 | 2-3个月 |
- UI/UX 设计 | 1-1.5个月 | 1-1.5个月 |
- 前端开发与集成 | 1-1.5个月 | 1-1.5个月 |
数据收集与模型训练 | 6-7个月 | 5-6个月 |
- 数据清洗与预处理 | 1-2个月 | 1-2个月 |
- 模型训练与性能评估 | 4-5个月 | 3-4个月 |
系统测试与迭代 | 4-6个月 | 4-6个月 |
- 功能性测试 | 2-3个月 | 2-3个月 |
- 负载与性能测试 | 1-2个月 | 1-2个月 |
- 用户反馈与迭代优化 | 1-2个月 | 1-2个月 |
总时间 | 19-25个月 | 18-24个月 |
分析:
Kimi:
优点:
缺点:
讯飞星火:
优点:
缺点:
通过分析,可以得出以下几点改进建议:
Kimi:
讯飞星火:
在发布前,团队未能修复这些Bug的原因可能包括以下几点:
5. 团队可以如何提高
团队在软件工程上可以进一步提高的方面包括:
市场规模
到2024年,中国的AI市场规模预计将超过6000亿元人民币,主要受生成式AI工具需求的推动。生成式AI在教育、金融、医疗、内容创作等领域中有着广泛的应用
用户群体
直接用户包括大型企业、科研机构、教育工作者等;潜在用户涵盖个人用户、自由职业者和中小型企业。随着AI的普及,特别是生成式AI的能力不断提升,更多企业和个人开始采用AI工具来提升工作效率和创造力。
2. 市场现状
。其用户已达到2亿,具备较强的工业应用能力
核心用户群
Kimi:Kimi的核心用户群包括学术研究人员、律师、以及其他需要处理大量复杂文本的专业人士。这些用户依赖Kimi的长文本生成与分析能力,尤其在编写研究论文、分析法律文档等领域。他们注重工具的准确性和效率,以支持高强度的文本处理任务。
讯飞星火:讯飞星火的核心用户主要集中在教育领域和语音交互场景中。用户包括教师、教育平台开发者和学生等。该模型在语音识别、教育资源管理、自动批改作业等应用中表现尤为突出。它具备对语音的精确识别和快速反馈功能,能够显著提高教育场景中的教学效率。
产品生态
Kimi和讯飞星火可以形成互补关系,满足不同场景下的用户需求:
结合两者的优势,用户可以在不同的场景下选择合适的工具,例如在教育场景中使用讯飞星火进行语音交互教学,而在需要精细化文本生成时,切换至Kimi。
图像生成功能:为Kimi引入图像生成功能,使其在多模态任务中更具竞争力。用户在处理复杂文本时,可能还需要生成与内容相关的图像(如法律案例的流程图、研究数据的可视化等)。这将大大提升Kimi在内容生成中的多样性和实用性。
拼写检查功能:在文本生成的基础上,添加拼写检查功能,提高文本输出的准确性。学术论文、法律文档等要求严谨的场合中,拼写错误会影响专业性,因此,拼写检查是对文本生成质量的必要补充。
多模态整合:结合长文本生成与图像生成,Kimi能够为用户提供综合的内容创作工具。用户不仅可以生成高质量文本,还能在同一平台上生成与文本相关的可视化图像,提升工作效率。
准确性提升:通过拼写检查功能,Kimi能够在文本生成的同时确保内容的准确性,减少后期校对工作量。这对追求高质量输出的用户(如研究人员、律师)尤为重要。
NABCD分析
团队配置与16周开发规划
团队配置:
16周规划: