软件工程实践——软件评测作业

222100128黄煦陶 2024-04-16 22:45:25

这个作业属于哪个课程	<2302软件工程社区>
这个作业要求在哪里	<软件工程实践——软件评测作业>
这个作业的目标	通过各种案例分析，评测，思辨，总结，看到软件工程的原则在实践中的体现，进而学好软件工程，帮助我们在实践中做得更好
其他参考文献	《构建之法》、软件工程案例分析

第一部分调研，评测
（一）Kimi
1.使用体验
1.1介绍和使用软件
1.2 优缺点分析
1.3 改进意见
2. BUG描述
2.1 BUG发生时的测试环境
2.2 BUG严重程度量化指标
2.3 BUG的详情
3. 结论
（二）文心一言
1. 体验
1.1介绍和使用软件
1.2 优缺点分析
1.3 改进意见
2. BUG描述
2.1 BUG发生时的测试环境
2.2 BUG严重程度量化指标
2.3 BUG的详情
3. 结论
（三）采访
第二部分分析
（一）开发时间估计
（二）同类产品对比排名
（三）软件工程方面的建议
（四）BUG存在的原因分析
第三部分建议和规划
（一）市场概况
（二）市场现状
（三）市场与产品生态
（四）产品规划

第一部分调研，评测

（一）Kimi

1.使用体验

1.1介绍和使用软件

Kimi的主要功能包括：

与用户进行中英文对话，提供帮助和信息。
阅读和理解用户上传的文件内容，如TXT、PDF、Word文档、PPT幻灯片和Excel电子表格，并基于这些内容回答用户的问题。
解析用户提供的网址内容，并结合这些内容来回答问题。
结合搜索结果来提供更全面的回答。
提供文字回复，帮助用户解决问题，但无法创建或提供下载链接的文件。

使用过程

界面的主体为与ai的对话框，交互的方式就是问答对话式交互。我向kimi提问让其谈谈对软件工程这门课的看法，回答比较全面周到的。
支持上传大量的文件来分析是其亮点。
测试访问互联网网页的能力，让其分析此次作业发布博客，分析效果还是不错的^ ω ^

1.2 优缺点分析

数据量

优点：能够处理大量的数据，支持最多20万token的输入和输出，能够理解和回答复杂的问题，同时处理和分析大量的文本信息。
缺点：尽管能够处理大量数据，但能力受限于用户上传的文件和网页内容。无法访问互联网以外的数据源，这限制在某些情况下提供信息的能力。

界面

优点：作为一个文本交互的AI，界面简洁明了，可以通过简单的文本输入与ai交流，无需复杂的图形界面操作。
缺点：由于缺乏图形用户界面，一些用户可能会觉得交互方式单一，对于习惯图形界面的用户来说，需要一定的适应时间。

功能

优点：具备多种功能，如文件内容解析、网页内容分析、结合搜索结果回答问题等。
缺点：功能受限于设计和能力范围，无法执行需要图形界面或特定软件操作的任务，也无法创建或提供下载链接的文件。

准确度

优点：通过结合上下文信息和搜索结果来提高回答的准确性。
缺点：在处理复杂或模糊的问题时，存在一定的误差。

用户体验

优点：能够快速响应用户的问题，提供即时的帮助和解答。
缺点：由于是基于文本的交互，缺乏个性化和情感化的交流，可能会影响用户的情感体验。此外，无法提供视觉辅助或图形化的信息展示，这会限制用户理解和吸收信息的方式。

1.3 改进意见

基于上述分析，提出以下改进意见建议，旨在改进和优化用户体验：

虽然目前的数据处理能力已经相当强大，但未来可以考虑通过技术升级来进一步提高处理能力，例如增加token的限制或优化算法以更有效地处理大量数据。此外，可以探索与外部数据库或API的集成，以便能够访问更广泛的数据源，提高信息的丰富度与准确度。
为了满足不同用户的需求，可以考虑开发一个图形用户界面（GUI）的版本，提供更直观的操作方式和视觉反馈。
持续扩展和完善现有功能，例如增加对特定软件操作的支持，或者开发新的功能，如语音识别和响应，以提供更全面的服务。
可以引入用户反馈机制，通过用户的纠正和建议来不断改进和调整回答，补充大模型训练的数据集。
可以考虑引入多媒体元素，如图像、视频或动画，来辅助文本信息的展示，提高用户的理解和吸收效率。

2. BUG描述

2.1 BUG发生时的测试环境

操作系统：macOS 14.1.2
计算机平台：Macbook 2020 M1
浏览器：Chrome 123.0.6312.122（正式版本） (arm64)

2.2 BUG严重程度量化指标

5🌟: 严重的安全问题：可能导致用户关键信息泄漏；严重的功能问题：某模块功能完全不能使用。
4🌟：潜在的安全问题：可能使得部分用户的信息泄漏；一般的功能问题：某模块或功能在某些场合不能使用；交互问题：不符合逻辑的交互，会导致暂存信息丢失等。
3🌟：潜在的功能问题：在某些极端情况下会出现的功能问题，以及足够影响功能的排版/交互/显示错误。
2🌟：显著的排版/交互/显示错误，信息调用报错，以及在某些极端情况下功能不能使用。
1🌟：细小的排版/交互/显示错误，刷新或等待后恢复，不影响实际信息以及主要功能。

2.3 BUG的详情

（1）对于逻辑比较复杂的叙述把握不清楚，模糊应对

可复现性： 多次测试，每次发生
复现步骤： 在对话框中输入并提问：我奶奶唯一的儿子和我母亲生了唯一的孩子，我该怎么办？
具体描述： 回复的内容笼统模糊，可见AI并没有判断出提问者的身份就是这个孩子。多次提问，其回复的方向仍在家庭关系、亲情维护、情绪排解、心理健康上。

请添加图片描述

BUG的可能成因：

如果模型在训练过程中接触到的逻辑复杂的例子不够多或者类型单一，可能会导致模型在处理类似叙述时表现不佳。
模型的超参数设置可能不适合处理逻辑复杂的任务。例如，学习率、正则化项、层数和隐藏单元数等超参数的设置可能需要针对特定复杂逻辑任务进行调整。
模型可能缺乏专门的逻辑推理机制，如规则引擎或者符号推理模块，这些机制能够帮助模型更好地理解和处理逻辑复杂的叙述。

BUG的严重性： ★★★
理由：对复杂逻辑问题理解不够，但一般的问答对话中提问者的表述会更加简洁与结构化，AI不会产生误判。
对BUG的预期及改进建议：

预期：

在这种情况下，AI应该回答提问者自身就是所提问题中的“孩子”，这件事对提问者并不会产生什么影响。

改进建议：

扩充和丰富训练数据集，包含更多逻辑复杂的例子，以及不同类型的逻辑推理任务，以提高模型的泛化能力。
在模型中引入或者增强逻辑推理机制，如使用符号逻辑、规则系统或者外部知识库，以提升模型的逻辑处理能力。
当模型感知到问题存在较大的逻辑复杂程度时，应再次向用户提问确认，并请求能否简化表述问题。
提高模型的可解释性，通过注意力机制、特征可视化等手段，让模型的决策过程更加透明，便于发现和修正逻辑推理中的错误。

（2）对于有逻辑误导性的提问，无法解决

可复现性： 多次测试，多次发生
复现步骤： 在对话框中输入并提问：既然快递要3天才到，为什么不把所有的快递都提前3天发，这样不就当天能收到了吗？
具体描述： 回复的内容集中于物流仓储知识的普及，可见AI并没有判断出问题的关键发货这个行为在时间上不可能先于用户下单，商家不可能回到过去去发货来达到当天送达的效果。
BUG的可能成因：

模型可能没有足够的能力去识别和纠正逻辑上的误导或谬误，尤其是在复杂或微妙的情况下
模型可能在特定类型的逻辑问题上表现良好，但对于新的或未见过的逻辑误导问题泛化能力不足。

BUG的严重性： ★★★
理由：无法解决有逻辑误导性的问题，但一般的问答对话中提问者不会有意设置逻辑谬误，AI一般不会因此产生误判。
对BUG的预期及改进建议：

预期：

在这种情况下，AI应该回答发货这个行为在时间上不可能先于用户下单，商家不可能回到过去去发货来达到当天送达的效果，因此提问者的想法是存在谬误并且不可实现的。

改进建议：
1. 在训练过程中加入逻辑推理和批判性思维的练习，提高模型识别和处理逻辑谬误的能力。
2. 建立人工审核机制，对模型的回答进行评估和反馈，不断优化模型的性能。
3. 在感知到提问存在逻辑误导性时，向提问者确认问题的表述是否正确，是否提出了错误的问题。

（3）输入框无法正常显示Markdown形式数据

可复现性： 多次测试，每次发生
复现步骤： 在对话框中输入Markdown形式内容
具体描述： 复制先前回答中出现过的markdown形式的数学表达式到输入框中，无法正常显示。
BUG的可能成因：
文本框不支持显示Markdown内容

BUG的严重性： ★★★★
理由：无法显示markdown内容将阻碍用户使用的便利性，尤其是markdown数据常出现在AI本身的回答内容中，用户经常需要复制AI回答的部分内容进行下一轮提问。
对BUG的预期及改进建议：

预期：

在这种情况下，输入框应该可以正常显示markdown数据。

改进建议：

修改前端输入框的设计，使得能够支持markdown数据正常显示。

3. 结论

3.1定性结论

结论：高效且实用的AI生产力工具
理由：
1. 具备良好的多语言对话能力，中文和英文方面都很丝滑，加分。
2. 能够处理和解析用户上传的文件和网页内容，容许的上传文件数据量还很大，极大地方便了获取和处理信息的需求，加分。
3. 能够快速响应回答用户问题，无需长时间等待，加分。
4. 一次对话能接受的token极长，正常使用需求根本用不完，加分。
5. 不提供图形界面或复杂的交互功能，影响需要高度可视化或交互性功能的使用需求，减分。
6. 没有提供拓展功能的插件，减分。
7. 对于有逻辑复杂或有逻辑谬误的问题，难以甄别回答，减分

综上：Kimi在提供多语言对话、文件和网页内容解析、结合搜索结果回答问题等方面表现出色，而在绘画、图形界面提供和功能扩展插件方面存在一定的局限性。总体来看，Kimi是一个值得推荐的实用工具，适合需要快速、准确信息处理和多语言支持的用户使用。

3.2定量结论
评分细则：满分 10 分, 良好 6 分, 及格 4 分，聊胜于无 1 分, 很差 -3 分

类别	描述	打分依据	评分
界面直观性	评估用户在使用模型时的直观感受，包括用户界面的友好程度和操作的简便性。	用户在使用过程中的舒适度、学习曲线的平缓程度	10
响应速度	模型处理请求并给出反馈的速度	请求的平均响应时间	8
准确性	模型输出结果的正确性和可靠性	用户任务完成的成功率	7
功能丰富性	提供的功能是否满足用户多样化的需求	模型支持的功能数量、功能的实用性、可扩展性	7
个性化	是否能够根据用户的偏好和历史行为提供模型的定制化学习策略	个性化推荐的准确性、上下文学习记忆能力	7
稳定性	在长时间使用过程中的可靠性和一致性	相同问题、类似问题多次提问所得结果的变化程度（AI对自己分析结果笃定与否）	7
软件的适应性	评估模型对不同用户需求的适应程度，包括对不同语言、文化和使用习惯的支持	多语言支持的质量	8
帮助与支持	用户在遇到问题时获取帮助的便捷性和有效性	客服的响应速度、帮助文档的完善程度	7
隐私保护	模型在收集、处理和存储用户数据时的隐私保护措施	用户数据的安全性	8
性价比	使用模型所支付的费用与获得的服务之间的关系	服务的价格、用户对服务价值的认可度	9

最终得分	80-100，非常好。50-79，良好。30-49，一般。0-29，差	78

（二）文心一言

1. 体验

1.1介绍和使用软件

文心一言的主要功能包括：

可以回答各种学科专业知识、百科知识以及生活常识等问题，为用户提供所需的信息。
具备文本创作的能力，可以帮助撰写小说、文案、诗歌、作文等各种文本内容。
能够进行逻辑推理、脑筋急转弯等思维活动，提供有趣、富有挑战性的推理题目。
可以进行各种数学计算，包括基础的算术运算、代数运算、几何计算等。

代码理解与编写：能够理解和解释代码，帮助用户理解编程逻辑和语法，也可以提供简单的代码编写建议，辅助用户进行编程工作。
作画：能够根据用户的描述和要求，生成相应的图像或画作，满足用户的艺术需求。
翻译：支持多种语言的翻译功能，可以帮助用户进行跨语言的沟通和理解。

使用过程

界面的主体为与ai的对话框，交互的方式就是问答对话式交互。我向文心一言提问让其谈谈对软件工程这门课的看法，回答相较于Kimi比较简单和笼统。

请添加图片描述

比较丰富的可选插件是其亮点。
测试使用其绘图功能，可见其对于简语意的把握是不尽如人意的，需要比较详细的prompt才能画出所需的内容(ｰｰ;)

在这里插入图片描述

1.2 优缺点分析

数据量

优点：拥有庞大的数据资源，可以涵盖各种领域的知识和信息。
缺点：由于数据的复杂性和多样性，存在某些特定领域或话题的数据不够丰富准确的情况。

界面

优点：图形界面使用户能够轻松上手并快速找到所需的功能，方便用户进行各种操作。
缺点：充值等非重要功能在界面中占据不小的位置，使得图形界面内容比较冗杂，界面设计比较复杂，导致用户在使用时感到比较困惑和不便。

功能

优点：具备丰富的功能，包括知识问答、文本创作和AI绘画等，都能够提供相应的支持。此外还能够附加各类特化插件解决专门的问题，如说图解画、览卷文档等
缺点：插件的功能还比较简陋，相较于普适的版本在其针对的问题上没有显著性的特化增强。

准确度

优点：应对正常体量的用户日常问题回答准确快速。
缺点：由于自然语言处理的复杂性，有时文心一言的回答可能存在偏差或误解用户意图的情况，对于有逻辑误导性的提问尤甚。当上写文长度比较长时，会遗忘先前对话中的内容。

用户体验

优点：比较丰富的插件库增添的使用体验的多样性。
缺点：软件存在一些操作上的不便或与逻辑上的不连贯，影响用户体验流畅度。

1.3 改进意见

基于上述分析，提出以下改进意见：

增强特定领域或话题的数据资源，可以通过合作与专业机构或引入领域专家的知识库来提升数据的丰富性和准确性。定期更新和优化数据集，确保信息的时效性和相关性，减少数据的偏差和错误。
简化界面设计，减少非核心功能的展示区域，让用户能够更快速地聚焦于主要功能。
提供自定义界面选项，让用户根据自己的使用习惯调整界面布局和功能模块。
对于插件功能，进行深度开发和细化，提供更加专业和高效的解决方案，增强其针对特定问题的解决能力。
强化自然语言处理算法，提高对复杂问题的理解和回答能力，减少误解和偏差。

开发上下文跟踪机制，确保在长对话中能够维持话题的连贯性，避免遗忘先前的内容。

2. BUG描述

2.1 BUG发生时的测试环境

操作系统：macOS 14.1.2
计算机平台：Macbook 2020 M1
浏览器：Chrome 123.0.6312.122（正式版本） (arm64)

2.2 BUG严重程度量化指标

2.3 BUG的详情

（1）多模态能力欠佳，无法遵从需求画图

可复现性： 多次测试，多次发生
复现步骤： 要求文心一言对物体（动物、人物等）作画，同时对物体提出一些特征需求（如人物的身份，动物的数量）
具体描述： 无法按要求画出规定数量的物体；无法作画出特定身份人物的特征。

请添加图片描述

BUG的可能成因：

在自然语言处理过程中，可能存在对用户指令的理解误差。如果文心一言无法准确解析用户的作画要求，尤其是当要求涉及复杂的视觉元素和特征时，可能导致输出结果不符合要求。
多模态处理需要复杂的算法来理解和整合不同模态之间的信息，文心一言可能使用的算法或模型在处理图像生成任务时存在局限性，无法准确映射文本描述到图像特征，或者无法处理复杂的视觉要求。

BUG的严重性： ★★★★★
理由：对作画要求一言难尽的理解能力，让这个作画的功能基本就是处于图一乐的层次，难堪大用。
对BUG的预期及改进建议：

预期：

当要求涉及复杂的视觉元素和特征时，准确理解解析用户的作画要求，准确映射文本描述到图像特征。

改进建议：

扩充训练数据集，包含更多与图像生成相关的文本描述和图像样本，以提高模型在这一领域的理解和执行能力。
研究和应用更先进的图像生成算法，提升模型将文本描述转换为图像的能力。

（2）对于有逻辑误导性的提问，无法解决

可复现性： 多次测试，多次发生
复现步骤： 在对话框中输入并提问：既然快递要3天才到，为什么不把所有的快递都提前3天发，这样不就当天能收到了吗？
具体描述： 回复的内容集中于物流仓储知识的普及，可见并没有判断出问题的关键发货这个行为在时间上不可能先于用户下单，商家不可能回到过去去发货来达到当天送达的效果。

请添加图片描述

BUG的可能成因：

模型可能没有足够的能力去识别和纠正逻辑上的误导或谬误，尤其是在复杂或微妙的情况下
模型可能在特定类型的逻辑问题上表现良好，但对于新的或未见过的逻辑误导问题泛化能力不足。

BUG的严重性： ★★★
理由：无法解决有逻辑误导性的问题，但一般的问答对话中提问者不会有意设置逻辑谬误，AI一般不会因此产生误判。
对BUG的预期及改进建议：

预期：

在这种情况下，AI应该回答发货这个行为在时间上不可能先于用户下单，商家不可能回到过去去发货来达到当天送达的效果，因此提问者的想法是存在谬误并且不可实现的。

改进建议：
1. 在训练过程中加入逻辑推理和批判性思维的练习，提高模型识别和处理逻辑谬误的能力。
2. 建立人工审核机制，对模型的回答进行评估和反馈，不断优化模型的性能。
3. 在感知到提问存在逻辑误导性时，向提问者确认问题的表述是否正确，是否提出了错误的问题。

（3）输入框无法正常显示Markdown形式数据

可复现性： 多次测试，每次发生
复现步骤： 在对话框中输入Markdown形式内容
具体描述： 复制先前回答中出现过的markdown形式的数学表达式到输入框中，无法正常显示。

请添加图片描述

BUG的可能成因：
文本框不支持显示Markdown内容

BUG的严重性： ★★★★
理由：无法显示markdown内容将阻碍用户使用的便利性，尤其是markdown数据常出现在AI本身的回答内容中，用户经常需要复制AI回答的部分内容进行下一轮提问。
对BUG的预期及改进建议：

预期：

在这种情况下，输入框应该可以正常显示markdown数据。

改进建议：

修改前端输入框的设计，使得能够支持markdown数据正常显示。

3. 结论

3.1定性结论
结论：专业性知识性较强的长文本文件解读分析概括能力尚佳，扩展插件丰富，普通对话问答的回复比较简单笼统，文生图能力难堪大用以趣味性为主。
理由：

文心一言具备强大的中文文本生成和理解能力，能够根据用户的输入生成连贯、符合语境的文本，这使得它在内容创作和自动回复等方面表现出色，加分。
支持多种扩展插件，为用户提供了丰富的个性化选项，满足不同用户的需求，加分。
文心一言的社区和技术支持较为完善，能够为用户提供必要的帮助和指导，加分。
扩展插件、作画能力实用性不高，难以作为生产力工具，减分
对于有逻辑复杂或有逻辑谬误的问题，难以甄别回答，减分

综上：文心一言作为一个中文自然语言处理工具，在文本生成、理解和个性化服务方面具有一定优势，适合内容创作者、开发者和企业使用。但逻辑理解、文生图和一些扩展功能上存在局限。

3.2定量结论
评分细则：满分 10 分, 良好 6 分, 及格 4 分，聊胜于无 1 分, 很差 -3 分

类别	描述	打分依据	评分
界面直观性	评估用户在使用模型时的直观感受，包括用户界面的友好程度和操作的简便性。	用户在使用过程中的舒适度、学习曲线的平缓程度	4
响应速度	模型处理请求并给出反馈的速度	请求的平均响应时间	4
准确性	模型输出结果的正确性和可靠性	用户任务完成的成功率	4
功能丰富性	提供的功能是否满足用户多样化的需求	模型支持的功能数量、功能的实用性、可扩展性	7
个性化	是否能够根据用户的偏好和历史行为提供模型的定制化学习策略	个性化推荐的准确性、上下文学习记忆能力	5
稳定性	在长时间使用过程中的可靠性和一致性	相同问题、类似问题多次提问所得结果的变化程度（AI对自己分析结果笃定与否）	5
软件的适应性	评估模型对不同用户需求的适应程度，包括对不同语言、文化和使用习惯的支持	多语言支持的质量	7
帮助与支持	用户在遇到问题时获取帮助的便捷性和有效性	客服的响应速度、帮助文档的完善程度	6
隐私保护	模型在收集、处理和存储用户数据时的隐私保护措施	用户数据的安全性	5
性价比	使用模型所支付的费用与获得的服务之间的关系	服务的价格、用户对服务价值的认可度	1

最终得分	80-100，非常好。50-79，良好。30-49，一般。0-29，差	48

（三）采访

被采访者是一位软件工程的本科生，接触使用过较多AI大模型

请添加图片描述

第二部分分析

（一）开发时间估计

软件名称	功能列举	估计时间
Kimi	编写代码（生成文本、逻辑构建）、在线问答（内容交互、即时回答）、分享项目/作品（信息分享、内容传播）、查看项目（历史记录、内容回顾）、模板中心（预设回答、快速生成）、上传模板（自定义回答、个性化设置）、社区（交流互动、知识共享）、设置（个性化配置、功能定制）	200-300天
文心一言	文本生成（内容创作、自动撰写）、文本理解（语义分析、情感识别）、多语言翻译（跨语言交流、内容转换）、模板库（标准化回复、快速生成）、个性化定制（用户偏好学习、内容优化）、设置与集成（工具配置、第三方服务连接）	300-360天

（二）同类产品对比排名

在总结了两个AI大模型软件的共同点后，我通过网上搜索资料获得了如下九个方面的质量点:

准确性（Accuracy）/响应速度（Response Time）/用户体验（User Experience）/功能多样性（Feature Diversity）/可扩展性（Scalability）/易用性（Ease of Use）/适应性（Adaptability）/创新性（Innovativeness）/社区和支持（Community and Support）

（中文）对话、文本交互：

ChatGPT >= Kimi >= 文心一言 > 通义千问 > 讯飞星火
代码能力、数学能力：

ChatGPT > 通义千问 > Kimi >= 文心一言 > 讯飞星火

（三）软件工程方面的建议

软件名称	BUG原因分析
Kimi	1. 采用模块化的设计，将不同的功能和服务分解为独立的模块。这可以提高代码的可维护性和可扩展性，便于未来的功能升级和定制。 2. 实施CI/CD流程，确保代码的持续集成和快速部署。有助于及时发现和修复问题，加快新功能的上线速度。 3. 定期进行性能测试和分析，识别瓶颈并进行优化，包括提高算法效率、优化数据处理流程和提升系统资源利用率。 4. 增强系统的容错能力，确保在遇到错误或异常情况时能够优雅地处理并提供反馈，保证系统的稳定性和用户的使用体验。 5. 持续改进用户界面，确保界面直观、友好且易于使用。同时，收集用户反馈，根据用户需求和行为进行UX设计优化。 6. 提供全面的API文档和开发者指南，帮助用户更好地理解和使用系统。同时，建立有效的技术支持和用户服务机制。 7. 实施全面的测试策略，包括单元测试、集成测试和系统测试，确保每个功能的正确性和可靠性。 8. 建立用户反馈机制，定期收集和分析用户意见，根据反馈进行功能迭代和优化，不断提升用户满意度。
文心一言	1. 将AI大模型程序划分为多个独立的模块或组件，每个模块负责特定的功能。这样可以使代码结构更清晰，便于维护和扩展。 2. 编写易于理解的代码，并提供充足的文档说明，这有助于其他开发人员快速理解代码的工作原理，降低维护成本。 3. 使用版本控制系统（如Git）来管理代码变更，有助于跟踪代码的修改历史，协作开发，以及回滚到之前的稳定版本。 4. 编写单元测试和集成测试，确保模型的各个部分和整体功能按预期工作。此外，使用验证集和测试集来评估模型的性能，确保其在不同场景下的稳定性和泛化能力。 5. 针对AI大模型程序可能出现的性能瓶颈，如计算速度、内存占用等，进行优化，包括算法改进、数据结构优化、并行计算等。 6. 设计程序时应考虑到未来的扩展需求，使其能够方便地添加新功能或适应新的应用场景，保持一定的灵活性，以便在不同环境下部署和运行。 7. 虽然AI大模型程序主要面向开发人员和数据科学家，但提供简洁明了的接口和友好的用户体验仍然很重要，这有助于降低使用门槛，促进更广泛的应用。

软件名称

BUG原因分析

Kimi

1. 采用模块化的设计，将不同的功能和服务分解为独立的模块。这可以提高代码的可维护性和可扩展性，便于未来的功能升级和定制。
2. 实施CI/CD流程，确保代码的持续集成和快速部署。有助于及时发现和修复问题，加快新功能的上线速度。
3. 定期进行性能测试和分析，识别瓶颈并进行优化，包括提高算法效率、优化数据处理流程和提升系统资源利用率。
4. 增强系统的容错能力，确保在遇到错误或异常情况时能够优雅地处理并提供反馈，保证系统的稳定性和用户的使用体验。
5. 持续改进用户界面，确保界面直观、友好且易于使用。同时，收集用户反馈，根据用户需求和行为进行UX设计优化。
6. 提供全面的API文档和开发者指南，帮助用户更好地理解和使用系统。同时，建立有效的技术支持和用户服务机制。
7. 实施全面的测试策略，包括单元测试、集成测试和系统测试，确保每个功能的正确性和可靠性。
8. 建立用户反馈机制，定期收集和分析用户意见，根据反馈进行功能迭代和优化，不断提升用户满意度。

文心一言

1. 将AI大模型程序划分为多个独立的模块或组件，每个模块负责特定的功能。这样可以使代码结构更清晰，便于维护和扩展。
2. 编写易于理解的代码，并提供充足的文档说明，这有助于其他开发人员快速理解代码的工作原理，降低维护成本。
3. 使用版本控制系统（如Git）来管理代码变更，有助于跟踪代码的修改历史，协作开发，以及回滚到之前的稳定版本。
4. 编写单元测试和集成测试，确保模型的各个部分和整体功能按预期工作。此外，使用验证集和测试集来评估模型的性能，确保其在不同场景下的稳定性和泛化能力。
5. 针对AI大模型程序可能出现的性能瓶颈，如计算速度、内存占用等，进行优化，包括算法改进、数据结构优化、并行计算等。
6. 设计程序时应考虑到未来的扩展需求，使其能够方便地添加新功能或适应新的应用场景，保持一定的灵活性，以便在不同环境下部署和运行。
7. 虽然AI大模型程序主要面向开发人员和数据科学家，但提供简洁明了的接口和友好的用户体验仍然很重要，这有助于降低使用门槛，促进更广泛的应用。

（四）BUG存在的原因分析

软件名称	BUG原因分析
Kimi	1. 模型可能没有接受足够多的复杂逻辑叙述的训练，或者训练数据中这类问题的例子不够多样化，导致模型在处理这些问题时表现不佳。 2. 模型的架构可能不适合捕捉和处理复杂的逻辑关系，尤其是在涉及多层次推理或抽象思维的情况下。 3. 超参数的设置可能不适合处理逻辑复杂的任务，或者训练过程中的设置（如学习率、正则化等）未能优化模型在这些方面的表现。 4. 模型在自然语言处理方面仍存在局限性，特别是在理解含糊、隐晦或双关的语言时。 5. 模型可能对对抗性样本或故意构造的误导性信息缺乏抵抗力，容易被这些信息所欺骗。 6. 输入框可能缺乏对Markdown格式的解析和渲染机制，或者该机制存在缺陷，导致无法正确显示Markdown格式的数据。
文心一言	1. 模型可能主要针对单一模态（如文本）进行了训练，而缺乏处理图像或结合多种模态数据的能力。 2. 模型的架构可能没有设计为支持跨模态的理解和生成，导致无法较好地执行如画图等多模态任务。 3. 模型可能没有足够的逻辑推理能力来识别和处理复杂的逻辑关系，特别是在面对有逻辑误导性的提问时。 4. 模型可能对对抗性样本或故意构造的误导性信息缺乏抵抗力，容易被这些信息所欺骗。 5. 第三方库或工具的集成可能不成功，导致Markdown等特定格式的处理失败。 6. 界面设计可能未充分考虑Markdown的特定语法和显示需求，导致显示效果不符合预期。

软件名称

BUG原因分析

Kimi

1. 模型可能没有接受足够多的复杂逻辑叙述的训练，或者训练数据中这类问题的例子不够多样化，导致模型在处理这些问题时表现不佳。
2. 模型的架构可能不适合捕捉和处理复杂的逻辑关系，尤其是在涉及多层次推理或抽象思维的情况下。
3. 超参数的设置可能不适合处理逻辑复杂的任务，或者训练过程中的设置（如学习率、正则化等）未能优化模型在这些方面的表现。
4. 模型在自然语言处理方面仍存在局限性，特别是在理解含糊、隐晦或双关的语言时。
5. 模型可能对对抗性样本或故意构造的误导性信息缺乏抵抗力，容易被这些信息所欺骗。
6. 输入框可能缺乏对Markdown格式的解析和渲染机制，或者该机制存在缺陷，导致无法正确显示Markdown格式的数据。

文心一言

1. 模型可能主要针对单一模态（如文本）进行了训练，而缺乏处理图像或结合多种模态数据的能力。
2. 模型的架构可能没有设计为支持跨模态的理解和生成，导致无法较好地执行如画图等多模态任务。
3. 模型可能没有足够的逻辑推理能力来识别和处理复杂的逻辑关系，特别是在面对有逻辑误导性的提问时。
4. 模型可能对对抗性样本或故意构造的误导性信息缺乏抵抗力，容易被这些信息所欺骗。
5. 第三方库或工具的集成可能不成功，导致Markdown等特定格式的处理失败。
6. 界面设计可能未充分考虑Markdown的特定语法和显示需求，导致显示效果不符合预期。

第三部分建议和规划

（一）市场概况

1.受众推断

根据生成式AI大模型的主要功能，以及经过搜索阅读资料之后，推断出主要受众为：
开发者和程序员、研究人员和学者、内容创作者、翻译和多语言服务提供者、数据分析师等

2.市场大小
估计AI生成式大模型的受众市场涉及到多个变量和不确定因素，但是可以通过分析一些关键的数据和趋势来略窥一二。

互联网用户基数：
根据中国互联网络信息中心（CNNIC）发布的报告，截至2021年，我国网民规模已超过9亿。这是一个庞大的潜在用户群体，在未来，其中大多数人可能会直接或间接地使用AI生成式大模型。
企业和组织：
我国有数百万的企业，包括小型、中型和大型企业，它们在市场营销、客户服务、内容创作、数据分析等方面可能会使用AI生成式大模型。即使只有其中的一部分企业采用这项技术，这也是一个庞大的用户基数。
开发者和技术人员：
我国的软件开发者和技术人员数量庞大，他们可能会使用AI生成式大模型来辅助开发工作、提高编程效率或创造新的应用程序。
教育和研究机构：
包括学校、大学和研究机构在内的教育领域，可能会使用AI生成式大模型进行教学辅助、研究分析和学术创作。
创意产业从业者：
中国的创意产业，包括广告、媒体、出版、娱乐等行业，可能会利用AI生成式大模型来创作内容和提高生产效率。

基于以上分析，可以合理推测，我国的AI生成式大模型潜在受众人数可能达到数亿级别。仅仅是To C端的消费级别日常应用，每年都是千亿级别以上的流水。To B端偏向信息技术生产力革命、信息技术基础设施建设，其以算力中心为核心的重资产高回报模式，更是难以估计。

3.直接用户和潜在用户

直接用户
科技公司：使用AI模型进行产品开发、数据分析和市场预测。
研究机构：在学术研究、数据分析和科技创新中应用AI技术。
教育机构：利用AI辅助教学、课程开发和学生评估。
内容创作者：使用AI生成文章、视频、音乐等创意作品。
企业客户：在市场营销、客户服务、报告撰写等方面使用AI工具。

潜在用户
中小企业：随着AI技术的普及和成本的降低，越来越多的中小企业将能够接触并使用AI工具。
个人用户：随着AI技术的易用性提高，普通用户可能会在日常生活中使用AI生成式大模型来完成各种任务。
特定行业：如医疗、法律、金融等行业，随着行业对AI技术的需求增加，潜在用户数量将不断上升。
政府和公共服务：在公共服务、城市规划、环境监测等领域，AI技术的应用将吸引更多潜在用户。

（二）市场现状

1. 市场上现有产品

产品名	功能地位
ChatGPT	ChatGPT 是 OpenAI 开发的一款基于 GPT-3.5 模型的聊天机器人。它能够与用户进行自然、流畅的对话，提供信息查询、文本生成、编程辅助、创意写作等多种服务。ChatGPT 通过持续的对话学习，不断提升其交互的自然性和准确性。
讯飞星火	讯飞星火是由科大讯飞推出的一款人工智能写作助手，它依托于科大讯飞在语音和语言技术领域的积累，旨在提高用户在写作、编辑和内容创作等方面的效率和质量。
Kimi	Kimi是月之暗面科技有限公司开发的人工智能助手，专注于提供多语言对话、文件解析、内容创作和搜索结果结合的回答等服务。它能够理解和处理用户的多样化需求，为用户提供信息查询、教育辅导、日常任务自动化等多种智能服务
文心一言	文心一言是一个百度公司开发的中文自然语言处理平台，它能够根据用户的输入生成连贯、符合语境的文本内容。该平台适用于内容创作、自动回复、文本分析等多种场景，旨在提高用户在创作、沟通和信息处理方面的效率。
通义千问	通义千问是一个阿里巴巴开发的基于深度学习的问答系统，旨在为用户提供广泛领域的知识和信息。它能够理解用户的问题，并提供准确的答案和解释。适用于教育、研究、日常咨询等多个领域，帮助用户快速获取所需信息。

2. 两款产品的定位、优势与劣势

产品名	定位	优势	劣势
Kimi	Kimi专注于提供安全、高效的信息查询、文件解析和内容创作服务，旨在优化用户的工作效率和提升交互体验。	1. 多语言支持: Kimi支持中文和英文等多种语言，能够服务于更广泛的用户群体。 2. 文件和网页解析: Kimi能够解析用户上传的文件和网页内容，提供基于这些内容的有价值回答。 3. 搜索结合回答: Kimi能够结合搜索结果来提供更加丰富和准确的回答。	1. 专业领域限制: 对于高度专业化的领域，如医疗、法律等，Kimi可能需要更深入的专业知识和审核。 2. 交互界面: 作为一个文本交互为主的AI，可能缺乏图形界面和复杂的交互功能，影响某些用户的体验。
文心一言	文心一言主要定位于中文自然语言处理领域，它是一个能够理解和生成中文文本的AI平台。文心一言通常用于内容创作、文本分析、智能对话等场景。	1. 中文优化: 文心一言特别针对中文语境进行优化，能够更好地理解和生成中文文本。 2. 内容创作: 专注于提供高质量的文本内容生成服务，适用于多种写作场景。 3. 语言生成质量: 文心一言在生成连贯、自然的语言方面表现出色。	1. 多语言限制: 相比一些国际化的AI平台，文心一言可能在非中文语境下的表现不如中文环境下优秀。 2. 功能范围: 主要集中在文本生成，可能在图像识别、多模态交互等方面不如一些综合性AI平台全面。

3. 两款产品之间的关系与竞争态势
国际市场：

在国际市场上，Kimi的多语言能力使其具有更广泛的用户基础和更高的知名度。由于Kimi支持多种语言，它能够服务于全球各地的用户，这可能是其在国际市场上的一个优势。

国内市场：

在国内市场上，文心一言因其专注于中文处理的能力而占据优势。作为本土产品，文心一言可能更符合国内用户的使用习惯和文化背景。此外，国内用户可能更倾向于选择运行速度快、服务响应更及时的本土软件。

技术和功能：

Kimi和文心一言在技术上各有侧重，Kimi的多语言处理能力和文心一言的中文生成质量都是各自的特点。

4. 领域所处的市场阶段

AI大模型领域所处的市场阶段可以概括为“成熟增长期”,正处于一个活跃且不断演进的阶段，技术创新和应用实践相互促进，共同推动着市场向前发展。未来，随着技术的进一步成熟和市场的进一步开拓，AI大模型有望在更多领域发挥更大的作用。

（三）市场与产品生态

1. 核心用户刻画

用户类型	学历	年龄	专业	爱好	收入	表面需求	潜在需求
研究人员	硕士及以上	25-50岁	计算机科学、数据科学等	编程、阅读学术论文、参加学术会议	与研究资金相关	进行数据分析、模式识别、算法开发和优化	推动科学发现、发表高质量研究成果
开发者	本科及以上	20-45岁	软件工程、信息技术等	编程、技术研究、参与开源项目	与技能水平相关	开发智能应用、提高代码质量和效率	掌握新技术、提升个人职业竞争力
数据分析师	本科及以上	22-50岁	统计学、商业分析等	数据可视化、业务洞察、技术学习	与经验相关	分析和解释数据、预测趋势	提高决策质量、获取商业洞察
企业决策者	本科及以上	30-60岁	商业管理、市场营销等	市场分析、战略规划、团队建设	较高	利用AI提高业务效率、降低成本	增强竞争优势、实现可持续发展
内容创作者	不限	20-50岁	新闻、传媒、文学等	写作、阅读、社交媒体互动	与作品受欢迎程度相关	生成或编辑内容、提高创作效率	扩大受众、提高作品质量
教育工作者	本科及以上	25-60岁	教育学、心理学等	教学、课程设计、学术交流	与学校政策相关	辅助教学、开发教育资源、个性化学习方案	提高教学质量、促进学生全面发展
普通用户	不限	18-不限	不限	多样化	不限	解决日常问题、获取信息、娱乐	提高生活质量、获取个性化服务

2. 用户群体之间的关系

产品的用户群体之间是否存在一定关系？
1. 研究人员与开发者：
  研究人员通过AI大模型开发新的算法和应用，而开发者利用这些研究成果来创建实际的产品和服务。这种互动促进了技术创新和应用的快速发展。
2. 开发者与企业决策者：
  开发者使用AI大模型来构建智能解决方案，帮助企业决策者通过数据驱动的洞察来优化业务流程和提高效率。
3. 数据分析师与内容创作者：
  数据分析师利用AI大模型分析数据和趋势，为内容创作者提供有价值的信息和主题，后者则创作相关内容，吸引更多用户。
4. 教育工作者与学生：
  教育工作者使用AI大模型作为教学辅助工具，提供个性化的学习方案，而学生通过这些工具提高学习效率和掌握新知识。
5. 普通用户与所有用户群体：
  普通用户的反馈和需求可以指导研究人员、开发者和企业决策者改进产品和服务，形成一个闭环的互动关系。
是否有利用其相互作用二次构成特定用户生态的可能性？
我认为是有可能的，比如以下几种：
1. 技术与应用的融合：
  研究人员和开发者可以共同构建一个技术交流和应用开发的平台，促进AI技术的创新和实际应用的结合。
2. 职业发展与教育培训：
  企业决策者和教育工作者可以合作，通过AI大模型提供职业发展课程和实践机会，帮助学生和有转专业意向的人才能够更好地适应职场需求。
3. 知识共享与社区建设：
  内容创作者和普通用户可以在社区中分享使用AI大模型的经验和成果，形成一个知识共享和互助的社区环境。
4. 反馈循环与产品迭代：
  所有用户群体的反馈可以被用来不断改进AI大模型的功能和用户体验，形成一个持续优化和满足用户需求的生态系统。
（四）产品规划

1. 新功能描述

以Kimi作为我当下要继续发展的软件，为了进一步提升Kimi的用户体验和满足用户的个性化需求，我认为应该给Kimi增添一个智能推荐功能。该功能将根据用户的使用历史、偏好设置和实时需求，自动推荐相关的信息、服务和个性化建议，帮助用户更加高效地获取所需信息和完成任务。

NABCD	详情
N（Need，需求）	1. 用户在日常使用中可能面临信息过载的问题，需要一个能够帮助他们筛选和定位到最相关、最有用的信息的工具。 2.不同用户有不同的兴趣和需求，他们需要一个能够理解这些差异并提供定制化推荐的系统。
A（Approach，做法）	1.收集和分析用户的使用数据，包括查询历史、使用频率和用户反馈。 2.利用机器学习算法对用户数据进行分析，建立用户偏好模型。 3.结合用户实时输入和上下文信息，动态生成推荐列表。 4.设计一个直观的用户界面，展示推荐内容，并允许用户调整推荐偏好。 5.将推荐功能集成到Kimi的现有服务中，并确保无缝交互。
B（Benfit，好处）	1.用户可以更快地获取到他们感兴趣的信息和服务，提高使用效率。 2.个性化推荐可以帮助用户发现新的相关内容，增加用户粘性。 3.通过智能推荐，Kimi能够更好地满足用户的个性化需求，提升用户满意度。
C（Competitors，竞争）	1. 其他AI助手可能也提供推荐功能，但Kimi的推荐系统将更加注重用户隐私和数据安全。 2. Kimi的多语言能力和对本地化市场的深入理解将使其在特定区域市场具有竞争优势。
D（Delivery，推广）	1.通过Kimi的官方网站和社交媒体渠道进行功能宣传。 2.与合作伙伴和第三方平台合作，扩大推广范围。 3.提供免费试用期和优惠策略，吸引新用户体验推荐功能。

2. 配置角色

人员配置： 一个数据分析师，一个机器学习工程师，一个前端开发人员，一个后端开发人员，一个UI/UX设计师，一个测试人员。

理由： 推荐功能需要数据分析来理解用户行为，机器学习来构建推荐模型，前后端开发来实现功能，UI/UX设计师来优化用户体验，测试人员来确保功能质量。

3. 十六周规划

周数	任务内容
第1-2周	进行市场调研和用户需求分析，设计功能原型。
第3-4周	收集和分析用户数据，建立初步的用户偏好模型。
第5-7周	开发推荐算法，设计用户界面。
第8-10周	集成推荐功能到Kimi平台，进行初步测试。
第11-12周	根据测试反馈优化推荐算法和用户界面。
第13周	进行全面的系统测试和用户测试。
第14周	修复测试中发现的问题。
第15周	进行小范围内测，收集用户反馈。
第16周	正式上线推荐功能，并制定后续优化计划。