软件工程实践——软件评测作业

222200416林予萱 2024-10-15 00:00:36

这个作业属于哪个课程	https://bbs.csdn.net/forums/2401_CS_SE_FZU?typeId=7771625
这个作业要求在哪里	https://bbs.csdn.net/topics/619351741
这个作业的目标	对不同产品的调研分析以及规划与建议
其他参考文献	《构建之法》

第一部分调研与测评
一、文心一言
1.1 体验
1.1.1 基本功能介绍和使用
1.1.2 优缺点分析
1.1.3 改进意见
1.1.4 用户采访
1.2 BUG
1.3 结论
二、kimi
2.1 体验
2.1.1 基本功能介绍和使用
2.1.2 优缺点分析
2.1.3 改进意见
2.1.4 用户采访
2.2 BUG
2.3 结论
第二部分分析
一、开发时间估计
二、同类产品对比排名
三、软件工程方面的建议
四、BUG存在的原因分析
第三部分建议和规划
一、市场概况
二、市场现状
三、市场与产品生态
四、产品规划

第一部分调研与测评

一、文心一言

1.1 体验

1.1.1 基本功能介绍和使用

历史记录

登录后用户的对话记录将会被保存在云端，可以随时查看

图片识别

支持上传一张最大为10MB的图片并根据用户指令识别图片内容

文档处理

支持多个文档的处理，可根据用户要求解释总结文档内容

代码编写

可根据用户需求编写相应代码并进行代码说明

信息搜索

可联网搜索相关信息，实时更新信息

图片生成

可根据用户的描述生成图片

语言润色

可润色修改用户的描述

智能交互

可根据上下文满足用户的需求

一言百宝箱

提供不同场景的应用模板，便利用户的使用

1.1.2 优缺点分析

优点：

功能丰富：提供了广泛的模板和插件工具，可以极大地提高用户的工作效率同时满足不同用户的需求。
实时反馈和适应性强：文心一言能够即时反馈用户输入，并根据对话上下文进行适应，提供更加贴切的回答和建议。
持续学习和更新：能够联网获取海量数据，持续通过新的数据学习，保持其在语言理解和生成方面的领先地位。

缺点：

界面布局：界面广告过多，功能繁多，新用户需要一段时间来熟悉所有的功能和工具。
准确度低：在回答部分复杂问题时无法给出准确回答，能力有待提升。
性能问题：在处理大量数据或复杂查询时，性能可能会下降，表现为响应延迟或偶尔的服务中断，尤其在网络连接不稳定时更为明显。

1.1.3 改进意见

优化布局

引入新手引导或教程，帮助新用户快速熟悉功能和工具。
提供自定义布局的选项，让用户根据自己的使用习惯调整界面。

算法优化

引入更先进的自然语言处理技术和机器学习算法，提高回答复杂问题的能力。
定期对算法进行更新和优化，以适应不断变化的用户需求。
建立用户反馈机制，收集用户对回答的满意度和错误报告，用于改进算法和人工审核流程。

性能优化

引入更高效的数据处理算法和数据库技术，提高处理大量数据和复杂查询的速度。
对系统进行定期的性能测试和调优，确保系统在高负载下仍能稳定运行。

1.1.4 用户采访

采访对象为软件工程专业的同学

1.2 BUG

量化指标

严重程度	说明
★	不仔细观察，无法发现，基本不影响使用：如轻微的排版问题或响应时间略长，用户可能不会注意到这些小问题，且不会影响到与大模型的基本互动功能。
★★	轻度系统故障，会影响使用，但是可以通过其他方式继续对话：如特定的指令无法正确触发预测模型，用户可能需要稍微改变问句或使用其他相关指令来获得所需的信息。
★★★	中度系统故障，导致该功能完全无法使用：如大模型无法根据用户的输入生成任何响应，导致对话功能暂时中断，这直接妨碍了用户与模型的互动。
★★★★	严重系统故障，容易导致错误信息的产生或数据处理错误：如生成的内容存在逻辑混乱或错误信息，可能误导用户或造成信息的误解，这类问题可能涉及到模型的核心算法或数据处理。
★★★★★	致命性系统故障，可能会造成整个系统瘫痪：如后端服务器发生故障，导致网站完全无法响应任何指令或请求，这种情况会使得整个产品无法进行任何形式的对话或信息交换。

测试环境：

操作系统：Windows 11 家庭中文版
浏览器：联想浏览器

图片生成错误

可复现性：经常发生，在需要联系上下文绘图的过程中无法准确绘制。
复现步骤：用户输入相关绘图指令
具体描述：进行绘画创作时，模型无法有效地理解并维持前后文的一致性，导致绘制的画作与既定的上下文或故事线索不一致。用户在期望连续的绘图场景时，模型无法根据前一幅图的内容和风格来绘制出合适的后续画面。
严重性：★★★
改进意见：不断优化AI绘图的算法模型，增强其理解能力和绘图能力，增强模型在处理连续场景时的上下文理解能力。

无法准确输出指令

可复现性：经常发生
复现步骤：用户给出字数要求相关的指令，经常得到不符合要求的错误回答。
具体描述：在给出具体的字数要求时，AI无法准确给出符合要求的回答。在反复强调字数要求之后，仍会得到与上下文不符的无关回答或是不符合字数要求的错误答案。
严重性：★★★
改进意见：对模型的输入解析算法进行优化，确保能够准确理解并执行关于字数限制的指令。

1.3 结论

c）一般

类别	描述	评分 (0-10)
核心功能	以通过输入指令和文心一言进行对话互动、提出问题或要求	8
细节	界面友好性	6
用户体验	当用户完成功能时，不干扰用户 (例如: 是否不断弹出不相关广告)	7
辅助功能	自定义背景，字体大小的选择等	4
差异化功能	这个软件独特的功能。它对用户的吸引力有多大?	6
软件的效能	占用内存, 启动速度, 内存泄漏情况	5
软件适应性	在联网/断网, 大小屏幕, 没有鼠标的情况下都可以顺畅操作。和不同平台的软件能流畅协作	7
成长性	记住用户的选择, 适应用户的特点，用户越用越方便	7
用户有控制权	系统状态有反馈，等待时间要合适。关键操作有确认提示，有明确的错误信息。让用户方便地从错误中恢复工作, 快捷操作键可调整。	7

二、kimi

2.1 体验

2.1.1 基本功能介绍和使用

PPT生成

可根据用户需求自动生成PPT内容并制作

智能插件
根据不同场景提供多种服务模板
信息检索

能够联网搜索信息

代码编写

能够根据用户需求给出代码并解释说明

文档分析

可以处理多个文档的信息进行总结

图片识别

仅能识别图片中的文字，对于图片的具体解释有困难

2.1.2 优缺点分析

优点：
界面友好：Kimi的用户界面清晰、简洁，易于新用户上手和使用。
实时反馈：Kimi能够即时响应用户的输入，并提供相关信息和服务，提高了交互效率。
强大的文档和网页处理能力：具备阅读和理解多种文件格式的能力。
搜索能力：在必要时利用搜索功能扩展了信息获取的范围。
PPT生成：根据用户需求，智能生成完整的PPT文档。

缺点：
图片识别困难：不能解释图片的具体内容，只能提取图片中的文字。
未登录时无法使用模型：Kimi要求用户登录才能访问其全部功能，这一限制会在一定程度上影响用户体验。新用户或是仅仅想尝试服务的人会由于需要创建账户而感到犹豫。

2.1.3 改进意见

优化性能：通过算法优化和硬件升级来提高Kimi的数据处理速度，尤其是针对大型文件和复杂查询。可以利用更先进的数据结构和索引技术来改善搜索效率。同时，持续监测性能指标，并在发现瓶颈时及时进行调整，确保用户体验的流畅性。
优化图片识别模型：更新图片识别模型，增加对图片的理解和描述功能。

2.1.4 用户采访

2.2 BUG

量化指标

严重程度	说明
★	不仔细观察，无法发现，基本不影响使用：如轻微的排版问题或响应时间略长，用户可能不会注意到这些小问题，且不会影响到与大模型的基本互动功能。
★★	轻度系统故障，会影响使用，但是可以通过其他方式继续对话：如特定的指令无法正确触发预测模型，用户可能需要稍微改变问句或使用其他相关指令来获得所需的信息。
★★★	中度系统故障，导致该功能完全无法使用：如大模型无法根据用户的输入生成任何响应，导致对话功能暂时中断，这直接妨碍了用户与模型的互动。
★★★★	严重系统故障，容易导致错误信息的产生或数据处理错误：如生成的内容存在逻辑混乱或错误信息，可能误导用户或造成信息的误解，这类问题可能涉及到模型的核心算法或数据处理。
★★★★★	致命性系统故障，可能会造成整个系统瘫痪：如后端服务器发生故障，导致网站完全无法响应任何指令或请求，这种情况会使得整个产品无法进行任何形式的对话或信息交换。

测试环境：

操作系统：Windows 11 家庭中文版
浏览器：联想浏览器

图片识别错误

可复现性：发送图片时经常发生。
复现步骤：发送图片并要求给出对图片的解释总结。
具体说明：发送图片并要求给出对图片的解释总结，常常无法得到正确回答，无法准确识别出图片内容，仅能提取文字，但提取文字也时常存在错误，生成混乱的信息。
严重性：★★★★
改进建议：优化图片识别的算法模型，增加对图片的理解和总结能力。

2.3 结论

c）一般

类别	描述	评分 (0-10)
核心功能	以通过输入指令和文心一言进行对话互动、提出问题或要求	8
细节	界面友好性	8
用户体验	当用户完成功能时，不干扰用户 (例如: 是否不断弹出不相关广告)	7
辅助功能	自定义背景，字体大小的选择等	4
差异化功能	这个软件独特的功能。它对用户的吸引力有多大?	6
软件的效能	占用内存, 启动速度, 内存泄漏情况	5
软件适应性	在联网/断网, 大小屏幕, 没有鼠标的情况下都可以顺畅操作。和不同平台的软件能流畅协作	7
成长性	记住用户的选择, 适应用户的特点，用户越用越方便	7
用户有控制权	系统状态有反馈，等待时间要合适。关键操作有确认提示，有明确的错误信息。让用户方便地从错误中恢复工作, 快捷操作键可调整。	7

第二部分分析

一、开发时间估计

工作环节	时间估计
需求分析与设计	30天
前端开发	90天
后端开发	120天
大模型训练与集成	180天
数据准备与处理	30天
测试与优化	30天
用户文档与支持	15天
项目管理与协调	15天
部署与上线	30天
合计	540天

二、同类产品对比排名

对比项目	通义千问	ChatGPT	文心一言	Kimi
功能丰富性	85	90	80	88
准确性	88	92	85	90
用户界面	82	87	83	85
响应速度	80	85	79	86
可靠性	87	90	84	89
总分	85.3	89.1	81.3	87.8

三、软件工程方面的建议

文心一言

继续优化语言处理模型，减少响应时间，尤其是在自然语言理解和生成响应方面。通过使用新的机器学习技术来增强模型的准确性。
在长对话中，保持对上下文的理解与记忆，让它更好地理解用户的需求，提高对话的连贯性。
优化界面布局，通过清晰的导航、简化的设计减少用户的认知负担。可以引入渐进式展示功能，让新用户在初次使用时只看到核心功能，随着熟悉程度的提高，逐步展示高级功能和插件。

kimi
1.建立持续的用户反馈机制，收集用户在使用过程中遇到的问题。采用敏捷开发或持续集成的开发方法，频繁地将用户反馈融入到产品迭代中，确保新功能和修复与用户需求紧密匹配。

四、BUG存在的原因分析

文心一言字数输出错误原因：
生成模型并未被直接设计为精确控制输出字数，它生成的内容是基于上下文和预测，而不是逐字跟踪输出。因此，在复杂上下文中，即使明确指定字数，模型的生成可能依赖上下文优先级，而非字数。

文心一言绘图出错原因：AI绘画工具没有被训练来理解连续场景或序列图像中的上下文关系。多数绘画AI是基于单一图像生成训练的，无法对故事线或连续性的内容进行理解。此外，绘图模型在理解复杂命令或捕捉到细微上下文线索方面存在问题。

kimi识图错误可能原因：
图像识别模型训练数据不足，如果使用的图像识别模型训练时的数据集不够全面，或缺乏足够的样本，模型可能难以准确识别出图片中的物体、场景或动作。图像识别模型无法结合图片上下文或与用户输入相关的信息来准确理解图片内容，导致给出的解释与实际内容偏离。

第三部分建议和规划

一、市场概况

市场规模：人工智能市场正在快速增长，特别是在自然语言处理（NLP）领域。企业对于能够自动化客户服务、增强用户体验和数据分析的工具的需求不断上升。根据国际数据公司IDC预测，全球AI计算市场规模将从2022年的195.0亿美元增长到2026年的346.6亿美元。其中，生成式AI计算市场规模将从2022年的8.2亿美元增长到2026年的109.9亿美元。
直接用户：直接使用生成式AI的企业主要包括科技公司、金融机构、媒体与广告公司、教育机构等。在个人用户层面，内容创作者、开发者和一般用户也在逐步采用这些技术。尤其在文本生成、图像创作和编程辅助方面，个人用户的数量也在上升。
潜在用户：随着技术的成熟和成本的降低，中小企业以及新兴市场的企业有潜力成为新的用户基础。他们可能正在寻求创新的方法来提高效率和竞争力。

二、市场现状

产品	定位	优势	劣势
ChatGPT	ChatGPT是OpenAI推出的全球领先的大语言模型，面向广泛的个人用户、企业和开发者。它主要用于文本生成、对话助手、编程辅助、教育等多个场景，并支持多语言处理。	通用性: ChatGPT具有极强的通用性，能在对话生成、创意写作、编程代码生成等多种场景中表现出色。全球影响力: 由于OpenAI在全球范围内的领先地位，ChatGPT拥有大量用户基础，支持多语言功能，能适应国际市场. 生态系统丰富: ChatGPT通过与微软等合作伙伴的深度集成，已经渗透到办公自动化、代码编写、知识工作等广泛领域，产品功能多样且应用广泛。	隐私和数据安全: 由于ChatGPT在全球广泛使用，用户和企业对其数据隐私和安全问题保持警惕，特别是企业在使用其服务时有时对数据处理有疑虑。
通义千问	通义千问是阿里巴巴推出的生成式大语言模型，主要面向企业和开发者，提供智能客服、办公自动化、企业应用等AI解决方案。它不仅是生成式AI，同时深度整合了阿里的云服务，提供从云计算到AI的一体化解决方案。	云服务集成: 通义千问依托阿里云的基础设施和计算能力，在企业级应用上具备显著的云端整合优势。行业解决方案: 阿里巴巴凭借其在电商、物流、金融、零售等领域的经验，推出了多个针对性行业应用，如电商智能客服、智能推荐系统等。	产品定位偏向B端: 通义千问更偏向企业用户，个人用户使用门槛较高，功能也不如一些面向个人市场的产品（如ChatGPT）直观易用。
文心一言	文心一言是百度推出的生成式AI大模型，主打多模态生成、自然语言处理和智能搜索应用，面向企业和个人提供各类AI服务，如对话生成、文本创作、智能问答等。	多模态能力: 支持文本、图像、语音等多模态的生成，覆盖领域广泛。企业服务: 强调与百度现有的生态系统（如搜索、云服务、AI平台）的深度整合，面向B端客户（如金融、制造、医疗等领域）提供定制化服务。	国际竞争力较弱: 与全球领先的生成式AI产品（如OpenAI GPT系列）相比，技术创新和模型参数规模上仍有差距。技术复杂性: 对于中小企业或普通用户来说，使用较复杂，需要深入定制开发能力。
Kimi	Kimi是中国生成式AI市场的新兴产品，专注于智能办公和个人助理类服务，帮助用户在日常任务（如生成文档、分析数据、PPT生成等）中提升效率。	操作简洁: Kimi注重用户体验，提供友好的用户界面和流畅的操作流程，帮助用户轻松生成和处理文档、表格、演示文稿等。文档处理能力: 在文件处理、文本生成方面具备一定优势，适合日常办公场景。	图片处理能力有限: 在处理图片或复杂视觉内容时，识别和生成能力有待提升，特别是在图片理解和总结上表现较弱。多样性和扩展性不足: 目前主要聚焦于办公场景，缺乏更广泛的行业应用场景。
讯飞星火	讯飞星火是科大讯飞推出的大模型平台，主打智能语音识别、教育、办公等领域，定位于满足多个行业的智能需求，尤其在教育行业拥有较强的影响力。	语音识别和语音生成: 科大讯飞在语音识别和语音合成领域长期深耕，拥有技术领先的优势，广泛应用于教育、金融、客服等场景。教育行业专注: 针对教育场景，提供从智能讲解到批改作业等一系列功能，帮助教师和学生提高教学效率.	多模态发展缓慢: 在多模态生成（如图像、视频等）领域的能力仍有待加强。

竞争态势

技术实力的竞争: 各家公司在生成式AI领域的技术积累和创新能力是竞争的核心，尤其是大语言模型的参数规模、训练数据和多模态能力。

市场占有率: ChatGPT由于其国际化影响力和广泛用户基础，已在生成式AI市场中占据领先地位。通义千问和文心一言在中国市场竞争激烈，特别是在B端企业服务和电商领域。

行业应用的深度: 讯飞星火和通义千问在教育、客服等特定行业应用上展现出更深的专业性，针对性解决行业痛点。相对而言，Kimi和ChatGPT则更侧重于通用性和多场景的适应性。

用户体验与生态系统: 产品的用户友好性、整合的生态系统（如与其他软件的兼容性）也是竞争的重要方面。Kimi在轻量化和友好性方面有一定优势，而ChatGPT则通过与微软等合作伙伴的深度集成，建立了丰富的生态系统。

市场阶段

AI大模型领域仍然可以视为处于风口阶段。新技术的引入和对多模态以及特定领域的深化应用显示出这一领域的持续成长和创新潜力。同时通过比较这些现有的AI模型，我们可以看到AI大模型市场在不断扩展其边界，同时也在增强其在特定领域和语言处理上的能力。这些模型的发展和竞争将有助于推动整个行业的技术进步。

三、市场与产品生态

产品	Kimi	文心一言
核心用户群特征
学历	本科及以上	本科及以上
年龄	18-35岁	18-45岁
专业	文科、商科、计算机科学等	计算机科学、人工智能、商科、教育等
爱好	办公自动化、个人效率工具、内容创作	科技创新、AI技术、数据分析、内容生成
收入	中等收入（年收入3万-10万人民币）	中等到高收入（年收入5万-15万人民币）
表面需求	自动化办公、内容生成、智能助手	智能对话、内容生成、数据分析、文档处理
潜在需求	提升工作效率、个性化学习、职业发展	提升决策能力、行业深度应用、个性化服务

用户群体关系
相互关系: Kimi的用户多为个人用户和小型企业，侧重于日常办公和个人效率；文心一言的用户多为教育和企业用户，关注行业应用。
生态构建可能性: 两者的用户群体可以结合，例如，文心一言的教育用户可以利用Kimi的工具提高个人工作效率，共同形成个性化学习与办公生态。

产品	子产品	相关产品	生态构建可能性
Kimi	文档生成助手、日程管理工具	办公软件、任务管理工具	可以与其他办公软件集成，提升用户体验和效率
文心一言	智能客服系统、多模态处理工具	数据分析工具、在线教育平台	可以与教育平台整合，提供个性化学习体验和解决方案

四、产品规划

新功能：智能个性化推荐系统
功能描述: 该功能基于用户的历史行为、偏好和上下文信息，为用户提供个性化的内容和功能推荐，包括文章、工具、学习资源等，以提升用户体验和满意度。
NABCD分析
Need (需求): 用户需要一种更个性化的体验，能够在众多功能和内容中快速找到符合自己需求的推荐，避免信息过载。
Approach (方法): 利用机器学习和数据分析技术，构建用户画像，分析用户行为，实时推荐最相关的内容和功能。
Benefits (好处): 提升用户的使用体验，使用户能够更高效地找到所需资源，提高用户的留存率和活跃度。
Competition (竞争): 市场上已有部分产品提供推荐功能，但智能化程度和个性化推荐算法尚有提升空间，此功能将形成竞争优势。
Development (开发): 项目将采用敏捷开发，快速迭代，通过用户反馈不断优化推荐算法。
团队角色配置

产品经理 (1人): 负责需求分析、功能设计、项目进度管理和与团队的沟通。
前端开发工程师 (2人): 负责用户界面设计、推荐模块的集成和交互逻辑实现。
后端开发工程师 (2人): 负责数据处理、用户画像建立、推荐算法实现和API设计。
数据分析师 (1人): 负责用户行为数据分析、推荐算法的优化和效果评估。
测试工程师 (1人): 负责功能测试、性能测试和用户体验测试。
UI/UX设计师 (1人): 负责产品的界面设计和用户体验优化。

16周详细计划

周数	任务内容	参与角色
1	项目启动，需求收集与分析，确定个性化推荐的功能规格	产品经理、UI/UX设计师
2	界面原型设计与初步用户反馈收集	UI/UX设计师、产品经理
3	完成原型设计，开始前端架构设计与开发	前端开发工程师、产品经理
4	完成前端基础框架搭建，后端架构设计，确定数据存储方案	前端开发工程师、后端开发工程师
5	开始前端功能开发，后端API设计与用户数据结构设计	前端开发工程师、后端开发工程师
6	完成前端与后端的接口开发，开始数据收集与用户画像建立	前端开发工程师、后端开发工程师
7	开发推荐算法原型，进行初步的内部测试	数据分析师、后端开发工程师
8	完成推荐算法开发，进行第一轮功能测试，收集反馈	测试工程师、前端/后端开发工程师
9	优化推荐算法，修复bug，继续前端与后端整合	前端/后端开发工程师、测试工程师
10	开始用户体验测试，收集用户反馈并进行分析	测试工程师、产品经理
11	根据用户反馈进行产品改进，优化UI与功能	前端开发工程师、UI/UX设计师
12	完成所有功能的开发与测试，准备进行压力测试	测试工程师、后端开发工程师
13	进行压力测试与性能优化，确保推荐系统的稳定性	测试工程师、后端开发工程师
14	收尾工作，撰写用户手册与技术文档，准备上线	产品经理、测试工程师
15	上线前的最终测试与审查，确认所有问题解决	全体成员
16	正式上线，监测用户反馈，准备后续迭代计划	全体成员