这个作业属于哪个课程 | 链接 |
---|
这个作业要求在哪里 | 链接 |
这个作业的目标 | 调研、评测产品 |
其他参考文献 | 无 |
目录
- 一、调研,评测
- 文心一言
- 使用体验
- 优缺点分析
- 改进建议
- 采访
- BUG描述
- Bug发生时的测试环境
- Bug的可复现性及具体复现步骤
- bug分析
- 结论
- KIMI
- 使用体验
- 优缺点分析
- 改进建议
- 采访
- BUG描述
- Bug发生时的测试环境
- Bug的可复现性及具体复现步骤
- bug分析
- 结论
- 二、分析
- 开发时间估计
- 同类产品对比排名
- 软件工程方面的建议:
- Bug存在原因分析
- 三、建议和规划
- 市场概况
- 市场现状
- 市场产品:
- 定位、优势、劣势分析
- 竞争关系:
- 阶段
- 市场与产品生态
- 核心用户
- 群体关系,特定用户生态
- 产品规划
- 新功能:
- NABCD分析
- 16周规划
一、调研,评测
文心一言
使用体验
介绍和使用软件:
文心一言是百度开发的聊天机器人,并且有百宝箱功能,能够指定不同的场景。具备广泛的知识问答能力,可以覆盖学科专业知识、百科知识及生活常识等;同时擅长文本创作,如小说、诗歌、作文等。同时能够进行图片生成。
优缺点分析
优点:
- 能过处理图像、音频等信息。
- 界面简洁,能够快速上手。
- 支持多种语言
- 能够个性化定制,让文心一言了解自己的基本信息、性格特点、个人经历等
缺点:
- 主界面正中央是广告,影响体验
- 许多功能需要付费
- 容易忽略前文
改进建议
- 优化广告位置
- 增加付费功能的免费体验次数
- 进一步提高生成文本的准确性和自然性
采访
采访对象:是计算机科学与技术专业的大三学生
BUG描述
严重程度 | |
---|
★ | 建议型问题,对系统功能几乎没有什么影响,不影响安全性,也不影响用户使用 |
★★ | 界面问题,对系统功能有较小的影响,不影响安全性,稍微影响用户使用 |
★★★ | 一般错误,对系统功能有一般程度的影响,不影响安全性,比较影响用户使用 |
★★★★ | 严重错误,对系统功能有很大程度的影响,影响安全性,非常影响用户使用 |
★★★★★ | 致命错误,对系统功能有严重程度的影响,严重影响安全,极其影响用户使用 |
Bug发生时的测试环境
- Ubuntu24.04
- Chrom 129.0.6668.70(正式版本) (64 位)
- 询问组合数时会回答错误,提示后依旧错误
Bug的可复现性及具体复现步骤
多次询问组合数C(32,4)结果(正确结果为35960),均回答错误
bug分析
成因:
一开始可能在计算32!的时候中间结果过大而溢出,
提示后依旧出错可能是因为模型本身的数学推理能力不足。
严重性:
3星
组合数计算错误虽然不是系统的核心功能,但在某些应用场景中,错误的计算结果可能导致严重后果
结论
c)一般
文心一言使用起来总体感受一般,相较于其他模型,没有突出的优势
类别 | 分数(满分10分,良好6分,及格4分,聊胜于无1分,很差3分) |
---|
核心功能 | 6 |
细节 | 4 |
用户体验 | 4 |
辅助功能 | 6 |
差异化功能 | 4 |
软件的效能 | 6 |
软件的适应性 | 10 |
成长性 | 8 |
用户有控制权 | 8 |
KIMI
使用体验
介绍和使用软件:
首个支持输入20万汉字的智能助手产品。是全球市场上能够产品化使用的大模型服务中所能支持的最长上下文输入,主要功能是长文总结和生成、联网搜索、数据处理、编写代码、用户交互、翻译。
优缺点分析
优点:
- 主界面简单,能够快速上手
- 支持长文本输入
- 能够读取文档
- 提供kimi+扩展,有多种使用场景
缺点:
- 只能上传带文字的图片
- 不支持图片识别
- 与 GPT 等通用语言模型相比,在语言理解和生成方面存在差距。
改进建议
- 增加图片识别功能
- 通过改进深度学习算法和模型结构,提升模型对语义和上下文的理解能力,减少生成文本中的理解偏差和不准确情况。
采访
BUG描述
严重程度 | |
---|
★ | 建议型问题,对系统功能几乎没有什么影响,不影响安全性,也不影响用户使用 |
★★ | 界面问题,对系统功能有较小的影响,不影响安全性,稍微影响用户使用 |
★★★ | 一般错误,对系统功能有一般程度的影响,不影响安全性,比较影响用户使用 |
★★★★ | 严重错误,对系统功能有很大程度的影响,影响安全性,非常影响用户使用 |
★★★★★ | 致命错误,对系统功能有严重程度的影响,严重影响安全,极其影响用户使用 |
Bug发生时的测试环境
- Ubuntu24.04
- Chrom 129.0.6668.70(正式版本) (64 位)
- 询问组合数时会回答错误,提示后依旧错误
Bug的可复现性及具体复现步骤
在kimi的Kimi诺奖名人堂中,上传非人像的图片,依旧能够生成相关信息
bug分析
成因:
kimi对图片的识别能力不强,将图片中的某一部分识别为人像
严重性:
3星
这个属于kimi+功能,虽然不知道kimi识别出来的人像位于哪一个位置,但是依旧能生成出相关图片。
结论
d)好,不错
类别 | 分数(满分10分,良好6分,及格4分,聊胜于无1分,很差3分) |
---|
核心功能 | 8 |
细节 | 6 |
用户体验 | 6 |
辅助功能 | 7 |
差异化功能 | 4 |
软件的效能 | 6 |
软件的适应性 | 10 |
成长性 | 8 |
用户有控制权 | 8 |
二、分析
开发时间估计
对于一个6人左右的团队,开发一个类似kimi和文心一言可能1年,团队成员需要学习有相关的机器学习和自然语言处理的操作,并且在收集数据和训练模型三需要花费大量时间
同类产品对比排名
在国内的主流产品中:DeepSeek>kimi>通义千问>文心一言>讯飞星火
软件工程方面的建议:
- 保持对上下文的理解和记忆,让程序能够更好地回应用户的问题或请求,提高对话的连贯性和智能性。
- 加强测试,增加测试用例
Bug存在原因分析
文心一言:对于前文发现的bug,可能是因为具体的设计质量不高,同时测试了deepseek和gpt4o-mini,均未出现相关问题。
kimi:这个功能可能是moonshot用来收集数据,训练kimi识别图片的功能,所以存在识别人像的问题
三、建议和规划
市场概况
IDC数据显示,2022年全球人工智能(AI)IT总投资规模为1,324.9亿美元,并有望在2027年增至5,124.2亿美元,年复合增长率(CAGR)为31.1%。聚焦生成式AI(Generative AI),IDC调查发现,到 2027 年45% 的企业将掌握并使用生成式 AI 来共同开发数字产品和服务,从而使收入增长比竞争对手翻一番。IDC预测,全球生成式AI市场年复合增长率或达85.7%,到2027年全球生成式AI市场规模将接近1500亿美元。
目前AI市场规模巨大,在直接用户数量
- 教育行业在逐步采用大语言模型来提供个性化学习体验、自动化评估和辅导等服务。
- 内容创作者、营销人员和媒体公司等都在寻找高效的工具来生成文本、撰写文章和进行市场分析。
- 越来越多的开发者希望将大语言模型集成到他们的应用程序中,以增强功能和用户体验。这为开发者工具市场提供了新的机会。
潜在用户上 :随着AI技术的普及,越来越多的人可能会通过各种应用程序或服务间接使用这些模型,所有使用互联网的人都是潜在用户
市场现状
市场产品:
目前国内外有许多同类型的产品:deepseek、gpt、Claude、gemini、通义千问、讯飞星火、文心一言、智谱清言。
定位、优势、劣势分析
以下选取部分产品进行优缺点分析:
1. GPT
- 优势:
- 强大的预训练能力:GPT使用了海量的语料数据进行预训练,能够学习到语言的各种模式和规律,在各种自然语言处理任务中表现出色。
- 通用性强: 可以应用于多种语言任务,如文本生成、翻译、摘要、对话等。
- 开源社区活跃: 拥有庞大的开发者社区,不断推动技术进步和应用创新。
- 劣势:
- 可控性不足: 生成的内容可能存在偏差、错误或不准确的情况。
- 训练和部署成本高: 需要强大的算力支持,训练和部署成本较高。
- 数据隐私问题: 需要处理海量数据,存在数据泄露和隐私保护的风险。
- 侧重点:
- 通用语言模型: 旨在理解和生成自然语言,应用于各种文本相关任务。
**2. Kimi **
- 优势:
- 垂直领域应用丰富: 在教育、医疗、客服等领域有成熟的解决方案。
- 本地化服务能力强: 提供本地化的技术支持和服务。
- 超长上下文学习:能够处理高达200万字的无损上下文输入,远超其他模型,使得在处理长文本和复杂对话时能保持连贯性和一致性。
- 劣势:
- 语言模型能力相对较弱: 与 GPT 等通用语言模型相比,在语言理解和生成方面存在差距。
- 开放性不足: 平台开放程度有限,开发者生态相对薄弱。
- 侧重点:
- 侧重于处理长文本和复杂对话,以及跨模态的理解和交互。
3. 通义千问
- 优势:
- 强大的数据处理能力:拥有超过10万亿的参数量,提供了强大的数据处理能力和广泛的知识覆盖。
- 普适性和灵活性:能够理解和回答跨领域的问题,展现出高度的普适性和灵活性。
- 劣势:
- 通用语言模型能力有限: 主要面向特定领域,在通用语言理解和生成方面存在局限性。
- 复杂上下文理解有待提高:在理解复杂上下文和语境方面仍有待提高。
- 侧重点:
- 侧重于跨领域问题的理解和回答,以及文本创作、观点表达等多功能性。
4. 文心一言
- 优势:
- 知识图谱构建完善: 拥有丰富的知识图谱资源,能够提供更加精准的知识问答服务。
- 应用场景丰富: 在搜索、信息流、智能客服等领域有广泛应用。
- 劣势:
- 侧重点:
- 中文知识问答: 专注于中文知识问答、信息检索等应用。
5. DeepSeek
- 优势:
- 专注于人工智能基础技术研究: 在自然语言处理、计算机视觉等领域有深厚的技术积累。
- 技术实力雄厚: 拥有一支高水平的研发团队,持续投入技术研发。
- 开源与商用授权:提供了开源商用授权政策,为开发者和研究者提供技术支持。
- 数据增强与架构创新:通过多来源多模态数据增强和使用双视觉编码器结构,保持语言能力不退化,同时有效处理低级视觉信号和高级语义。
- 劣势:
- 商业化应用场景尚不明确: 目前主要专注于技术研发,尚未形成成熟的商业化应用场景。
- 品牌知名度相对较低: 与一些知名 AI 公司相比,品牌知名度还有待提升。
- 侧重点:
- 侧重于多模态处理、高性能计算和开源授权等方面,尤其在处理多种类型数据和提供技术支持方面具有优势。
竞争关系:
GPT 与 文心一言:
- 竞争点:两者都专注于自然语言处理和生成,尤其是在文本生成、对话系统等领域。GPT 以其强大的预训练能力和通用性著称,而文心一言则在中文知识问答和信息检索方面有优势。
- 态势:GPT 在全球范围内具有较高的知名度和广泛的应用,而文心一言则在中文市场有较强的竞争力。
Kimi 与 通义千问:
- 竞争点:两者都涉及语音识别和文本处理,但侧重点不同。通义千问更侧重于跨领域问题的理解和回答。
- 态势:Kimi 在垂直领域有成熟的解决方案,而通义千问则试图通过其强大的数据处理能力覆盖更多领域。
阶段
这个领域正处于成长阶段,
目前虽然有大量的相关产品出现,但是各有不同的侧重点,且在各自的领域还有大量的发展空间
市场与产品生态
核心用户
- 学生:需要帮助完成作业、理解概念或进行研究的学生。
- 专业人士:在工作中需要获取信息、撰写报告或进行数据分析的职场人士。
- 开发者:寻求编程帮助、技术支持或代码示例的开发者。
- 创作者:需要灵感、写作建议或内容创作支持的作家和艺术家。
- 普通用户:对各种主题感兴趣,希望获取知识、解决问题或进行日常咨询的普通用户。
群体关系,特定用户生态
这些产品在用户群体上存在一定的重叠,比如都可能吸引到IT互联网和教育行业的用户,同时它们各自的特色功能也会吸引到不同的用户群体。
这些AI产品可以通过互补和集成,为用户提供更加丰富和高效的服务。例如,可以将Kimi的长文本处理能力与讯飞星火的编程能力结合起来,为开发者提供从文档理解到代码生成的一站式服务。此外,通过开放API和插件生态,这些产品可以相互集成,形成一个更加强大的AI服务网络,满足用户在不同场景下的需求。实现利用其相互作用二次构成特定用户生态。
产品规划
新功能:
基于用户行为和偏好数据,增加模型的持续学习能力,记住用户的偏好和历史对话,提供更符合用户需求的回答,增强用户的归属感。
NABCD分析
- 需求(N):用户希望系统能够理解他们的偏好和历史对话,以提供个性化的响应。
- 方法(A):通过用户行为追踪、历史对话记录和反馈收集用户偏好数据。应用先进的机器学习算法(如深度学习、强化学习等)来分析和理解用户数据,持续优化模型。
- 利益(B):个性化的互动能够让用户感受到被重视,从而提升他们的归属感和忠诚度。用户更有可能频繁使用一个能够理解和满足他们需求的系统,从而提高留存率。
- 竞争(C):竞品尚未完全覆盖这些功能,存在差异化竞争优势
- 交付(D):在四个月的时间内,通过6人团队完成
16周规划
第1-2周:需求分析与规划
- 深入研究用户需求,收集用户反馈。
- 确定用户偏好数据的关键指标。
- 制定详细的项目计划和时间表。
第3-4周:技术选型与架构设计
- 评估和选择适合的机器学习算法(如深度学习、强化学习)。
- 设计系统架构,包括数据收集、存储、处理和模型训练的流程。
第5-6周:数据收集与清洗
- 开发用户行为追踪模块,收集用户互动数据。
- 清洗和预处理历史对话记录,确保数据质量。
第7-8周:模型开发与初步训练
- 开发初步的机器学习模型,使用收集的数据进行训练。
- 进行初步的模型评估,调整参数和算法。
第9-10周:模型优化与功能实现
- 根据评估结果优化模型,提升准确性和响应速度。
- 开发个性化响应功能,整合到现有系统中。
第11-12周:用户测试与反馈收集
- 进行用户测试,收集用户对个性化功能的反馈。
- 分析反馈,识别问题和改进点。
第13-14周:功能迭代与完善
- 根据用户反馈进行功能迭代,修复问题并优化体验。
- 完善用户偏好数据的存储与更新机制。
第15周:最终测试与文档编写
- 进行全面的系统测试,确保功能稳定性和准确性。
- 编写用户手册和技术文档,准备上线材料。
第16周:上线与后续支持
- 正式上线新功能,监测系统运行情况。
- 收集上线后的用户反馈,为后续迭代做准备。