122
社区成员
发帖
与我相关
我的任务
分享| 这个作业属于哪个课程 | 2302软件工程 |
|---|---|
| 这个作业要求在哪里 | 软件工程实践——软件评测作业 |
| 这个作业的目标 | 测评软件 |
| 其他参考文献 | 《构建之法》 |
文心一言是百度研发的 人工智能大语言模型产品,能够通过上一句话,预测生成下一段话。 任何人都可以通过输入【指令】和文心一言进行对话互动、提出问题或要求。文心一言由文心大模型驱动,具备理解、生成、逻辑、记忆四大基础能力。本次测试我将测试文心大模型3.5部分。

文心一言的界面如上,最左侧为它的菜单栏,具有
对话,百宝箱,使用指南三个部分。接下来我将分为这三个部分进行说明。

在对话界面,左侧为新建对话和历史记录查看区域,右侧为对话显示区域,用户可以用它提供的一些例子直接开始体验,也可以在下面的文本输入区域自定义问题。

在界面底部的文本输入框输入需要文心一言回答的问题,点击发送按钮等待文心一言回答问题,在左侧的历史记录可以查看之前的对话,进入之前对话的界面可继续上一次的问答。还可以选择插件拓展文心一言的功能,或者上传图片和文档让文心一言理解。
优点
- 界面设计简洁美观,操作上手容易,对用户没有很高的技术要求。
- 给刚开始体验产品的用户举了一些案例,可以快速开始进行产品体验。并且这些案例基本覆盖了文心一言的所有功能,让用户对文心一言可以充分了解。
- 显示历史记录方便用户查找之前的对话记录,继续对话。
- 在回答完一次对话后,底部会出现此问题的其他衍生问题,可以方便用户,减少用户输入问题的时间。并且在回复的底部可以直接复制
文心一言的回答。
缺点
- 因为对话显示部分在同一个区域,不能同时打开两个对话进行查看,用户如果在对话过程中想查看之前的对话就会把目前的对话关闭。这对于想要查看先前的某些对话但又不想终止目前的对话的用户使用上有很大的不便。
- 如果在某个对话进行了多次的问答,对话记录就会很长,用户想寻找这个对话中之前的某一个回答就会花费很多时间。
改进建议
- 可以通过修改点击历史记录的打开逻辑,改为在新的标签页打开,或者在对话进行部分新打开一个对话框展示
- 在同一个对话进行过程中,用户每次问的问题都提取关键词在右侧显示,点击关键词跳转相应位置。

百宝箱主要是文心一言设定好的一些指令,可以点击直接使用。在百宝箱界面的上方有四个板块:精选、场景、职业、我的收藏。
在精选界面,有五个部分:今日热门、近期的热点、提效max、AI画图、最近更新。
在场景界面,文心一言根据不同的使用场景设定了一些指令模板,可直接使用。
在职业界面,文心一言根据不同的用户身份设定指令模板。
在 我的收藏界面,显示了用户收藏的百宝箱中的指令。
优点
- 丰富的指令模板增加了网站的趣味性
- 通过不同的使用场景,使用人群设置指令模板,方便了用户的使用
- 展现多种指令模板也可以方便用户学习指令的编写
缺点
场景和职业板块的tag排序是固定的,用户无法自定义排序,tag数量过多时会导致有需求的用户查找效率低下

精选版块的今日热门部分没有显示排序的逻辑,比如使用量,收藏量等,用户无法查看准确的热门内容。

- 场景和职业板块的tag增加让用户自定义tag的排序,方便用户查找
- 精选的今日热门可以增加下拉框让用户自行选择是按使用量排序还是按照收藏量排序

使用指南界面的左侧部分为使用指南的目录,右侧是每个文档的小目录,点击小目录可跳转。
优点
- 方便新用户学习文心一言的指令创建
- 指南由易到难,有很多案例,适合不同程度的用户学习
缺点
- 指南中每日一分钟学习部分在第二章比较后面部分难以发现,且长度较长。
改进建议
- 每日一分钟学习部分可以单独写出一个单元标题放在左侧菜单栏。
采访对象:软件工程专业陈同学,对类似的大语言模型产品有一定的了解,并且曾使用过同类产品。
采访对象需求;方便资料的检索,提高学习课外知识的效率。
采访对象使用栏目:文心一言的对话功能和AI作图功能
采访过程:


| 严重程度 | 说明 |
|---|---|
| ★★★★★ | 致命性系统故障,严重影响网站运行,用户体验极差 |
| ★★★★ | 严重系统故障,影响网站大多数功能运行,用户体验不佳 |
| ★★★ | 普通系统故障,影响网站的某些功能运行,对用户体验造成影响 |
| ★★ | 轻微系统故障,几乎不影响网站运行,轻微影响用户体验 |
| ★ | 建议性问题,不影响网站运行,几乎不影响用户体验 |
(1)AI作图的理解问题
在测试文心一言的AI作图时发现它的模型理解能力存在着很大的问题,生成的结果可能与要求完全不一样。






在以上的测试用例中,文心一言生成的图片都与我提出的要求在细节上不相符。并且它还不具有在之前生成的图片上做出修改的能力,只能重新生成新的图片。
(2)使用指南目录跳转存在问题

查看使用指南时,发现1.2.1和1.2.2部分的目录点击光标没有正确跳转。
| 类别 | 评分 |
|---|---|
| 界面样式 | 8 |
| 产品功能 | 7 |
| 回答质量 | 6 |
| 回答速度 | 6 |
| 用户体验 | 7 |
Kimi是一款由月之暗面科技有限公司开发的人工智能助手,能够解析和回应用户上传的文件内容,访问互联网信息,并结合这些资源来回答问题。

kimi的初始界面如上,左上角的按钮可查看历史会话记录,中间的搜索框可选择是否联网和上传文件。下方的例子简要介绍了kimi的用处以及优势。接下来我将主要使用kimi的会话功能进行测试。

左上角按钮可查看历史会话和创建新会话,下方搜索框提问,可选择是否联网和上传文件,上方可对此次会话进行命名。
- 界面设计简洁美观,只有用户提问以及模型的回答。
- 联网询问问题时会提供模型查找到的网址依据,并在回答中做出标记,方便用户进行比对。

- 可同时上传多个文件,进行大量文本阅读的工作。
缺点
- 查看历史会话会打开新的界面,而不是直接在左侧显示,用户不能边提问边查看之前的会话记录,可能对某些用户群体比较麻烦。
- kimi目前的功能只有问答,对于其他同类型的产品,功能不够充足。
改进建议
- 会话主题可以调用AI自动判断会话的主题生成
- 历史对话记录可以使用抽屉的样式,由用户自行选择要不要在会话页面显示。
采访对象:跟文心一言采访对象相同
采访对象需求;方便资料的检索,提高学习课外知识的效率。
采访对象使用栏目:kimi的会话功能
采访过程:

| 严重程度 | 说明 |
|---|---|
| ★★★★★ | 致命性系统故障,严重影响网站运行,用户体验极差 |
| ★★★★ | 严重系统故障,影响网站大多数功能运行,用户体验不佳 |
| ★★★ | 普通系统故障,影响网站的某些功能运行,对用户体验造成影响 |
| ★★ | 轻微系统故障,几乎不影响网站运行,轻微影响用户体验 |
| ★ | 建议性问题,不影响网站运行,几乎不影响用户体验 |
(1)上传文件和发送网址后就无法再联网回答

在跟kimi进行会话时,只要上传了网址或者文件要求进行处理时,就会转为本地会话模式,且无法重新联网。严格意义上来说,这不算是错误性bug,但是在用户体验方面会造成一定的影响。
(2)计算逻辑问题有误

要求kimi进行大型数字计算问题时,可能出现计算错误的问题,如上图,实际上987654321/3500000=282.186949

正确结果应为:9.8277148

正确结果应为:6626.44329
| 类别 | 评分 |
|---|---|
| 界面样式 | 8 |
| 产品功能 | 6 |
| 回答质量 | 6 |
| 回答速度 | 8 |
| 用户体验 | 5 |
使用完文心一言和kimi两款产品后,我认为一个6个人左右的刚毕业计算机大学生团队在专业UI支持下,开发出类似的人工智能模型产品大概需要一年左右的时间。
根据第一部分的定量评价表,我将从以下5个方面对文心一言和kimi进行对比。
界面样式:文心一言和kimi的界面样式都是简约风格的,由于文心一言的功能较多,它的界面布置也比kimi丰富得多,而kimi相对与文心一言界面布局更偏向于极简化一些。两款产品在界面样式来看文心一言略强于kimi。产品功能:产品功能方面,文心一言可支持AI作图和图表分析,选择插件拓展,而kimi目前只能进行会话,文心一言的功能比kimi来的丰富。但kimi可以支持超长文本输入和多文件上传分析,在这一方面强于文心一言。综合来看我认为文心一言强于kimi。回答质量:在进行计算问题测试时,kimi的模型经常会出现计算结果不正确的问题,而文心一言好很多,单就文字对话方面来看,文心一言的回答质量强于kimi。回答速度:文心一言回答用户指令是以几个词几个词生成的模式生成回答,而kimi的问答生成流畅很多,在回答速度方面kimi强于文心一言。用户体验:在文心一言的界面有使用指南的模板,适合面向第一次体验AI产品的普通大众,而kimi没有相应的指导,并且文心一言的侧边栏可直接反馈使用过程中遇到的问题,kimi则没有这一功能。 综上五个方面,我认为文心一言强于kimi。
用户需求分析,了解这个产品的主要面向对象,是想轻度体验人工智能的普通大众,还是对产品功能有一定要求的专业人士。并且在模型测试的阶段要多进行几轮测试,持续训练人工智能模型,提高模型质量。ChatGPT、文心一言和Kimi都是基于大型语言模型的人工智能产品,它们之间的关系主要是竞品关系。这些产品各自由不同的公司开发,但提供的服务目的大致相同。
竞争态势:大语言模型领域目前正处于快速成长的风口阶段,随着技术的不断进步和应用场景的拓展,市场规模持续扩大。
存在利用这种相互作用来构建特定用户生态的可能性。新功能设计:以kimi为例,我建议在kimi当前的基础上设计一个用户个性化推荐系统,可以根据用户之前提问的信息推断出用户接下来可能要询问的问题,增强用户的交互体验。
为何要做这个功能:
用户为何使用:
创新点:
NABCD分析:
团队配置与详细规划:
| 时间 | 计划 | 任务 |
|---|---|---|
| Week 1-2 | 项目启动和需求分析 | 确定项目目标和范围。 |
| 分配任务和资源。 | ||
| 完成初步的需求分析和市场调研。 | ||
| Week 3-4 | 技术选型和原型设计 | 确定技术栈和开发工具。 |
| 完成原型设计和用户体验流程图。 | ||
| Week 5-6 | 数据收集与模型开发 | 收集和处理用户数据。 |
| 开发初步的推荐算法和情境感知模型。 | ||
| Week 7-8 | 后端和前端开发 | 开发后端逻辑和数据库接口。 |
| 设计并实现前端界面和用户交互。 | ||
| Week 9-10 | 功能集成和测试 | 集成推荐系统到Kimi平台。 |
| 进行初步的功能测试和用户体验测试。 | ||
| Week 11-12 | 算法优化和迭代 | 根据测试反馈优化推荐算法。 |
| 调整用户界面和交互设计。 | ||
| Week 13-14 | 性能测试和市场准备 | 进行性能测试和压力测试。 |
| 准备市场推广材料和发布计划。 | ||
| Week 15-16 | 产品发布和后续支持 | 正式发布新功能。 |
| 监控产品性能和用户反馈。 | ||
| 制定后续的维护和升级计划。 |