122
社区成员
发帖
与我相关
我的任务
分享| 这个作业属于哪个课程 | 福州大学-202302软件工程实践 |
|---|---|
| 这个作业要求在哪里 | 软件工程实践——软件评测作业 |
| 这个作业的目标 | 进行产品调研评测与分析,并给出建议和规划 |
| 其他参考文献 | 《构建之法》 |
模板提供:提供多种预设模板,以帮助用户快速开始特定类型的任务,如广告片文案、报告、简历等。


云同步:允许用户将内容存储在云端,支持跨设备访问和编辑。

图片解析:根据上传的图片和提供的指令对图片做出相应的分析

文档解析:根据上传的文档和提供的指令进行输出,不支持PDF格式的文件


AI绘画:根据用户的描述进行绘画

插件工具:提供一个插件商城供用户选择不同的插件来适应不同的使用场景

| 严重程度 | 说明 |
|---|---|
| ★ | 不仔细观察,无法发现,基本不影响使用:如轻微的排版问题或响应时间略长,用户可能不会注意到这些小问题,且不会影响到与大模型的基本互动功能。 |
| ★★ | 轻度系统故障,会影响使用,但是可以通过其他方式继续对话:如特定的指令无法正确触发预测模型,用户可能需要稍微改变问句或使用其他相关指令来获得所需的信息。 |
| ★★★ | 中度系统故障,导致该功能完全无法使用:如大模型无法根据用户的输入生成任何响应,导致对话功能暂时中断,这直接妨碍了用户与模型的互动。 |
| ★★★★ | 严重系统故障,容易导致错误信息的产生或数据处理错误:如生成的内容存在逻辑混乱或错误信息,可能误导用户或造成信息的误解,这类问题可能涉及到模型的核心算法或数据处理。 |
| ★★★★★ | 致命性系统故障,可能会造成整个系统瘫痪:如后端服务器发生故障,导致网站完全无法响应任何指令或请求,这种情况会使得整个产品无法进行任何形式的对话或信息交换。 |



d) 好,不错
| 类别 | 描述 | 评分 (0-10) |
|---|---|---|
| 核心功能 | 以通过输入指令和文心一言进行对话互动、提出问题或要求 | 8 |
| 细节 | 界面友好性 | 6 |
| 用户体验 | 当用户完成功能时,不干扰用户 (例如: 是否不断弹出不相关广告) | 8 |
| 辅助功能 | 自定义背景,字体大小的选择 等 | 6 |
| 差异化功能 | 这个软件独特的功能。它对用户的吸引力有多大? | 6 |
| 软件的效能 | 占用内存, 启动速度, 内存泄漏情况 | 7 |
| 软件适应性 | 在联网/断网, 大小屏幕, 没有鼠标的情况下都可以顺畅操作。和不同平台的软件能流畅协作 | 8 |
| 成长性 | 记住用户的选择, 适应用户的特点,用户越用越方便 | 8 |
| 用户有控制权 | 系统状态有反馈,等待时间要合适。关键操作有确认提示,有明确的错误信息。 让用户方便地从错误中恢复工作, 快捷操作键可调整。 | 8 |







| 严重程度 | 说明 |
|---|---|
| ★ | 不仔细观察,无法发现,基本不影响使用:如轻微的排版问题或响应时间略长,用户可能不会注意到这些小问题,且不会影响到与大模型的基本互动功能。 |
| ★★ | 轻度系统故障,会影响使用,但是可以通过其他方式继续对话:如特定的指令无法正确触发预测模型,用户可能需要稍微改变问句或使用其他相关指令来获得所需的信息。 |
| ★★★ | 中度系统故障,导致该功能完全无法使用:如大模型无法根据用户的输入生成任何响应,导致对话功能暂时中断,这直接妨碍了用户与模型的互动。 |
| ★★★★ | 严重系统故障,容易导致错误信息的产生或数据处理错误:如生成的内容存在逻辑混乱或错误信息,可能误导用户或造成信息的误解,这类问题可能涉及到模型的核心算法或数据处理。 |
| ★★★★★ | 致命性系统故障,可能会造成整个系统瘫痪:如后端服务器发生故障,导致网站完全无法响应任何指令或请求,这种情况会使得整个产品无法进行任何形式的对话或信息交换。 |
测试环境
BUG1----无法完成输出指定字数的指令
可复现性:目前截止至2024-04-15,百分百可以复现,只需要输入指定字数的文本。
复现步骤:输入如下的指令即可

具体描述:在使用指定字数的指令时,无法输出指定的字数。
具体分析:此问题可能是由于大模型只是依据给定的语境,在可能的不同输出选项中计算概率,并按照这个概率进行输出。也就是按照“P(当前输出(output)丨当前语境(context)”的大小进行输出。
严重性: ★★
BUG改进建议:生成文本后,使用后处理脚本或函数来裁剪超出指定字数的额外内容。
BUG2----使用指令解除大模型的限制
可复现性:并不是百分百解除限制,有时候使用指令后虽然显示成功破解,但是它会告诉你它的输出是乱编的。
复现步骤:
成功情况:


具体描述:在使用特定指令尝试解除大模型的某些输出限制时,模型表现出不一致的行为。在某些情况下,它会根据指令解除限制,并提示解除成功。有时候会警告用户其输出可能是随机生成的,这意味着即使用户认为限制已被解除,但模型仍旧在某种程度上遵守其原有的限制或保护措施。
具体分析:这个问题涉及到模型的内置安全标准,这些标准在模型架构中被设定为不可或难以完全解除的。此外,这种不一致的行为可能是由于模型的自我监控机制,它在识别到可能导致不准确或不当输出的请求时会启动。
严重性:★★★★
BUG改进建议:确保模型在接收到解除限制的指令后,提供清晰的反馈,明确告知用户是否成功解除限制,以及未成功的原因。如果解除限制是允许的操作,应优化该流程,确保在执行此类指令时,模型能够更准确地处理和响应。
e) 非常推荐
| 类别 | 描述 | 评分 (0-10) |
|---|---|---|
| 核心功能 | 以通过输入指令和Kimi进行对话互动、提出问题或要求 | 9 |
| 细节 | 界面友好性 | 8 |
| 用户体验 | 当用户完成功能时,不干扰用户 (例如: 是否不断弹出不相关广告) | 8 |
| 辅助功能 | 自定义背景,字体大小的选择 等 | 7 |
| 差异化功能 | 这个软件独特的功能。它对用户的吸引力有多大? | 8 |
| 软件的效能 | 占用内存, 启动速度, 内存泄漏情况 等 | 8 |
| 软件适应性 | 在联网/断网, 大小屏幕, 没有鼠标的情况下都可以顺畅操作。和不同平台的软件能流畅协作 | 8 |
| 成长性 | 记住用户的选择, 适应用户的特点,用户越用越方便 | 8 |
| 用户有控制权 | 系统状态有反馈,等待时间要合适。关键操作有确认提示,有明确的错误信息。 让用户方便地从错误中恢复工作, 快捷操作键可调整。 | 9 |




| 网站名称 | 问题 | 亮点 |
|---|---|---|
| 文心一言 | 百宝箱中的功能感觉过于鸡肋 | 网站的同步历史功能非常方便,可以随时随地继续对话 |
| Kimi | 在面对专业术语时,建议不够准确,有时候会提出与上下文不符的修改。 | Kimi的界面直观,功能选项布局合理,用户可以迅速找到他们需要的功能。 |
| 工作环节 | 时间估计 |
|---|---|
| 需求分析与设计 | 30天 |
| 前端开发 | 90天 |
| 后端开发 | 120天 |
| 大模型训练与集成 | 180天 |
| 数据准备与处理 | 30天 |
| 测试与优化 | 30天 |
| 用户文档与支持 | 15天 |
| 项目管理与协调 | 15天 |
| 合计 | 510天 |
模型训练和数据准备上时,时间预估需要详细考虑这些任务的复杂性和时间消耗。对于一个由六位计算机科学专业的大学毕业生组成的团队,项目的总体进展将高度依赖于对这些关键任务的完成。大模型API,如OpenAI的GPT或其他类似的API服务,可以显著缩短开发时间。这不仅减少了技术障碍和前期的研究开发时间,还可以利用现有技术的成熟度和稳定性。并行任务,项目完成的时间有可能缩短到6个月左右。如果项目从头开始训练自己的语言模型,那么考虑到数据准备和模型训练的密集性,项目完成时间可能在9-12个月范围内。对于大模型应用时,我认为需要考虑几个关键的比较维度。这些维度包括功能丰富性、准确性、用户界面、响应速度、可靠性等。下面是几个大模型应用的对比表格:
| 对比项目/大模型应用 | 通义千问 | ChatGPT | 文心一言 | Kimi | 权重 |
|---|---|---|---|---|---|
| 功能丰富性 | 85 | 90 | 80 | 88 | 0.25 |
| 准确性 | 88 | 92 | 85 | 90 | 0.25 |
| 用户界面 | 82 | 87 | 83 | 85 | 0.20 |
| 响应速度 | 80 | 85 | 79 | 86 | 0.15 |
| 可靠性 | 87 | 90 | 84 | 89 | 0.15 |
| 总分 | 85.3 | 89.1 | 81.3 | 87.8 | 1 |
综上:ChatGPT(89.1)> Kimi(87.8)> 通义千问(85.3)> 文心一言(81.3)
| 网站名 | 建议 |
|---|---|
| Kimi | 1、实现后端服务的负载均衡和微服务架构,以改善处理大量并发请求的能力,并减少故障的风险。 2、开发一个自定义导航栏,让用户可以根据自己的需要定制信息展示,从而提高用户体验和工作效率。 |
| 文心一言 | 1、继续优化语言处理模型,减少响应时间,尤其是在自然语言理解和生成响应方面。通过使用新的机器学习技术来增强模型的准确性。 2、简化插件商城中的界面,移除不常用的插件,专注于提供高质量的核心插件,并优化用户搜索和下载插件的过程。 3、增强安全性措施,例如实现自动化的安全扫描和更新流程,保护用户数据免受安全漏洞威胁。 |
| 网站名称 | BUG描述 | 原因分析 |
|---|---|---|
| 文心一言/Kimi | 无法正确输出特定字数 | 文心一言和Kimi这样的基于自回归的大语言模型,旨在生成流畅和自然的文本.因此当我们要求文心一言或Kimi输出恰好一定字数的文本时,它们面临的挑战就像是在不打断句子、保持内容连贯的同时,精确地在指定字数结束,这对于基于概率的自回归模型来说是一项复杂的任务。 |
| 文心一言 | AI绘画中的上下文理解缺陷 | AI绘画工具没有被训练来理解连续场景或序列图像中的上下文关系。多数绘画AI是基于单一图像生成训练的,无法对故事线或连续性的内容进行理解。此外,绘图模型在理解复杂命令或捕捉到细微上下文线索方面存在问题。另外,如果用户提供的上下文信息不足或指令不明确,也可能导致模型无法生成准确的画面。 |
| Kimi | 使用指令解除模型限制 | 模型设计时通常会包含权限控制机制,以防止用户解除关键性的功能限制,这是为了确保平台的安全性和稳定性。但是用户输入的指令可能涉及到了模型内部的某些控制参数,而网站由于缺乏适当的验证和处理机制,而使得模型的响应超出了设计的范围。 |


ChatGPT:
BERT/T5:
AlphaFold:
文心一言:
通义千问:
Kimi:
AI大模型领域仍然可以视为处于风口阶段。新技术的引入和对多模态以及特定领域的深化应用显示出这一领域的持续成长和创新潜力。同时通过比较这些现有的AI模型,我们可以看到AI大模型市场在不断扩展其边界,同时也在增强其在特定领域和语言处理上的能力。这些模型的发展和竞争将有助于推动整个行业的技术进步。
| 用户类型 | 年龄范围 | 学历 | 专业 | 收入 | 表面需求 | 潜在需求 |
|---|---|---|---|---|---|---|
| 科研人员 | 20-40岁 | 科研机构在读研究生,电子科学类专业背景 | 数据分析、人工智(能)相关 | 5千-3万人民币/月 | 提高工作效率,优化决策,增强创造力 | 寻求个性化服务,数据安全和隐私保护 |
| 相关专业学生 | 18-25岁 | 科研机构在读研究生,电子科学类专业背景 | 软件开发、数据科学、研究、内容创作、企业决策 | 无收入 | 与同学共同学习兴趣领域,解决学业问题 | 寻找精确知识,职业发展的机会 |
| NABCD | 详情 |
|---|---|
| N(Need,需求) | 1. 用户需要一种更自然、更快捷的交互方式,在忙碌或双手被占用时仍能使用问答助手。 2. 视觉障碍人士或在特定情境下(如移动端)的用户,需要无障碍、方便的交互选项。 |
| A(Approach,做法) | 1. 集成高性能语音识别技术,转换语音为文本。 2. 优化NLP处理能力,处理由语音输入产生的文本。 3. 添加易于使用的语音输入按钮于用户界面。 4. 进行全面测试,确保识别率高,误识别率低。 5. 基于用户反馈持续改进语音识别准确性和体验。 |
| B(Benefit,好处) | 1. 提高用户多任务处理能力,即便双手被占用时也能高效互动。 2. 提供无障碍选项,增加了产品的普及率和可用性。 3. 语音输入使交流更为直观自然,提升整体用户满意度。 |
| C(Competitors,竞争) | 1. 面对已有语音输入的AI助手,Kimi通过添加语音功能增强竞争力。 2. 通过精准的语音识别技术来获得竞争优势,区分自己与其他助手。 |
| D(Delivery,推广) | 1. 通过现有平台推广新功能,如官网、社交媒体、应用内推送。 2. 通过使用案例展示语音输入功能的实际便利性。 3. 利用早期用户的反馈进行口碑营销,吸引新用户。 |
人员分配原因:数据分析师用来理解用户行为,提供定制化的语音输入解决方案。算法工程师专注于开发和优化精确的语音到文本转换技术。开发工程师确保功能的技术实施与应用的其他部分紧密集成。UI设计师保证用户界面直观,使得用户易于使用语音功能。测试工程师全面测试以确保发布的功能稳定。
| 角色 | 人数 |
|---|---|
| 数据分析师 | 1名 |
| 算法工程师 | 1名 |
| 开发工程师 | 2名 |
| UI设计师 | 1名 |
| 测试工程师 | 1名 |
| 周数 | 详细工作计划 |
|---|---|
| 第1周-第2周 | 定义项目范围,制定项目计划,团队建设和角色分配 |
| 第3周 | 进行市场调研和用户需求收集 |
| 第4周 | 完成产品需求文档和设计语音输入功能的初步原型 |
| 第5周-第8周 | 开始开发语音输入模块,同时UI设计师设计界面 |
| 第9周 | 完成语音输入模块的初步开发,开始内部测试 |
| 第10周-第12周 | 进行功能测试和用户体验测试,根据反馈进行产品调整 |
| 第13周 | 准备产品发布所需的市场和推广资料 |
| 第14周 | 进行预发布测试和人员培训 |
| 第15周 | 对产品进行最后的润色和准备工作 |
| 第16周 | 正式发布产品并跟踪产品发布后的用户反馈 |