111
社区成员




这个作业属于哪个课程 | 2024软件工程实践 |
---|---|
这个作业要求在哪里 | 软件工程实践——软件评测作业 |
这个作业的目标 | 对几个语言模型进行评测并提出建议、市场分析 |
其他参考文献 | 《构建之法》、CSDN |
通义千问是一款由阿里巴巴达摩院开发的大型语言模型,专注于提供智能问答、文本生成、代码辅助等多种自然语言处理功能。通过接入到阿里云生态系统,通义千问为用户提供了一个强大的自然语言理解平台,旨在帮助企业和开发者提高生产效率,简化内容生成与信息处理的工作流程。
基本功能介绍
使用情况
注册与登录
没有注册选项
登录时提供手机验证码登录,淘宝账号登录以及淘宝app扫码登陆三个选项
使用
生成作文
写一些简单的代码
制定旅游规划
为作图提供思路
优点:
1.全面覆盖的知识体系:通义千问拥有庞大且系统的知识库,涵盖自然科学、社会科学、文化艺术、历史地理、经济管理、工程技术等多个领域,满足用户多元化的知识需求。
2.精准智能的问答机制:采用先进的语义理解算法,通义千问能够深度解析用户提问的意图,实现对问题的精准定位。
3.广泛的行业应用:通义千问在多个行业中展现了广泛的应用潜力,如文字创作与文本处理、编程辅助、翻译服务、对话模拟与智能客服、数据可视化与智能推荐等。
缺点:
1.功能不足:无法生成用户要求的图片,也无法生成用户要求的ppt等
2.实时新闻和动态数据更新方面的不足:在处理时效性强的信息时,通义千问容易出错。
3.主观判断和价值观方面的缺乏:由于模型基于大量文本数据进行训练,其回答往往倾向于客观事实和数据,难以体现人类的情感、偏好和道德观念。因此,在回答涉及主观判断和价值观的问题时,通义千问的回答往往缺乏深度和个性化。
改进意见
1.添加根据用户描述生成图片与ppt的功能,增加更多使用环境
2.训练数据需更频繁的更新,保证处理时效性强的信息时的准确率
3.提高生成内容的深度,增强对人类情感,道德观念的理解
a. 采访对象的背景,为什么选择这个人采访?TA的需求是什么?
背景:福州大学计算机与大数据学院软件工程专业学生
原因:相关专业的同学对不同大语言模型有丰富的使用经验,能给出更准确的反馈
TA的需求:辅助自己完成作业,提高信息搜索效率
b. 采访对象实际使用的产品栏目
AI对话,通义千问智能体,上传文件分析等
c. 采访对象使用软件的过程中会遇到的问题和亮点
d. 采访对象觉得从用户体验的角度来说需要改进的地方有哪些?
Bug 量化标准:
五星(★★★★★):致命错误
描述:此类Bug会导致应用程序完全崩溃,使得用户无法使用该软件。
四星(★★★★☆):重大错误
描述:此类Bug会影响核心功能,导致某些关键功能无法正常使用,严重影响用户体验。
三星(★★★☆☆):中等错误
描述:此类Bug会影响次要功能或界面显示问题,但仍可以使用软件的核心功能。
二星(★★☆☆☆):轻微错误
描述:此类Bug对用户使用体验影响较小,可能是某些提示信息不准确或某些选项不起作用。
一星(★☆☆☆☆):建议改进
描述:此类问题不影响软件的主要功能,通常是一些建议性的改进或用户体验上的微小瑕疵。
操作系统:Windows 11, version 23H2
浏览器:Chrome 版本 129.0.6668.100(正式版本) (64 位)
Bug:无法生成指定字数要求的文章★★☆☆☆
可复现性:必然发生
复现步骤:
1.新建一个与通义千问的对话
2.给他一个主题,让他生成指定字数的文章
具体现象:
要求他生成800字的文章时,实际生成了一篇658字的文章
要求他生成1000字的文章时,实际生成了一篇687字的文章
问题截图:
可能成因
生成策略和文本控制机制
大模型生成文本时,使用的策略通常是逐词预测或逐步生成句子,而不是基于精确字数控制。模型更关注上下文连贯性、语法结构和语义一致性,因此在生成过程中,它的主要目标是产生连贯、合乎逻辑的内容,而不是严格匹配指定的字数。
对“字数”的理解局限
大模型在处理“字数”要求时,可能仅能理解这是生成内容的一个目标或提示,而不是绝对约束。由于生成是基于概率和语义的过程,模型不一定完全理解用户希望文章具有确切的字数。模型可能会生成一个“看起来差不多”的内容,而不是精确的字数结果。
生成结束条件的设置
大模型的生成过程通常基于生成内容是否“完成”的信号,比如文章已经达到某种语义上的闭合,或者已经生成了几段逻辑清晰的文本。当它认为文章内容已经充实或主题得到了完整表达时,模型会自动终止生成,导致字数不足。
生成长度的限制
一些AI模型在生成时会受到内部参数(如token数量上限)的限制,尤其是在长文章的生成过程中,模型可能会提前达到其设定的生成限制,从而导致生成内容过早终止。
文本压缩和表达效率
AI大模型通常训练于大量高效表达的文本,因此生成的内容在信息密度上较高。模型倾向于以简洁的方式表达复杂的思想或叙述,使得生成的内容可能比预期的字数少,虽然语义完整,但形式上没有达到预期的字数。
严重性
1.系统功能:
无法生成指定长度的文章,影响文章生成功能
2.安全性:
此Bug对该平台的安全性不产生影响
3.用户体验:
对许多场景而言,用户期望的是一个可以精确按照输入要求生成内容的工具,比如写作、广告文案、学术论文等。如果系统无法生成满足指定字数的文本,用户可能会觉得不够可靠或智能。这可能会降低用户的信任和依赖。
量化指标:
评分:★★☆☆☆
理由:无法根据字数要求生成文章,但是可以通过继续要求扩写文章达到指定字数,生成文章的功能依然可以正常使用,该bug对用户使用体验影响较小,轻微影响了用户的使用体验
预期及改进建议:
预期目标:
改进建议:
引入字数反馈机制
在模型生成的过程中,可以引入动态的字数反馈机制,使得系统在每一步生成后实时监控字数情况。当接近目标字数时,模型可以通过调整生成策略(如更快结束句子、缩短句子等)来精确控制输出的总长度。
c) 一般
维度 | 解释 | 评分(5分满分) |
---|---|---|
生成质量 | 语言流畅性、连贯性、语法准确性、逻辑一致性 | 3 |
功能种类 | 支持功能的多样性与丰富度 | 3 |
响应速度 | 系统的响应时间及复杂任务处理的效率 | 3 |
用户体验 | 界面设计、操作便捷性及用户反馈的友好度 | 4 |
总分 | 13/20 |
文心一言是由百度研发的大型语言模型,具备强大的自然语言处理能力,支持智能问答、文本生成、语言翻译等多种功能。它广泛应用于内容创作、客户服务、代码辅助等场景,能够根据用户需求快速生成高质量的文本,帮助提高工作效率。文心一言还支持多语言处理,具备自定义模型调优的功能,适用于多领域和多行业的智能应用需求。
基本功能介绍
1.知识问答:涵盖学科专业知识、百科知识、生活常识等,回答您关于各种话题的问题。
2.文本创作:帮助撰写小说、诗歌、作文、文案等,提供写作灵感和建议。
3.知识推理:参与逻辑推理、脑筋急转弯等智力游戏,锻炼和提升思维能力。
4.数学计算:解决数学题目,进行简单的数学运算和公式推导。
5.代码理解与编写:帮助理解代码逻辑,编写程序代码,提供编程方面的建议和解决方案。
6.作画:根据文字描述生成图像,或提供绘画技巧和指导。
7.翻译:将文本或对话从一种语言翻译成另一种语言,支持多种语言之间的互译。
使用情况
注册与登录
可通过微博账号,QQ账号,微信账号,百度账号,手机短信验证码,百度app扫码登录
注册界面即为百度账号的注册
使用
生成图片
生成文章
为制作ppt提供大纲和内容建议
简单代码生成
优点:
缺点:
改进意见
1.将一部分关于开通会员的广告去除,增强使用体验
2. 增强推理能力,建议进一步优化模型的推理和逻辑分析能力,特别是在处理复杂的多步推理问题和专业领域问题时,提高准确性和理解深度。
3. 增加生成ppt的功能,拓展使用场景
a. 采访对象的背景,为什么选择这个人采访?TA的需求是什么?
背景:福州大学计算机与大数据学院软件工程专业学生
原因:相关专业的同学对不同大语言模型有丰富的使用经验,能给出更准确的反馈
TA的需求:绘制插画
b. 采访对象实际使用的产品栏目
AI对话,文心一言智能体广场,图片生成等
c. 采访对象使用软件的过程中会遇到的问题和亮点
d. 采访对象觉得从用户体验的角度来说需要改进的地方有哪些?
Bug 量化标准:
五星(★★★★★):致命错误
描述:此类Bug会导致应用程序完全崩溃,使得用户无法使用该软件。
四星(★★★★☆):重大错误
描述:此类Bug会影响核心功能,导致某些关键功能无法正常使用,严重影响用户体验。
三星(★★★☆☆):中等错误
描述:此类Bug会影响次要功能或界面显示问题,但仍可以使用软件的核心功能。
二星(★★☆☆☆):轻微错误
描述:此类Bug对用户使用体验影响较小,可能是某些提示信息不准确或某些选项不起作用。
一星(★☆☆☆☆):建议改进
描述:此类问题不影响软件的主要功能,通常是一些建议性的改进或用户体验上的微小瑕疵。
操作系统:Windows 11, version 23H2
浏览器:Chrome 版本 129.0.6668.100(正式版本) (64 位)
Bug:无法根据成语生成有关图片
可复现性:必然发生
复现步骤:
要求文心一言生成一幅关于四字成语的图片
具体现象:
生成出了一个跟用户提供成语毫无关系的图片
问题截图:
可能成因:
严重性:
1.系统功能:
无法生成用户要求的图片,影响图片生成功能
2.安全性:
此Bug对该平台的安全性不产生影响
3.用户体验:
用户在输入四字成语时,通常期望能够获得与成语相关的生动图像。若模型无法生成相关图片,将导致用户体验不佳,形成期待与实际结果之间的明显落差。用户可能感到失望,从而对模型的有效性和可靠性产生质疑。
成语往往承载丰富的文化背景和情感意义,无法生成相关图片意味着用户无法通过视觉化的方式感受这些文化内涵和情感表达,影响整体的理解与体验。用户可能感到ai无法全面理解成语的意境,从而减少了与传统文化的互动和感知。
量化指标:
评分:★★☆☆☆
理由:无法根据四字成语生成图片,但是可以通过详细描述四字成语的故事来使图片能正常生成,该bug对用户使用体验影响较小,轻微影响了用户的使用体验
预期及改进建议:
预期:能正确的根据四字成语背后的故事以及含义生成用户要求的图片
改进建议:
d) 好,不错
维度 | 解释 | 评分(5分满分) |
---|---|---|
生成质量 | 语言流畅性、连贯性、语法准确性、逻辑一致性 | 4 |
功能种类 | 支持功能的多样性与丰富度 | 4 |
响应速度 | 系统的响应时间及复杂任务处理的效率 | 4 |
用户体验 | 界面设计、操作便捷性及用户反馈的友好度 | 3 |
总分 | 15/20 |
对于一个AI对话平台(如通义千问和文心一言)的大致开发时间,可以考虑以下因素:
根据功能复杂性和团队经验,以下是大致的时间估算:
功能模块 | 预估时间(周) | 说明 |
---|---|---|
用户界面设计 | 3-4 | UI设计、原型制作与用户反馈迭代 |
自然语言处理集成 | 5-8 | 模型选择、训练数据准备、模型调优 |
数据库管理 | 2-3 | 数据存储与管理、用户数据安全 |
API开发与集成 | 4-5 | 前后端接口开发与集成 |
测试与调试 | 3-4 | 功能测试、性能测试、用户测试 |
文档编写与培训 | 2 | 用户手册与团队内部文档 |
总计时间:约19-30周(4.5-7.5个月)
以下是对ChatGPT、文心一言、通义千问、KIMI、讯飞星火的排名及说明:
ChatGPT
KIMI
文心一言
讯飞星火
通义千问
一个重要的改进方向是需求分析与管理。在软件工程中,准确掌握用户需求是成功的关键。具体建议包括:
1.关于AI大模型无法生成指定字数文章的bug,可能的原因包括:
2.关于AI大模型无法根据四字成语生成正确符合语义的图片的bug,可能的原因包括:
可能的问题层次:
为何还有这些问题:
改进建议:
我想问软件团队的问题:
产品定位:
优势:
劣势:
竞品关系:
竞争态势:
核心用户群是什么样的人?
典型用户特征:
表面需求与潜在需求:
用户群体关系:
二次构成特定用户生态的可能性:
子产品及相关产品:
二次构成产品生态的可能性:
新功能:成语图像生成器
功能描述:
该功能允许用户输入四字成语,系统将根据成语的语义生成相关的图片,帮助用户更好地理解和应用成语,提升学习体验。
为何要做这个功能:
用户使用动机:
用户希望通过可视化的方式更好地理解成语,尤其是教育用户(如学生和教师),将其作为教学辅助工具,增加学习的趣味性和效果。
创新点(NABCD分析):
为在第16周如期发布软件的改进版本,团队角色配置如下:
开发人员(4人):
测试人员(1人):
美工设计师(1人):
周次 | 主要任务 |
---|---|
1 | 市场调研,收集用户需求,分析竞争对手,制定详细功能需求文档。 |
2 | 完成功能需求文档,开始设计系统架构,开发团队分工明确,确定技术栈。 |
3 | 自然语言处理模型开发:实现成语解析算法,进行初步的功能测试。 |
4 | 图像生成模型开发:选择图像生成技术,进行初步算法训练。 |
5 | 设计用户界面原型,进行用户体验测试,收集反馈并进行迭代。 |
6 | 完成前端开发:实现成语输入、图像展示界面,集成API。 |
7 | 完成后端开发:设计数据库结构,完成API的初步开发与集成。 |
8 | 自然语言处理与图像生成模型的集成测试,确保功能协同工作。 |
9 | 开展第一个阶段的QA测试,针对功能进行详细测试,修复bug。 |
10 | 进行用户体验测试:邀请部分用户参与,获取反馈并调整产品。 |
11 | 根据用户反馈优化产品,增强图像生成的效果和准确性。 |
12 | 完成最终的QA测试,确保产品稳定性,进行压力测试。 |
13 | 准备市场推广材料,制定市场推广策略,进行产品宣传。 |
14 | 进行小范围内的用户预发布,获取最后反馈,进行微调。 |
15 | 进行最终的产品发布准备,撰写用户手册和技术文档。 |
16 | 正式发布改进版本,开展市场推广活动,收集用户反馈进行后续迭代。 |