111
社区成员




这个作业属于哪个课程 | https://bbs.csdn.net/forums/2401_CS_SE_FZU |
---|---|
这个作业要求在哪里 | https://bbs.csdn.net/topics/619351741 |
这个作业的目标 | 调研,评测,分析,建议和规划 |
其他参考文献 | 无 |
介绍和使用软件: 根据百度百科的描述,文心一言(英文名:ERNIE Bot)是百度推出的一个新一代知识增强型大语言模型,它属于文心大模型家族的新成员。文心一言能够与用户进行对话互动、回答问题、帮助进行创作,并能高效便捷地提供信息、知识和灵感。该模型通过学习数万亿的数据和数千亿的知识构建了预训练大模型,并进一步通过监督精调、人类反馈强化学习和提示技术等进行优化。文心一言在知识增强、信息检索和对话能力方面具有显著的技术优势。使用文心一言时,用户可以通过手机号完成简单的注册和登录。
优缺点分析:
- 优点:
- 文心一言在生成文本方面表现出高度的连贯性和自然流畅性。无论是用户提供的主题还是关键词,它都能快速生成逻辑清晰、表达顺畅的文本,大幅减少了写作过程中的构思难度。在我的第一次使用中,输入了一个主题后,文心一言生成的文章整体非常连贯;
- 此外,它拥有强大的主题生成能力。无论涉及科技、文化或生活等主题,它都能迅速理解并生成相关的句子和段落,为用户提供了丰富的素材和灵感;
- 值得一提的是,文心一言在内容生成过程中严格遵循道德与法律规范,避免了暴力、色情等不良内容的传播,表现出了积极健康的价值导向,让我感受到正面的能量与态度。
- 缺点:
- 虽然文心一言能够在一定程度上理解用户意图,但在某些复杂或特定的上下文中,仍有可能出现理解偏差或生成内容不够准确的情况;
- 其次,在生成较长文章时,偶尔会出现内容重复或结构单一的问题,可能影响文章的整体质量;
- 另外,文心一言对单次提问的字数有一定限制,不能超过2000字,这可能在一定程度上限制了与用户的深度互动,也影响了对问题的全面理解。
改进意见:
- 扩展专业领域知识:文心一言可以进一步丰富其知识库,涵盖更多专业术语和特定语境的表达,以提高在复杂或特定语境下的理解准确性;
- 优化模型算法:通过改进深度学习算法和模型结构,增强其对语义和上下文的理解能力,减少生成内容中的偏差与误解;
- 增强内容拓展功能:让用户能够对生成的初稿进行进一步扩展,通过提供额外的关键词或指示,让文心一言在此基础上生成更丰富的内容;
- 改进文本处理能力:优化文心一言的处理机制,使其能处理更长的输入文本,同时保持较高的响应效率。
采访对象:软件工程专业
需求:文本生成
星级 | 说明 |
---|---|
⭐ ⭐ ⭐ | 严重性高,非常影响用户使用,以及消息传播不实可能造成严重影响。 |
⭐ ⭐ | 严重性中等,读取用户提问的问题有误,影响用户使用,不能给出用户需要的结果。 |
⭐ | 严重性较低,读取用户提问的问题有误,影响用户使用,但用户可在此基础上稍作调整。 |
浏览器:
- Microsoft Edge
- 版本 123.0.2420.81 (正式版本) (64 位)
笔记本:
- 版本 Windows 11 家庭中文版
- 版本 21H2
- 操作系统版本 22000.2538
- 体验 Windows 功能体验包 1000.22001.1000.0
可复现性: 是偶尔发生的bug,错误频率较高,出现频率为100次测试中发生了90次。
具体复现步骤: 向文心一言提问“帮我画出一片天空两个太阳的图片”。
文心一言没有理解用户的具体意思,画出的图像与用户需求不相符,而且是高频率错误。
可能成因: 文心一言的训练数据可能来源于各种渠道,如果这些数据中存在错误、噪声或不准确的信息,就可能导致其生成的画作与要求不符。
严重性: ⭐ ⭐
功能不完善,体验感很差,不能获得想要的目标图片。
预期正确结果:
建议:
- 提升模型的自然语言理解能力,使其能够更精准地解析用户的绘画指令。
- 构建一个用户反馈机制,允许用户对生成的作品进行直接评价与反馈。
- 与资深艺术家展开合作,邀请他们为模型提供专业指导和建议。
- 持续优化和迭代模型,以跟上不断变化的绘画趋势和用户期望。
c) 一般
定性结论:文心一言虽然在某些情况下存在问题,但整体而言,其功能和体验都十分positive,适合国内需求不高的用户使用。
维度 | 子项 | 评分标准 | 得分 |
---|---|---|---|
内容生成质量 (30分) | 流畅性和连贯性 | 逻辑清晰、语句通顺 | 8 |
主题理解与创意 | 理解多种领域,有时偏差 | 8 | |
信息准确性 | 出现史实混淆和错误生成 | 5 | |
创新能力 (20分) | 主题生成能力 | 快速生成跨领域内容,有偏差 | 9 |
独特性与灵感激发 | 丰富素材,积极帮助 | 10 | |
合规性与价值观 (20分) | 遵守法规与道德 | 严格遵循,积极避免不良内容 | 10 |
传递正能量 | 积极健康形象 | 10 | |
用户体验 (20分) | 交互便捷性 | 提问字数限制 | 3 |
错误修正反应 | 知错未有效修正 | 2 | |
用户满意度 | 流畅性与创意,准确性问题 | 5 | |
稳定性与可靠性 (10分) | 一致性与准确度 | 内容重复与理解偏差 | 2 |
系统稳定性 | 推测常规稳定 | 4 | |
总分 | 76 |
介绍和使用软件:
- 首先,通义千问的响应速度非常快,输出结果几乎是即时生成,用户可以实时获得回答。
- 其次,通义千问的交互体验较好,用户可以通过自然语言进行顺畅的对话,这让交流变得更加自然。同时,它还能根据用户的反馈进行智能调整,进一步优化用户体验,满足用户的多样化需求。
优缺点分析:
- 优点:
- 反应迅速,回答过程非常流畅;
- 交互性强,体验自然。
- 缺点:
- 回答的准确性,尤其在数学计算方面,仍有待提升;
- 知识更新不够及时,对于最新的事件或信息存在滞后;
- 理解复杂问题时能力有限,模型需要持续优化;
- 训练数据可能存在偏差,导致生成的回答中可能出现类似偏差或错误。
改进意见:
- 引入实时的知识更新机制,确保信息的时效性;
- 提高模型的语言理解与推理能力,进一步优化自然语言处理的算法;
- 增强数学计算能力,结合符号计算、数值计算和机器学习技术,显著提升AI在处理数学问题时的准确性。
采访对象:软件工程专业
需求:代码解释生成
星级 | 说明 |
---|---|
⭐ ⭐ ⭐ | 严重性高,非常影响用户使用,以及消息传播不实可能造成严重影响。 |
⭐ ⭐ | 严重性中等,读取用户提问的问题有误,影响用户使用,不能给出用户需要的结果。 |
⭐ | 严重性较低,读取用户提问的问题有误,影响用户使用,但用户可在此基础上稍作调整。 |
浏览器:
- Microsoft Edge
- 版本 123.0.2420.81 (正式版本) (64 位)
笔记本:
- 版本 Windows 11 家庭中文版
- 版本 21H2
- 操作系统版本 22000.2538
- 体验 Windows 功能体验包 1000.22001.1000.0
可复现性: 是偶发,在测试过程中,发现通义千问在处理数学计算时,存在一定的偏差,导致计算结果不正确。
具体复现步骤:询问通义千问一些比较复杂的数学计算
询问稍微复杂的国债计算题目,通义会搞不懂逻辑关系,导致计算错误
可能成因: AI模型在处理复杂的金融计算时,如果训练数据不充分或推理能力不足,可能会误解某些专业术语或者利息计算方式。例如,它可能将利率当作单利计算而不是复利,或者对年利率在不同年度的变化处理不当。
严重性: ⭐ ⭐
结果错误,可能导致严重后果,不太能相信计算结果。
预期正确结果:
建议:
- 1.优化公式推理能力:建议通义在处理金融问题时,确保其使用正确的复利计算公式,尤其是在跨时间段利率变 化时,确保能够正确应用累积本息的再投资计算。
2.加强对金融领域的专门训练:通过增加对复杂金融问题的训练数据集,确保AI模型能够理解不同金融产品(如国库券、定期存款)利息计算的细微差异,特别是复利、单利以及不同时间段的利率变化。
3.引入精度控制机制:在关键的计算步骤中引入小数点精度控制,避免因精度丢失或舍入导致的累计误差。
4.用户反馈机制:建议通义引入用户反馈系统,让用户在遇到问题时能够直接反馈具体的计算步骤或错误,从而改进模型在金融计算上的准确性。
d) 好,不错
定性结论:相比于文心一言来说,通义在用户体验,界面舒适度,语言理解和回答上更加智能,更能理解用户的需求,但存在一些问题,如数学计算能力有限,需要持续优化。
维度 | 子项 | 评分标准 | 得分 |
---|---|---|---|
内容生成质量 (30分) | 流畅性和连贯性 | 逻辑清晰、语句通顺 | 10 |
主题理解与创意 | 理解多种领域,有时偏差 | 8 | |
信息准确性 | 出现史实混淆和错误生成 | 5 | |
创新能力 (20分) | 主题生成能力 | 快速生成跨领域内容,有偏差 | 9 |
独特性与灵感激发 | 丰富素材,积极帮助 | 10 | |
合规性与价值观 (20分) | 遵守法规与道德 | 严格遵循,积极避免不良内容 | 10 |
传递正能量 | 积极健康形象 | 10 | |
用户体验 (20分) | 交互便捷性 | 提问字数限制 | 3 |
错误修正反应 | 知错未有效修正 | 2 | |
用户满意度 | 流畅性与创意,准确性问题 | 7 | |
稳定性与可靠性 (10分) | 一致性与准确度 | 内容重复与理解偏差 | 2 |
系统稳定性 | 推测常规稳定 | 4 | |
总分 | 80 |
文心一言
阶段 | 预估时间 |
---|---|
需求分析 | 4周 |
技术选型 | 2周 |
数据收集与预处理 | 6周 |
模型训练与优化 | 12周 |
后端开发 | 12周 |
前端开发 | 8周 |
集成与部署 | 4周 |
测试与调试 | 4周 |
用户反馈与优化 | 持续进行 |
通义千问
阶段 | 预估时间 |
---|---|
需求分析 | 4周 |
技术选型 | 2周 |
数据收集与预处理 | 6周 |
模型训练与优化 | 16周 |
后端开发 | 8周 |
前端开发 | 10周 |
集成与部署 | 4周 |
测试与调试 | 4周 |
用户反馈与优化 | 持续进行 |
大模型 | 优点 | 缺点 |
---|---|---|
通义千问 | 响应速度快,交互性好,实时调整能力强 | 数学计算精度有限,知识更新滞后,训练数据偏差影响输出质量 |
文心一言 | 生成内容流畅,主题理解广泛,严格遵守道德和法律规范 | 在复杂语境下理解偏差,长篇文章生成时重复度高,字数限制影响表达 |
GPT-4 | 语言理解能力强,覆盖领域广泛,逻辑推理能力优秀 | 处理最新数据时偶尔滞后,生成内容有时冗长,访问成本较高 |
Kimi | 定制化灵活,集成特定领域知识,个性化输出能力强 | 推广程度较低,训练数据量相对较少,领域外知识覆盖有限 |
优化算法模块的解耦:
引入更强的并行处理机制:
改进模型的测试和评估体系:
实时知识更新架构:
改进长文本生成的缓存与优化机制:
优化内存和资源管理:
增强人机交互设计:
多场景适配与扩展:
文心一言 文心一言的训练数据可能来源于各种渠道,如果这些数据中存在错误、噪声或不准确的信息,就可能导致其生成的画作与要求不符。
通义千问 AI模型在处理复杂的金融计算时,如果训练数据不充分或推理能力不足,可能会误解某些专业术语或者利息计算方式。例如,它可能将利率当作单利计算而不是复利,或者对年利率在不同年度的变化处理不当。
目前,AI 大模型市场的需求不断增长,尤其是在自然语言处理、生成式 AI 等领域。根据市场研究,全球人工智能市场规模在2024年预计将达到3000亿美元,而其中语言大模型应用的市场份额也在快速上升。具体到中国,随着技术的发展和企业需求的增加,通义千问和文心一言这样的本土大模型产品迎来了显著增长空间。
目前国内市场上已有多款大模型产品,通义千问和文心一言是代表性产品,而国际上 GPT-4 等产品在全球范围内影响力较大。
当前,AI 大模型行业处于 成长 阶段。随着技术的成熟和市场需求的爆发,未来几年大模型将有持续的增长空间。
用户之间的关系紧密,特别是在开发者社区中存在广泛的技术交流和资源共享。通过技术社区的互动,有可能形成一个更为活跃的用户生态,推动更多用户参与反馈和模型优化。
通义千问和文心一言还可以通过扩展子产品(如 API 接口、集成开发工具)形成更广泛的生态系统。通过对接不同领域的产品(如企业管理系统、内容管理平台等),能够构建出更为完善的 AI 应用生态。