[完结20周]LLM应用开发平台特训营

munagdyaa 2025-03-25 15:38:38


 

首先,LLM 全称是 Large Language Model,即大语言模型,其参数量较大,一般的70 亿以上参数的模型占用约 28G 存储,直观来说就是有一堆28G浮点数(训练得到)作为权重参数的函数可拷入 U 盘就能带走大模型本体。实现方式简单来说就是设计一个极大的非线性函数进行拟合计算,它们会接收你提供的一些文本作为输入,并猜测下一个出现概率最大的词(更准确地说,下一个token)是什么。

Token 和词表:Token 是文本的片段,也是 LLM 理解的文本基本单位,语言模型有一个词表,包括 token 列表及对应的 id,词表大小因语言不同而不同,多语言词表往往有几万个 token 甚至更多。例如GPT-2的词汇表就有50257个token,LLM 词汇中的每个 Token 都有一个唯一的标识符

一、LLM (大型语言模型)都有哪些潜在应用场景?
1.聊天机器人与虚拟助手:LLM可以作为聊天机器人和虚拟助手的核心,为用户提供自然、连贯的对话体验。
2.内容创作:LLM可以自动生成文章、新闻报道、广告文案、诗歌、小说等文本内容。
3.教育与辅导:在教育领域,LLM可以用于辅助教学、自动批改作业、提供学习建议等。
4.编程辅助:LLM能够帮助开发者自动生成代码、修复bug、提高编程效率。
5.科学研究:LLM在科研领域可以帮助进行文献分析、实验设计、趋势预测等。
6.语言翻译:LLM可以用于机器翻译,帮助用户跨越语言障碍。
7.文本摘要:LLM可以自动生成文章或报告的摘要,帮助用户快速获取信息。

二、大语言模型的涌现能力
LLM 的涌现能力被定义为“小型模型中不存在但大型模型中产生的能力”,是区别于先前 PLM 的显著特征之一。介绍 LLM 的三种典型涌现能力及代表性模型:

1. 上下文学习:ICL 能力由 GPT-3 引入,若提供自然语言指令和/或任务演示,模型可生成预期输出,无需额外训练或梯度更新。1750 亿的 GPT-3 有此能力,GPT-1 和 GPT-2 无。

2. 指令遵循:通过指令微调,LLM 在未见过的指令任务上表现出色,有更好泛化能力。680 亿的 LaMDA-PT 经指令微调后在未见过任务上优于未微调模型,80 亿或更小则不然。

3. 逐步推理:小型语言模型难解决多推理步骤任务,而 LLM 可用 CoT 提示策略解决,可能通过在代码上训练获得。实证研究表明,大于 600 亿的 PaLM 和 LaMDA 变体用 CoT 提示可提高算术推理基准任务性能,大于 1000 亿优势更明显。

 

 

...全文
264 回复 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

125,952

社区成员

发帖
与我相关
我的任务
社区描述
世界上没有做不到的事,只有不想做的事。
AI写作AI编程AIGC 技术论坛(原bbs) 北京·朝阳区
社区管理员
  • 默语佬
  • 猫头虎
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧