125,952
社区成员




首先,LLM 全称是 Large Language Model,即大语言模型,其参数量较大,一般的70 亿以上参数的模型占用约 28G 存储,直观来说就是有一堆28G浮点数(训练得到)作为权重参数的函数可拷入 U 盘就能带走大模型本体。实现方式简单来说就是设计一个极大的非线性函数进行拟合计算,它们会接收你提供的一些文本作为输入,并猜测下一个出现概率最大的词(更准确地说,下一个token)是什么。
Token 和词表:Token 是文本的片段,也是 LLM 理解的文本基本单位,语言模型有一个词表,包括 token 列表及对应的 id,词表大小因语言不同而不同,多语言词表往往有几万个 token 甚至更多。例如GPT-2的词汇表就有50257个token,LLM 词汇中的每个 Token 都有一个唯一的标识符
一、LLM (大型语言模型)都有哪些潜在应用场景?
1.聊天机器人与虚拟助手:LLM可以作为聊天机器人和虚拟助手的核心,为用户提供自然、连贯的对话体验。
2.内容创作:LLM可以自动生成文章、新闻报道、广告文案、诗歌、小说等文本内容。
3.教育与辅导:在教育领域,LLM可以用于辅助教学、自动批改作业、提供学习建议等。
4.编程辅助:LLM能够帮助开发者自动生成代码、修复bug、提高编程效率。
5.科学研究:LLM在科研领域可以帮助进行文献分析、实验设计、趋势预测等。
6.语言翻译:LLM可以用于机器翻译,帮助用户跨越语言障碍。
7.文本摘要:LLM可以自动生成文章或报告的摘要,帮助用户快速获取信息。
二、大语言模型的涌现能力
LLM 的涌现能力被定义为“小型模型中不存在但大型模型中产生的能力”,是区别于先前 PLM 的显著特征之一。介绍 LLM 的三种典型涌现能力及代表性模型:
1. 上下文学习:ICL 能力由 GPT-3 引入,若提供自然语言指令和/或任务演示,模型可生成预期输出,无需额外训练或梯度更新。1750 亿的 GPT-3 有此能力,GPT-1 和 GPT-2 无。
2. 指令遵循:通过指令微调,LLM 在未见过的指令任务上表现出色,有更好泛化能力。680 亿的 LaMDA-PT 经指令微调后在未见过任务上优于未微调模型,80 亿或更小则不然。
3. 逐步推理:小型语言模型难解决多推理步骤任务,而 LLM 可用 CoT 提示策略解决,可能通过在代码上训练获得。实证研究表明,大于 600 亿的 PaLM 和 LaMDA 变体用 CoT 提示可提高算术推理基准任务性能,大于 1000 亿优势更明显。