[完结20周]LLM应用开发平台特训营

munagdyaa 2025-03-25 15:38:38

首先，LLM 全称是 Large Language Model，即大语言模型，其参数量较大，一般的70 亿以上参数的模型占用约 28G 存储，直观来说就是有一堆28G浮点数（训练得到）作为权重参数的函数可拷入 U 盘就能带走大模型本体。实现方式简单来说就是设计一个极大的非线性函数进行拟合计算，它们会接收你提供的一些文本作为输入，并猜测下一个出现概率最大的词（更准确地说，下一个token）是什么。

Token 和词表：Token 是文本的片段，也是 LLM 理解的文本基本单位，语言模型有一个词表，包括 token 列表及对应的 id，词表大小因语言不同而不同，多语言词表往往有几万个 token 甚至更多。例如GPT-2的词汇表就有50257个token，LLM 词汇中的每个 Token 都有一个唯一的标识符

一、LLM （大型语言模型）都有哪些潜在应用场景？
1.聊天机器人与虚拟助手：LLM可以作为聊天机器人和虚拟助手的核心，为用户提供自然、连贯的对话体验。
2.内容创作：LLM可以自动生成文章、新闻报道、广告文案、诗歌、小说等文本内容。
3.教育与辅导：在教育领域，LLM可以用于辅助教学、自动批改作业、提供学习建议等。
4.编程辅助：LLM能够帮助开发者自动生成代码、修复bug、提高编程效率。
5.科学研究：LLM在科研领域可以帮助进行文献分析、实验设计、趋势预测等。
6.语言翻译：LLM可以用于机器翻译，帮助用户跨越语言障碍。
7.文本摘要：LLM可以自动生成文章或报告的摘要，帮助用户快速获取信息。

二、大语言模型的涌现能力
LLM 的涌现能力被定义为“小型模型中不存在但大型模型中产生的能力”，是区别于先前 PLM 的显著特征之一。介绍 LLM 的三种典型涌现能力及代表性模型：

1. 上下文学习：ICL 能力由 GPT-3 引入，若提供自然语言指令和/或任务演示，模型可生成预期输出，无需额外训练或梯度更新。1750 亿的 GPT-3 有此能力，GPT-1 和 GPT-2 无。

2. 指令遵循：通过指令微调，LLM 在未见过的指令任务上表现出色，有更好泛化能力。680 亿的 LaMDA-PT 经指令微调后在未见过任务上优于未微调模型，80 亿或更小则不然。

3. 逐步推理：小型语言模型难解决多推理步骤任务，而 LLM 可用 CoT 提示策略解决，可能通过在代码上训练获得。实证研究表明，大于 600 亿的 PaLM 和 LaMDA 变体用 CoT 提示可提高算术推理基准任务性能，大于 1000 亿优势更明显。

...全文