自适应大型语言模型Transformer2的提出与实证研究：基于奇异值细调的高效任务自适应方法

优质创作者: 编程框架技术领域

领域专家: C/C++技术领域

2025-01-16 23:22:40

自适应大型语言模型Transformer2的提出与实证研究：基于奇异值细调的高效任务自适应方法

...全文

41 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

大模型的微调有很多方法，所谓微调是指将一个已经过大规模预训练的模型（如Transformer-based的语言模型）调整以适应特定任务的过程。以下是几种常见的微调方法，每种方法各有特点，适用于不同的场景和资源限制：全微调（Full Fine-tuning）：描述：这是最直接的微调方式，涉及到模型的所有参数都会被更新。预训练模型在特定任务的数据集上进行额外训练，通常采用较小的学习率来避免破坏预训练学到的知识。优点：能充分适应新任务，通常可以获得最佳性能。缺点：需要较多计算资源和时间，且可能会导致过拟合，尤其是

自然语言处理的一个重要范例是对通用领域数据进行大规模预训练，并适应特定任务或领域。随着我们对更大的模型进行预训练，完全微调（重新训练所有模型参数）变得不太可行。以 GPT-3 175B 为例 - 部署经过微调的模型的独立实例（每个实例有 175B 个参数）的成本过高。我们提出了低秩自适应（LoRA），它冻结了预训练的模型权重，并将可训练的秩分解矩阵注入 Transformer 架构的每一层，大大减少了下游任务的可训练参数数量。

一个自然语言处理的重要范例包括在一般领域数据上进行大规模的预训练，然后适应特定任务或领域。随着我们预训练更大的模型，完全微调，即重新训练所有模型参数，变得不太可行。以 GPT-3 175B 为例 - 部署独立的经过微调的模型实例，每个模型有 175B 个参数，是非常昂贵的。我们提出低秩适应（Low-Rank Adaptation，LoRA）它冻结预训练模型的权重，并将可训练的秩分解矩阵注入到 Transformer 架构的每一层中，大大减少了用于下游任务的可训练参数的数量。

自然语言处理的一个重要范例是在一般领域数据上进行大规模预训练，然后适应特定任务或领域。而随着预训练模型越来越大，重新训练所有模型参数的全面微调就变得不可行了。作者提出了低秩自适应技术，可以冻结预训练模型的权重，并将可训练的秩分解矩阵注入Transformer的每一层，从而大大减少下游任务的可训练参数量。与使用Adam进行微调的GPT-3 175B相比，LoRA可将可训练参数量降低10,000倍，GPU内存需求减少3倍。LoRA在RoBERTaDeBERTaGPT-2和GPT-3。

BitFit对微调机制的一种积极探索，也很简单，通过仅调整 bias 效果就能有不错的效果，但没有具体阐述原理，就是通过猜测加实验得到的结果。同时，作者提出一个观点：微调的过程不是让模型适应另外的数据分布，而是让模型更好的应用出本身的表征能力。特点：训练参数量极小（约 0.1%）。在大部分任务上效果会差于 LoRA、Adapter 等方法。在每一个 Transformer 层都带上一些 virtual token 作为前缀，以适应不同的任务。

今天深度学习了吗

32,143

社区成员

152

社区内容

发帖

与我相关

我的任务

人工智能图像处理深度学习个人社区浙江省·杭州市

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章