社区
今天深度学习了吗
论文
帖子详情
自适应大型语言模型Transformer2的提出与实证研究:基于奇异值细调的高效任务自适应方法
码流怪侠
音视频领域优质创作者
博客专家认证
2025-01-16 23:22:40
自适应大型语言模型Transformer2的提出与实证研究:基于奇异值细调的高效任务自适应方法
...全文
18
回复
打赏
收藏
自适应大型语言模型Transformer2的提出与实证研究:基于奇异值细调的高效任务自适应方法
自适应大型语言模型Transformer2的提出与实证研究:基于奇异值细调的高效任务自适应方法
复制链接
扫一扫
分享
转发到动态
举报
AI
作业
写回复
配置赞助广告
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
【大
模型
微调】LLM与LoRA:
高效
优化
大型
语言
模型
的秘诀
大
模型
的微调有很多
方法
,所谓微调是指将一个已经过大规模预训练的
模型
(如
Transform
er-based的
语言
模型
)调整以适应特定
任务
的过程。以下是几种常见的微调
方法
,每种
方法
各有特点,适用于不同的场景和资源限制:全微调(Full Fine-tuning):描述:这是最直接的微调方式,涉及到
模型
的所有参数都会被更新。预训练
模型
在特定
任务
的数据集上进行额外训练,通常采用较小的学习率来避免破坏预训练学到的知识。优点:能充分适应新
任务
,通常可以获得最佳性能。缺点:需要较多计算资源和时间,且可能会导致过拟合,尤其是
LORA:
大型
语言
模型
的低秩
自适应
自然
语言
处理的一个重要范式包括在通用领域数据上进行大规模预训练,并适应特定
任务
或领域。随着我们预训练的
模型
越来越大,完全微调(即重新训练所有
模型
参数)变得不太可行。以GPT-3 175B为例——部署独立的微调
模型
实例,每个实例都有1750亿个参数,成本极其高昂。我们
提出
了低秩
自适应
(Low-Rank Adaptation,简称LoRA),该
方法
冻结预训练
模型
的权重,并在
Transform
er架构的每一层中注入可训练的秩分解矩阵,从而大大减少下游
任务
中可训练参数的数量。
(2021|ICLR,LoRA,秩分解矩阵,更少的可训练参数)LoRA:大
语言
模型
的低秩
自适应
一个自然
语言
处理的重要范例包括在一般领域数据上进行大规模的预训练,然后适应特定
任务
或领域。随着我们预训练更大的
模型
,完全微调,即重新训练所有
模型
参数,变得不太可行。以 GPT-3 175B 为例 - 部署独立的经过微调的
模型
实例,每个
模型
有 175B 个参数,是非常昂贵的。我们
提出
低秩适应(Low-Rank Adaptation,LoRA)它冻结预训练
模型
的权重,并将可训练的秩分解矩阵注入到
Transform
er 架构的每一层中,大大减少了用于下游
任务
的可训练参数的数量。
【AIGC】2021-arXiv-LoRA:
大型
语言
模型
的低秩
自适应
自然
语言
处理的一个重要范例是对通用领域数据进行大规模预训练,并适应特定
任务
或领域。随着我们对更大的
模型
进行预训练,完全微调(重新训练所有
模型
参数)变得不太可行。以 GPT-3 175B 为例 - 部署经过微调的
模型
的独立实例(每个实例有 175B 个参数)的成本过高。我们
提出
了低秩
自适应
(LoRA),它冻结了预训练的
模型
权重,并将可训练的秩分解矩阵注入
Transform
er 架构的每一层,大大减少了下游
任务
的可训练参数数量。
LoRA:大
模型
的低秩
自适应
自然
语言
处理的一个重要范例是在一般领域数据上进行大规模预训练,然后适应特定
任务
或领域。而随着预训练
模型
越来越大,重新训练所有
模型
参数的全面微调就变得不可行了。作者
提出
了低秩
自适应
技术,可以冻结预训练
模型
的权重,并将可训练的秩分解矩阵注入
Transform
er的每一层,从而大大减少下游
任务
的可训练参数量。与使用Adam进行微调的GPT-3 175B相比,LoRA可将可训练参数量降低10,000倍,GPU内存需求减少3倍。LoRA在RoBERTaDeBERTaGPT-2和GPT-3。
今天深度学习了吗
25,628
社区成员
140
社区内容
发帖
与我相关
我的任务
今天深度学习了吗
深度学习相关博客和资源~
复制链接
扫一扫
分享
社区描述
深度学习相关博客和资源~
人工智能
图像处理
深度学习
个人社区
浙江省·杭州市
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章