通过专家混合适配器提升视觉语言模型的持续学习

持续学习多模态大模型 2025-06-18 10:22:45

论文:Boosting Continual Learning of Vision-Language Models Via Mixture-of-Experts Adapters 

随着人工智能领域的发展,大规模视觉语言模型(VLM)在理解开放世界方面取得了显著进展。然而,这些模型通常需要大量的计算资源进行训练,并且无法持续学习新知识,这限制了它们的应用范围。持续学习(CL)技术允许模型在不访问完整历史数据集的情况下持续获取新知识,但面临着灾难性遗忘的挑战。本文将探讨如何利用混合专家适配器(MoE-Adapters)和分布判别自动选择器(DDAS)来提升视觉语言模型的持续学习能力。

持续学习面临着以下挑战:

  • 灾难性遗忘: 当模型学习新任务时,往往会忘记之前学到的知识。
  • 计算负担: 对整个模型进行微调需要大量的计算资源,限制了持续学习的效率。
  • 零样本迁移能力: 传统的持续学习方法无法区分新数据和老数据,导致模型无法对新数据进行零样本迁移。

 

相关工作:

  • 持续学习: 现有的持续学习方法主要分为基于记忆、基于正则化和基于动态扩展的方法。基于记忆的方法通过存储历史数据来保留知识,但内存消耗大。基于正则化的方法通过在模型参数或数据上添加正则项来平衡新旧任务,但效果有限。基于动态扩展的方法通过增量地添加新参数来扩展模型,但会导致模型规模过大。
  • 参数高效微调: 参数高效微调方法通过微调少量参数来适应下游任务,从而降低计算负担。例如,LoRA 和 Compacter 等方法在自然语言处理领域取得了成功,并被应用于视觉语言模型。
  • 混合专家: 混合专家(MoE)是一种多任务学习技术,它包含多个专家和一个路由网络。MoE 通过路由网络将输入数据分配给最相关的专家,从而提高模型效率和表达能力。

 

文章提出了以下方法:

1. 混合专家适配器 (MoE-Adapters)

1.1 适配器作为专家

传统的 MoE 模型通常将 MLP 或注意力头作为专家,但这些专家通常包含大量参数,导致计算负担过重。为了解决这个问题,本文使用 LoRA 适配器作为 MoE 中的专家。

LoRA 适配器通过将原始模型参数解耦成低秩可训练空间,从而减少可训练参数的数量,并提高模型对下游任务的适应速度。在 MoE-Adapters 中,每个 Transformer 块的输出特征将被传递到所有专家中,并通过路由器进行加权求和,从而得到最终输出。

1.2 增量混合专家

传统的 MoE 模型通常使用一个全局路由器来选择最相关的专家,这限制了模型对新任务的适应性。为了解决这个问题,本文使用增量混合专家架构,为每个新任务添加一个任务特定的路由器。

任务特定的路由器将根据当前任务的输入数据选择最相关的专家。这允许模型根据不同任务的需求动态地选择专家,从而提高模型的适应性和效率。

1.3 增量激活-冻结策略

为了保留模型对历史任务的知识,并促进专家之间的协作,本文提出了增量激活-冻结策略。

在训练过程中,模型会根据每个任务的路由器输出计数,并冻结最活跃的专家。这允许模型保留对历史任务的知识,并避免灾难性遗忘。同时,模型会优化未冻结的专家,以学习新任务的知识。这促进了专家之间的协作,并提高了模型的长期记忆能力。

2. 分布判别自动选择器 (DDAS)

传统的 MoE 模型需要手动指定任务标识来激活相应的路由器,这限制了模型的灵活性和实用性。为了解决这个问题,本文提出了 DDAS。

DDAS 包含一系列任务特定的自动编码器,用于捕获每个任务的分布特征。自动编码器通过最小化输入数据与重建数据之间的均方误差来训练。

在测试阶段,DDAS 会计算每个任务的分布得分,并根据得分将输入数据分配给 MoE-Adapters 或原始 CLIP。如果所有得分都低于阈值,则将输入数据分配给原始 CLIP 进行零样本迁移。否则,将输入数据分配给具有最低分布得分的任务的路由器。

3. 训练过程

MoE-Adapters 和 DDAS 的训练过程如下:

  1. MoE-Adapters 训练: 使用目标任务的数据训练 MoE-Adapters,并应用增量激活-冻结策略来保留历史任务的知识。
  2. DDAS 训练: 使用参考数据集训练任务特定的自动编码器,并使用目标任务的数据微调 MoE-Adapters 和 DDAS。
  3. 联合训练: 在持续学习过程中,MoE-Adapters 和 DDAS 联合训练,以保持模型性能。

总结

MoE-Adapters 和 DDAS 为视觉语言模型的持续学习提供了一种新的思路,有效地解决了灾难性遗忘和计算负担问题,并保留了模型的零样本迁移能力。该框架在参数效率和性能方面都优于现有技术,为视觉语言模型的持续学习提供了新的可能性。

...全文
107 回复 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

322

社区成员

发帖
与我相关
我的任务
社区描述
本社区由西南大学与云从科技联合发起并运营,旨在打造一个开放、前沿、务实的知识共享与交流平台,专注多模态大模型及持续学习关键技术,聚集领域内的开发者、研究人员与爱好者,共同分享资源、推动技术进步与创新。
人工智能神经网络计算机视觉 企业社区
社区管理员
  • 持续学习多模态大模型
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧