322
社区成员




论文:Boosting Continual Learning of Vision-Language Models Via Mixture-of-Experts Adapters
随着人工智能领域的发展,大规模视觉语言模型(VLM)在理解开放世界方面取得了显著进展。然而,这些模型通常需要大量的计算资源进行训练,并且无法持续学习新知识,这限制了它们的应用范围。持续学习(CL)技术允许模型在不访问完整历史数据集的情况下持续获取新知识,但面临着灾难性遗忘的挑战。本文将探讨如何利用混合专家适配器(MoE-Adapters)和分布判别自动选择器(DDAS)来提升视觉语言模型的持续学习能力。
持续学习面临着以下挑战:
相关工作:
文章提出了以下方法:
1. 混合专家适配器 (MoE-Adapters)
1.1 适配器作为专家
传统的 MoE 模型通常将 MLP 或注意力头作为专家,但这些专家通常包含大量参数,导致计算负担过重。为了解决这个问题,本文使用 LoRA 适配器作为 MoE 中的专家。
LoRA 适配器通过将原始模型参数解耦成低秩可训练空间,从而减少可训练参数的数量,并提高模型对下游任务的适应速度。在 MoE-Adapters 中,每个 Transformer 块的输出特征将被传递到所有专家中,并通过路由器进行加权求和,从而得到最终输出。
1.2 增量混合专家
传统的 MoE 模型通常使用一个全局路由器来选择最相关的专家,这限制了模型对新任务的适应性。为了解决这个问题,本文使用增量混合专家架构,为每个新任务添加一个任务特定的路由器。
任务特定的路由器将根据当前任务的输入数据选择最相关的专家。这允许模型根据不同任务的需求动态地选择专家,从而提高模型的适应性和效率。
1.3 增量激活-冻结策略
为了保留模型对历史任务的知识,并促进专家之间的协作,本文提出了增量激活-冻结策略。
在训练过程中,模型会根据每个任务的路由器输出计数,并冻结最活跃的专家。这允许模型保留对历史任务的知识,并避免灾难性遗忘。同时,模型会优化未冻结的专家,以学习新任务的知识。这促进了专家之间的协作,并提高了模型的长期记忆能力。
2. 分布判别自动选择器 (DDAS)
传统的 MoE 模型需要手动指定任务标识来激活相应的路由器,这限制了模型的灵活性和实用性。为了解决这个问题,本文提出了 DDAS。
DDAS 包含一系列任务特定的自动编码器,用于捕获每个任务的分布特征。自动编码器通过最小化输入数据与重建数据之间的均方误差来训练。
在测试阶段,DDAS 会计算每个任务的分布得分,并根据得分将输入数据分配给 MoE-Adapters 或原始 CLIP。如果所有得分都低于阈值,则将输入数据分配给原始 CLIP 进行零样本迁移。否则,将输入数据分配给具有最低分布得分的任务的路由器。
3. 训练过程
MoE-Adapters 和 DDAS 的训练过程如下:
总结
MoE-Adapters 和 DDAS 为视觉语言模型的持续学习提供了一种新的思路,有效地解决了灾难性遗忘和计算负担问题,并保留了模型的零样本迁移能力。该框架在参数效率和性能方面都优于现有技术,为视觉语言模型的持续学习提供了新的可能性。