269,824
社区成员




近日,国际人工智能顶级学术会议AAAI 2025放榜,摩斯团队在大模型隐私微调方向论文被该会议录用!
要让大模型适应各不一样的下游任务,微调必不可少。常规的中心化微调过程需要模型和数据存在于同一位置 —— 要么需要数据所有者上传数据(这会威胁到数据所有者的数据隐私),要么模型所有者需要共享模型权重(这又可能泄露自己花费大量资源训练的模型)。此外,在第二种情况下,模型的参数可能暴露,这可能会增加其微调模型受到攻击的可能性。这些问题都可能阻碍 LLM 的长期发展。
为了有效地保护模型所有权和数据隐私,浙江大学、蚂蚁数科、利物浦大学和华东师范大学的朱建科与王维团队提出了一种全新的跨域微调(offsite-tuning)框架:ScaleOT。该框架可为模型隐私提供多种不同规模的有损压缩的仿真器,还能促进无损微调(相比于完整的微调)。该研究论文已被人工智能顶会 AAAI 2025 录用。第一作者为姚凯(蚂蚁摩斯高级算法工程师,浙大博后),通讯作者为朱建科教授与王维老师。
论文标题:ScaleOT: Privacy-utility-scalable Offsite-tuning with Dynamic LayerReplace and Selective Rank Compression
论文地址:https://arxiv.org/pdf/2412.09812
如下图 2(b) 所示,跨域微调(OT)不是使用完整的模型进行训练,而是允许数据所有者使用模型所有者提供的有损压缩仿真器进行微调,但这种范式有个缺点:会让数据所有者得到的仿真器的性能较差。然后,训练得到的适配器会被返回给模型所有者,并被插入到完整模型中,以创建一个高性能的微调模型。特别需要指出,数据所有者和模型所有者端之间的模型性能差异是模型隐私的关键因素,这会促使下游用户使用微调的完整模型。
因此,跨域微调的主要难题在于高效压缩 LLM,通过在维持性能差异的同时提升微调的完整模型,从而实现对模型隐私的保护。
遵循跨域微调策略,原生 OT 方法采用的策略是 Uniform LayerDrop(均匀层丢弃),从完整模型中均匀地删除一部分层,如图 3(a)所示。
图 3:分层压缩策略比较。(a)Uniform LayerDrop;(b)带估计的重要性分数的 Dynamic LayerDrop;(c)带协调器的 Dynamic LayerReplace;(d)使用不同压缩比的结果。新方法在所有者端实现了更好的性能,同时保持了性能差异。
然而,尽管大型模型中的许多参数是冗余的,但每层的重要性差异很大,这种均匀删除可能会导致适应后的完整模型的性能下降。此外,直接的层删除会导致被删除层的输入和输出隐藏空间之间错位,这也会导致所有者端的性能下降。虽然知识蒸馏可以缓解这个问题,但训练一个所需的仿真器的成本至少是 LLM 大小的一半,这意味着巨大的训练成本为提供具有不同压缩比的仿真器带来了重大缺陷。
如上图 2 (c) 所示,该框架由两个阶段组成:重要性估计和仿真器生成。
对于第一阶段,摩斯团队提出了一种基于重要性感知型层替换的算法 Dynamic LayerReplace,该算法需要使用一种强化学习方法来确定 LLM 中每一层的重要性。同时,对于不太重要的层,动态选择并训练一组可训练的协调器作为替代,这些协调器是轻量级网络,可用于更好地实现剩余层的对齐。
在第二阶段,根据学习到的重要性得分,可将原始模型层及其对应的协调器以各种方式组合到一起,从而得到仿真器(emulator),同时还能在模型所有者端维持令人满意的性能,如图 3 (d) 所示。
他们根据实践经验发现,如果使用秩分解来进一步地压缩剩余的模型层,还可以更好地实现隐私保护,同时模型的性能下降也不会太多。基于这一观察,摩斯团队提出了选择性秩压缩(SRC)方法。
摩斯团队进行了大量实验,涉及多个模型和数据集,最终证明新提出的方法确实优于之前的方法,同时还能调整压缩后仿真器模型的大小以及 SRC 中的秩约简率。因此,这些新方法的有效性和可行性都得到了验证。
总结起来,摩斯团队的这项研究做出了三大贡献:
提出了一种灵活的方法,可为跨域微调得到多种大小的压缩版模型:提出了一种重要性感知型有损压缩算法 Dynamic LayerReplace,该算法面向使用 LLM 的跨域微调,可通过强化学习和协调器来扩展仿真器。这些组件可以实现灵活的多种规模的压缩模型生成。
仅需一点点微调性能下降,就能通过进一步的压缩获得更好的隐私:新提出的选择性秩压缩策略仅需少量性能损失就能进一步提升模型隐私。
全面的实验表明,新提出的 ScaleOT 优于当前最佳方法。
这种新的大模型跨域微调算法,设计了重要性感知的动态层替换模型压缩方法,有效攻克了在仿真器生成时计算复杂度高、模型隐私安全性不足等难题,为大模型隐私微调方向提供了新颖的思路与解决方案。
这一全新的大模型隐私微调算法,现已融入摩斯大模型隐私保护产品。该产品融合多种技术路线,实现大模型落地应用中的模型微调、推理全链路数据和模型隐私保护,并成为首批通过信通院大模型可信执行环境产品专项测试的产品之一。目前摩斯大模型隐私保护产品已在银行、证券等多个行业落地推进中。在某银行农业助贷场景,利用摩斯的大模型隐私保护技术融合多方时空大数据,共建“密态时空大模型”,进行行内农户贷款风险评估,进一步提升种植户金融放款效率和满意度。
目前摩斯隐私计算产品已在上百家银行等金融机构部署使用,全行业已部署300多家,建立以隐私计算节点网络连接的资源网络,包含数据源和流量场景的资源网络。在营销场景下,可以帮助企业实现公私域客群安全打通,帮助企业制定全生命周期的客群经营增长策略。
在金融机构营销场景,摩斯通过隐私计算技术,可以打通机构公私域客群,进行客群一体化分析;通过多方资源连接,共建密态模型,进行用户洞察分析,帮助机构制定拉新、促活、召回全生命周期客群经营增长策略;通过摩斯营销平台连接支付宝、饿了么等数十个流量平台,帮助机构进行自助化、智能化营销投放。
针对银行卡用户,我们提供全生命周期的营销服务,在发卡、绑卡、促活等各阶段,采用隐私计算技术安全合规使用多方数据来实现精准营销。
未来,摩斯也将持续投入隐私智能领域,在大模型安全、互联互通等技术难题上持续突破,并通过摩斯隐私计算产品安全连接全渠道分布式的流量场景平台、数据源等,助力数据安全流通与价值释放,提升客群分析与精准营销服务能力。
关注我,获取更多资讯~