摩斯营销科技大模型方向论文被顶会AAAI录用

蚂蚁摩斯隐私计算论坛 2025-02-19 18:28:34

近日,国际人工智能顶级学术会议AAAI 2025放榜,摩斯团队在大模型隐私微调方向论文被该会议录用!

要让大模型适应各不一样的下游任务,微调必不可少。常规的中心化微调过程需要模型和数据存在于同一位置 —— 要么需要数据所有者上传数据(这会威胁到数据所有者的数据隐私),要么模型所有者需要共享模型权重(这又可能泄露自己花费大量资源训练的模型)。此外,在第二种情况下,模型的参数可能暴露,这可能会增加其微调模型受到攻击的可能性。这些问题都可能阻碍 LLM 的长期发展。

为了有效地保护模型所有权和数据隐私,浙江大学、蚂蚁数科、利物浦大学和华东师范大学的朱建科与王维团队提出了一种全新的跨域微调(offsite-tuning)框架:ScaleOT。该框架可为模型隐私提供多种不同规模的有损压缩的仿真器,还能促进无损微调(相比于完整的微调)。该研究论文已被人工智能顶会 AAAI 2025 录用。第一作者为姚凯(蚂蚁摩斯高级算法工程师,浙大博后),通讯作者为朱建科教授与王维老师。

 

图片

  • 论文标题:ScaleOT: Privacy-utility-scalable Offsite-tuning with Dynamic LayerReplace and Selective Rank Compression

  • 论文地址:https://arxiv.org/pdf/2412.09812

 

原生跨域微调的不足之处

 

如下图 2(b) 所示,跨域微调(OT)不是使用完整的模型进行训练,而是允许数据所有者使用模型所有者提供的有损压缩仿真器进行微调,但这种范式有个缺点:会让数据所有者得到的仿真器的性能较差。然后,训练得到的适配器会被返回给模型所有者,并被插入到完整模型中,以创建一个高性能的微调模型。特别需要指出,数据所有者和模型所有者端之间的模型性能差异是模型隐私的关键因素,这会促使下游用户使用微调的完整模型。

 

图片

因此,跨域微调的主要难题在于高效压缩 LLM,通过在维持性能差异的同时提升微调的完整模型,从而实现对模型隐私的保护。

遵循跨域微调策略,原生 OT 方法采用的策略是 Uniform LayerDrop(均匀层丢弃),从完整模型中均匀地删除一部分层,如图 3(a)所示。

 

图片

图 3:分层压缩策略比较。(a)Uniform LayerDrop;(b)带估计的重要性分数的 Dynamic LayerDrop;(c)带协调器的 Dynamic LayerReplace;(d)使用不同压缩比的结果。新方法在所有者端实现了更好的性能,同时保持了性能差异。

然而,尽管大型模型中的许多参数是冗余的,但每层的重要性差异很大,这种均匀删除可能会导致适应后的完整模型的性能下降。此外,直接的层删除会导致被删除层的输入和输出隐藏空间之间错位,这也会导致所有者端的性能下降。虽然知识蒸馏可以缓解这个问题,但训练一个所需的仿真器的成本至少是 LLM 大小的一半,这意味着巨大的训练成本为提供具有不同压缩比的仿真器带来了重大缺陷。

 

摩斯ScaleOT跨域微调方案的独特之处

 

如上图 2 (c) 所示,该框架由两个阶段组成:重要性估计和仿真器生成。

对于第一阶段,摩斯团队提出了一种基于重要性感知型层替换的算法 Dynamic LayerReplace,该算法需要使用一种强化学习方法来确定 LLM 中每一层的重要性。同时,对于不太重要的层,动态选择并训练一组可训练的协调器作为替代,这些协调器是轻量级网络,可用于更好地实现剩余层的对齐。

在第二阶段,根据学习到的重要性得分,可将原始模型层及其对应的协调器以各种方式组合到一起,从而得到仿真器(emulator),同时还能在模型所有者端维持令人满意的性能,如图 3 (d) 所示。

他们根据实践经验发现,如果使用秩分解来进一步地压缩剩余的模型层,还可以更好地实现隐私保护,同时模型的性能下降也不会太多。基于这一观察,摩斯团队提出了选择性秩压缩(SRC)方法。

摩斯团队进行了大量实验,涉及多个模型和数据集,最终证明新提出的方法确实优于之前的方法,同时还能调整压缩后仿真器模型的大小以及 SRC 中的秩约简率。因此,这些新方法的有效性和可行性都得到了验证。

 

总结起来,摩斯团队的这项研究做出了三大贡献:

  • 提出了一种灵活的方法,可为跨域微调得到多种大小的压缩版模型:提出了一种重要性感知型有损压缩算法 Dynamic LayerReplace,该算法面向使用 LLM 的跨域微调,可通过强化学习和协调器来扩展仿真器。这些组件可以实现灵活的多种规模的压缩模型生成。

  • 仅需一点点微调性能下降,就能通过进一步的压缩获得更好的隐私:新提出的选择性秩压缩策略仅需少量性能损失就能进一步提升模型隐私。

  • 全面的实验表明,新提出的 ScaleOT 优于当前最佳方法。

 

这种新的大模型跨域微调算法,设计了重要性感知的动态层替换模型压缩方法,有效攻克了在仿真器生成时计算复杂度高、模型隐私安全性不足等难题,为大模型隐私微调方向提供了新颖的思路与解决方案。  

 

这一全新的大模型隐私微调算法,现已融入摩斯大模型隐私保护产品。该产品融合多种技术路线,实现大模型落地应用中的模型微调、推理全链路数据和模型隐私保护,并成为首批通过信通院大模型可信执行环境产品专项测试的产品之一。目前摩斯大模型隐私保护产品已在银行、证券等多个行业落地推进中。在某银行农业助贷场景,利用摩斯的大模型隐私保护技术融合多方时空大数据,共建“密态时空大模型”,进行行内农户贷款风险评估,进一步提升种植户金融放款效率和满意度。

 

摩斯营销科技持续创造行业价值

 

目前摩斯隐私计算产品已在上百家银行等金融机构部署使用,全行业已部署300多家,建立以隐私计算节点网络连接的资源网络,包含数据源和流量场景的资源网络。在营销场景下,可以帮助企业实现公私域客群安全打通,帮助企业制定全生命周期的客群经营增长策略。  

  • 在金融机构营销场景,摩斯通过隐私计算技术,可以打通机构公私域客群,进行客群一体化分析;通过多方资源连接,共建密态模型,进行用户洞察分析,帮助机构制定拉新、促活、召回全生命周期客群经营增长策略;通过摩斯营销平台连接支付宝、饿了么等数十个流量平台,帮助机构进行自助化、智能化营销投放。

  • 针对银行卡用户,我们提供全生命周期的营销服务,在发卡、绑卡、促活等各阶段,采用隐私计算技术安全合规使用多方数据来实现精准营销。

 

未来,摩斯也将持续投入隐私智能领域,在大模型安全、互联互通等技术难题上持续突破,并通过摩斯隐私计算产品安全连接全渠道分布式的流量场景平台、数据源等,助力数据安全流通与价值释放,提升客群分析与精准营销服务能力。

 

关注我,获取更多资讯~

...全文
360 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
特等奖标准成品论文(Word无水印纯净版) 硬核结构:全文包含完整的摘要、问题重述与分析、模型假设、符号说明、模型建立与求解、灵敏度分析及结论。 即插即用:排版严格遵循官方规范,逻辑严密。拿到手即可作为绝佳的高分参考模板,稍作替换与个性化润色即可极速完稿,彻底解决写论文难的痛点。 双源硬核解题代码(Python与MATLAB双版本) 拒绝假代码:提供底层逻辑清晰、模块化设计的全套可运行源码。 全流程覆盖:涵盖从前期数据清洗预处理,到中期核心数学模型训练,再到后期启发式算法寻优。 傻瓜式运行:代码自带详尽的逐行中文注释,并支持一键生成高质量结果可视化图表,编程小白也能轻松复现与二次开发。 全量数据与结果展示表 所有中间处理数据、模型输出参数以及最终结论,均已精细整理成高质量表格。直观呈现性能评估指标与多模型对比分析,可直接作为论文正文或附件使用,极大提升学术说服力。 独家硬核思路解析 深入浅出剖析出题人意图,详细拆解每一小问的数学本质与底层逻辑,让你不仅知其然更知其所以然。 【四大核心产品优势】 高效实用:所有代码与论文均经过严格测试,确保结果精准无误、完全可复现,省去熬夜试错的时间。 全栈覆盖:从思路分析到跑出结果,再到写出高质量论文,提供一站式全流程资料矩阵。 排版辅助:资料内提供专业的论文排版一键转换工具与官方标准模板,告别格式调整的繁琐。 持续迭代:网盘直发,开赛后资料库将持续滚动更新,所有用户均可免费同步获取最新包。 【适用人群】 想要打破建模瓶颈的参赛队长与主攻手;急需高质量底层代码的编程小白;目标直指特等奖需要高分模板对标的精英团队。
内容概要:本文围绕分布式光伏储能系统的优化配置方法展开,重点基于Matlab代码实现系统建模与仿真分析,涵盖光伏出力不确定性、负荷响应特性及储能充放电行为的综合建模。通过引入改进鲸鱼优化算法、粒子群算法等智能优化算法,解决系统容量配置、能量管理策略与多目标优化调度等问题,旨在提升系统运行效率、降低能耗成本并延长设备使用寿命。研究内容还包括并网与离网模式下的经济性对比、微电网能量优化管理、储能配置方案评估,并提供完整的Matlab代码、数据集及论文撰写模板,支持科研成果的高效产出。; 适合人群:具备电力系统、新能源技术或自动化等相关专业背景,熟悉Matlab/Simulink仿真环境的研究生、科研人员及工程技术人员;特别适用于计划撰写EI/SCI期刊论文的高层次研究人员。; 使用场景及目标:①开展分布式光伏储能系统配置的科研课题与学术论文撰写;②实现微电网能量管理系统的设计与优化调度算法验证;③掌握基于Matlab的多目标优化建模方法,提升在新能源系统规划与运行领域的科研创新能力。; 阅读建议:建议结合提供的Matlab代码与Simulink模型进行动手实践,重点关注优化算法的实现逻辑与参数调优过程,按照文档目录循序渐进学习,构建完整的知识体系,并参考配套论文模板完成研究成果的规范化输出。

10,047

社区成员

发帖
与我相关
我的任务
社区描述
宁可累死自己,也要卷死别人。
后端架构分布式 个人社区 河南省·郑州市
社区管理员
  • 不会压弯的小飞侠
  • Code Writers
  • 心皿月
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧