保护大模型隐私安全,摩斯获NeurIPS顶会“2024大模型隐私挑战赛赛道冠军”

蚂蚁摩斯隐私计算论坛 2024-11-28 11:08:13

开篇

近日,第三十八届神经信息处理系统年会(NeurIPS 2024)特设官方赛——大语言模型隐私挑战赛(LLM-PC)落幕。摩斯联合浙江大学计算机体系结构实验室陈文智、魏成坤团队共9人组成了“Morse & ARCLab”参赛队伍,荣获该赛事全部两个赛道中攻击赛道的冠军防御赛道的最佳实用防御奖。赛题聚焦大语言模型训练数据的隐私安全,有助于推动整个领域向构建更加安全、可靠的AI系统目标前进,冠军方案也代表着当前业界领先技术。  

图片

图片

 

赛事信息

NeurIPS是机器学习领域三大顶级国际会议之一,也是中国计算机学会A类推荐会议。本次特设竞赛于2024年7月底开始,由加州大学伯克利分校、德州大学奥斯汀分校、伊利诺伊大学厄巴纳-香槟分校、新加坡国立大学、Center for AI Safety等高校与机构联合命题组织,吸引来自数十个国家超30支队伍参与角逐。本次参赛者的任务是设计与实现创新解决方案,从下游模型中窃取训练数据中的隐私设计隐私保护的训练方法

图片

 

赛题方案介绍

在攻击赛道中,我们通过查询目标模型来构建提示语,促使其为每个掩盖的个人可识别信息(PII)生成候选回应,并计算其损失值,再用自我提示候选提取和基于损失的贪心搜索,选择损失值最低的候选作为最终输出。这种基于分段与聚合的损失计算方法,以加速候选项的选择过程。我们的方法在比赛提供的Llama3.1-8B模型上可以达到0.233的攻击成功率

在防御赛道中,我们利用数据脱敏与合成技术,对包含PII的语料进行随机替换,之后以自回归的方式微调目标模型,可以扰乱大模型对PII信息的记忆,降低其输出正确PII的可能,防止隐私数据泄漏。该方案使主办方提供的攻击方法成功率相对降低30.6%,同时在MMLU和TruthfulQA等基准数据集上的结果也表明该方法对模型性能几乎没有损耗。

 

产业应用

解决数据和模型的隐私安全问题,是大模型在产业界尤其是金融行业落地的重要课题。结合比赛同款方案,摩斯研发了大模型隐私保护产品,该产品融合数据脱敏、拆分学习、模型混淆、差分隐私、TEE等多种技术路线,实现大模型落地应用中的模型微调、推理全链路数据和模型隐私保护。

在行业应用方面,摩斯大模型隐私保护产品已在银行、证券等多个行业落地推进中。目前已应用在网商银行农业助贷场景,利用摩斯的大模型隐私保护技术融合多方时空大数据,共建“密态时空大模型”,进行行内农户贷款风险评估,进一步提升种植户金融放款效率和满意度。

 

持续技术创新,摩斯仍在加速!

欢迎与行业伙伴进行业务共创、产业落地合作!

 

关注我,获取更多资讯~

 

...全文
1058 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
内容概要:本文系统介绍了C语言在底层系统编程与数据结构工程化实现中的核心技术,同时融合了现代Web开发中TypeScript类型系统与全栈项目架构设计。C语言部分聚焦操作系统接口调用、内存管理、文件操作与进程控制,深入讲解指针、动态内存分配、结构体与位运算,并通过实现简易shell、日志系统等工具强化实践能力;数据结构部分涵盖链表、栈、队列、哈希表、二叉树与图结构的C语言实现,结合时间与空间复杂度分析,应用于缓存系统、路径搜索等实际场景,并引入内存池优化频繁分配问题。TypeScript部分强调静态类型在提升代码可靠性中的作用,讲解基础类型、泛型、交叉与联合类型、条件类型等,并通过DTO与接口类型保障前后端数据一致性。全栈项目基于React/Vue + Node.js架构,实现RESTful API、JWT认证、统一响应结构,并结合ORM进行数据库操作,完成用户系统、权限管理与任务管理系统等实战项目。同时强调工程化建设,包括代码规范、单元测试、CI/CD及Docker容器化部署。; 适合人群:具备C语言和JavaScript基础,有一定编程经验,希望深入系统编程或向全栈工程师发展的1-3年开发者;; 使用场景及目标:①掌握C语言在系统级开发中的核心应用,如内存管理与系统调用;②实现常用数据结构并应用于工程场景;③构建类型安全的全栈项目,提升前后端协同开发效率;④建立完整的软件工程化能力体系; 阅读建议:学习过程中应结合代码实践,动手实现各类数据结构与系统工具,同步搭建全栈项目,配置工程化工具链,注重理论与实际项目的深度融合。
内容概要:本文介绍了脚本自动化运维在芯片行业中应用于EDA工具链的实战项目,重点解决工具配置、许可证管理与仿真任务调度等效率瓶颈问题。通过构建Bash与Python混合的自动化脚本系统,实现License动态调度、仿真任务并行化、断点续跑及版本兼容性处理,显著提升资源利用率与设计效率。典型案例如License调度脚本通过监控进程活跃度回收闲置许可,结合Flask API实现服务化查询与CI/CD集成,使工程师等待时间从4小时降至15分钟,License利用率提升至89%,并在7nm GPU项目中节约千万级成本。文章还展望了多云调度、AI预测与开源EDA适配等未来方向。; 适合人群:芯片设计工程师、EDA工具运维人员、自动化脚本开发者,以及具备Python/Bash基础的半导体行业技术人员;; 使用场景及目标:①优化高成本EDA许可证的分配与回收,提升资源利用率;②实现大规模仿真任务的自动编排与容错执行;③将自动化脚本嵌入CI/CD流程,支撑高频次验证与签核需求;④降低流片周期与研发成本,加速国产芯片研发进程; 阅读建议:此资源强调工程实践与系统思维的结合,建议读者在掌握基本脚本语法基础上,重点关注异常处理、权限控制、日志审计等生产级设计细节,并尝试将其方案迁移至实际EDA流程中进行调试与优化。

51,409

社区成员

发帖
与我相关
我的任务
社区描述
Java相关技术讨论
javaspring bootspring cloud 技术论坛(原bbs)
社区管理员
  • Java相关社区
  • 小虚竹
  • 谙忆
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧