《2025隐私计算实训营|数据要素驱动的隐私计算实践》学习笔记-2

线树图集 2025-05-27 16:52:32

隐私计算全局概览学习笔记

img

一、政策背景与应用驱动

(一)国内政策法规

  1. 《十四五规划》 :2022 年 1 月提出初步建立数据要素市场体系,在保障数据安全和用户隐私前提下,参与数据价值开发。
  2. 《关于构建更加完善的要素市场化配置体制机制的意见》 :2022 年 3 月强调加快培育数据要素市场,加强数据资源整合和安全保护,强化对政务数据、企业商业秘密和个人数据的保护。
  3. 《关于构建数据基础制度更好发挥数据要素作用的意见》 :2022 年 6 月指出数据是新型生产要素,要维护国家数据安全,保护个人信息和商业秘密,促进数据高效流通使用、赋能实体经济。

(二)数据流通与隐私保护的冲突与需求

  1. 政策 & 法规冲突

    • 数据流通相关政策:《十四五数字经济规划》等推动数据要素市场体系建设。
    • 隐私保护相关政策:《网络安全法》《数据安全法》《个人信息保护法》等保障数据安全与隐私。
  2. 应用需求

    • 数据流通需求:机器学习模型联合训练、机器学习预测服务等需要数据流通。
    • 隐私保护诉求:数据作为公司数字资产,具有价值,但不可随意滥用,需保护隐私。

(三)实际应用驱动隐私计算技术

  1. 打破数据孤岛 :实现数据流通,满足实际需求,如机器学习模型联合训练等。
  2. 隐私计算技术应运而生 :在政策法规和隐私保护诉求下,通过技术手段解决数据流通中的隐私问题。

二、数据流通的层次与隐私计算基本概念

(一)数据流通的层次

img

  1. 个人数据的生产融合 :个人用户数据的采集与融合。
  2. 机构数据的开放流通 :机构间数据的共享与流通。
  3. 数据价值流通市场 :数据的买卖,实现数据价值的流通。

(二)隐私计算基本概念

img

  1. 保护原始数据的隐私 :计算过程中确保数据隐私,如计算环境安全性保障,多方交互信息不包含隐私数据信息。
  2. 保护计算结果的隐私 :计算结果无法反推出原始数据信息,非结果拥有方无法获取计算结果信息。
  3. 对计算的正确性、保密性、完整性等进行保护 :确保计算过程和结果的可靠性。

(三)传统隐私计算VS新隐私计算

img

  1. 数据处理与存储方式 :传统隐私计算通常将数据集中存储在单一服务器或数据中心,数据在明文状态下处理,面临较高隐私泄露风险。而新隐私计算方式如隐私保护计算,采用分布式架构分散数据处理,在处理过程中保持数据加密状态,数据可用不可见,减少了中心化存储风险,增强了数据安全性。
  2. 隐私保护程度与数据可用性 :传统隐私计算中的数据脱敏或匿名化处理等手段,虽能保护隐私,但会牺牲部分数据维度,影响数据可用性。新隐私计算方式如联邦学习、多方安全计算等,在保护数据隐私的前提下,可实现数据的联合分析和建模,最大限度地保留数据价值和可用性。

三、隐私计算技术分类与比较

(一)隐私计算技术分类

  1. 可信执行环境(TEE) :利用可信硬件(如 Intel、AMD、ARM)创建安全的飞地(Enclave),保证数据和计算的安全性。其特点包括依赖可信硬件,性能高,通用计算,无损计算精度。但存在可信硬件被攻击、后门等风险。
  2. 差分隐私(DP) :通过加入随机噪声,保证数据在统计分析时的隐私性。其特点是信息泄露可度量,性能高,但计算精度有损,主要用于机器学习领域。
  3. 联邦学习(FL) :在保护数据隐私的前提下,多个参与方联合训练模型。包括数据并行和模型并行两种方式。其特点是信息泄露可度量,性能高,但计算精度有损,通用性较差,主要应用于机器学习领域。
  4. 多方安全计算(MPC) :在多方参与下,共同计算某个函数,同时保证各自的输入隐私不被泄露。其特点是可证明安全性,在特定模型下可严格证明,通用计算,接近无损计算精度,但性能较低(持续提升中)。

(二)隐私计算技术比较

比较维度可信执行环境差分隐私、联邦学习、拆分学习多方安全计算、全同态加密、零知识证明
安全性假设依赖可信硬件存在数据泄露风险,信息泄露上限可度量可证明安全性(在特定模型下可严格证明)
计算精度无损有损接近无损
通用性通用计算机器学习为主通用计算
性能低(持续提升中)

四、隐私计算技术详解

(一)机密计算 —— 基于可信执行环境的隐私计算技术

img

  1. 工作原理 :通过远程认证建立的安全通道,将数据发送给飞地(Enclave),在飞地中集中计算,然后将结果通过安全通道发送给用户。
  2. 优势 :保证执行程序未被篡改,确保在飞地中程序被用户认证、授权,提供高安全性和性能。

(二)差分隐私 —— 密码技术

img

  1. 核心思想 :加入随机噪声,使得统计分析输出的概率分布最多相差一个小的指定值,同时保证计算结果的正确性在一定精度损失条件下。
  2. 应用场景 :在数据发布、数据挖掘等场景中保护个体隐私。

(三)联邦学习 —— 隐私保护机器学习

  1. 数据并行 :共享神经网络架构和训练目标,用户独立训练本地模型,提交梯度给服务器,服务器聚合梯度后返回用户更新模型。
  2. 模型并行 :服务器维护共同模型,用户下载模型参数后训练,上传更新后的参数,服务器更新模型参数后返回用户。

(四)多方安全计算(MPC)

  1. 发展历程 :1978 年提出概念,2009 年提出首个全同态加密算法。
  2. 特点 :隐私性(除函数输出外,不泄漏其他信息)、正确性(保证输出计算结果正确)。
  3. 应用案例 :隐私集合求交(PSI)、匿踪查询(PIR)等。
  • 隐私集合求交(PSI)

    img

  • 匿踪查询(PIR)

    img

(五)全同态加密

img

  1. 原理 :对密文进行计算,得到的结果解密后与对明文直接计算的结果相同。
  2. 算法 :如 BGV、BFV、TFHE、CKKS 等,支持不同的数据类型(整数、比特、定点数)和多用户密文运算(多密钥、门限)。

(六)零知识证明

img

  1. 特性 :完备性(验证者能接受真命题)、可靠性(证明者无法欺骗验证者)、零知识性(验证者无法获取额外信息)。
  2. 分类 :交互零知识证明和非交互零知识证明。
  3. 应用 :可验证计算,如证明计算完整性。

(七)可信密态计算

  1. 融合技术 :将多方安全计算等密码技术与可信执行环境(TEE)技术融合。
  2. 优势 :计算过程中数据以密态形式存在,利用 TEE 提升安全性(抵抗恶意敌手攻击和合谋攻击)、提高协议运行效率,同时利用密码技术降低可信硬件潜在安全风险。

五、学习拓展

(一)技术融合趋势

研究隐私计算技术之间的融合,如将可信执行环境与多方安全计算结合,发挥各自优势,提升数据流通的安全性和效率。例如在跨机构数据共享场景中,利用 TEE 保障数据存储与计算环境的安全,同时运用 MPC 实现联合分析时的隐私保护。

(二)性能优化方向

针对性能较低的隐私计算技术(如多方安全计算),探索新的算法优化和硬件加速方法。比如通过改进加密算法的数学模型,减少计算步骤;或者利用专用的密码芯片、GPU 等硬件资源,加速密文计算过程,使其更适用于大规模数据流通场景。

(三)应用场景拓展

挖掘隐私计算在新兴领域的应用,如物联网、元宇宙等。以物联网为例,众多设备产生大量数据,涉及用户隐私和设备安全。隐私计算技术可保障设备数据在边缘计算节点和云端之间的安全流通与协同处理,实现智能物联网应用的同时,保护用户隐私和设备厂商的商业秘密。

...全文
79 回复 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

562

社区成员

发帖
与我相关
我的任务
社区描述
隐语开源社区,隐私计算开发者交流和讨论的平台。
密码学可信计算技术安全 企业社区
社区管理员
  • 隐语SecretFlow
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

【最新活动】

3月18日:隐私计算实训营第一期

试试用AI创作助手写篇文章吧