《2025隐私计算实训营｜数据要素驱动的隐私计算实践》学习笔记-3

线树图集 2025-05-27 17:30:02

可信隐私计算框架概览学习笔记

一、隐语架构概览

整体架构分层
- 产品层 ：包含易用 CLI、可视笔记 DAG 操作、开箱 Notebook IDE 等多种产品形态，满足不同用户的操作习惯和需求，降低终端用户的使用门槛，提高用户体验。
- 算法层 ：涵盖 PSI/PIR、数据分析、联邦学习等核心算法模块，为各类数据处理和学习机器任务提供底层算法支持，是实现数据安全融合与分析的关键所在。
- 计算层 ：由隐私保护容器、混合编译调度、密态引擎等组成，负责对算法进行高效计算和任务调度，保障计算过程的安全性和性能优化。
- 资源层 ：包括数据管理、网络管理、边缘计算管理等功能模块，实现对各类计算资源的统一管理和调配，为上层计算提供稳定的资源支撑。
- 硬件层 ：支持 FPGA、GPU、ASIC 等多种硬件设备，适配海光 CSF、Intel TDX 等可信执行环境，充分发挥硬件的加速能力和安全特性，提升整体系统的性能和安全性。
架构特点
- 清晰分层 ：各层之间职责明确，接口规范，便于开发、维护和扩展。
- 灵活集成 ：支持多种部署方式和集成形态，能够与不同机构的现有系统进行无缝对接。
- 简单易用 ：通过可视化产品和模块化 API，降低了终端用户的使用成本和技术集成商的研发成本。

二、隐语产品

产品定位与人群画像
- 定位：作为隐语的直观入口，为隐私保护计算从业者提供一站式解决方案，涵盖从数据处理、分析到机器学习建模的全流程。
- 人群画像 ：主要面向隐私保护计算集成商、产品人员、开发人员、研究人员等专业人士，满足他们在不同场景下的需求。
具体产品组件
- SecretPad ：轻量化安装，便于快速部署；支持快速验证 POC，加速项目落地；具有可定制集成能力，可适配不同企业的业务需求。
- 多部署形态 ：提供中心模式和 P2P 模式（计划），满足不同网络架构和业务场景下的部署需求。
- 全栈产品 ：整合 MPC、TEE、SCQL 等多种技术，构建完整的隐私计算技术栈，为用户提供更全面的解决方案。
- SecretNote ：以 Notebook 形式呈现，方便用户进行交互式建模；支持多节点一站式管理和交互，提高团队协作效率；具备运行状态跟踪功能，便于实时监控任务执行情况。

三、PSI/PIR 技术

PSI（Private Set Intersection）
- 定义与原理 ：一种特殊的安全多方计算（MPC）协议，用于计算两个集合的交集，同时保证交集外的元素不会泄露。例如，Alice 拥有集合 X，Bob 拥有集合 Y，通过 PSI 协议可以得到交集 X∩Y，而不泄露其他信息。
- 应用场景 ：在数据共享、联合营销、情报分析等领域，用于在保护用户隐私的前提下实现数据的交集计算。
- 支持协议与优化 ：支持各类协议，包括基于半诚实模型的 ec-dh、kkt16、bc22(pcg-psl)、ot-based PSI（带平衡 PSI）等；针对多方场景，支持 ecdh 3-party（可扩展至多方）；在恶意模型下，支持 mini-psi（适合小数据集）。同时，在协议优化和性能优化方面不断改进，提高计算效率和安全性。
PIR（Private Information Retrieval）
- 定义与原理 ：允许用户查询服务端数据库中的数据，但服务端无法得知用户查询的具体内容，有效保护用户隐私。
- 应用场景 ：适用于在线数据库查询、分布式存储系统、隐私情报检索等场景，确保用户在获取所需信息时隐私不受侵犯。
- 支持协议与优化 ：支持 Sealed PIR、Label PIR、Spiral PIR（计划）、Simple PIR（计划）等多种协议类型，并在协议和性能方面进行优化，以满足不同场景下的需求。

四、Data Analysis - SCQL

定位与核心特性
- 定位：一种多方安全数据分析系统，让互不信任的参与方在保护自身数据隐私的前提下，完成多方数据分析任务。
- 核心特性 ：
  - 半诚实安全模型，支持多方（N≥2）参与。
  - 易上手，提供 MySQL 兼容的 SQL 语言用户界面，方便用户快速上手。
  - 支持常用的 SQL 语法和算子，满足大部分数据分析场景的需求。
  - 提供列级别的数据使用授权控制（CCL），增强数据安全性。
  - 支持多种密态协议，如 SEMI2K/CHEETAH/ABY3 等，灵活适配不同安全需求。
  - 内置支持多种数据源接入，包括 MySQL、Postgres、CSV 等，方便数据集成和处理。
应用场景
- 主要应用于数据分析集成商、数据分析产品人员、数据分析需求人员以及数据分析研究人员等群体，帮助他们在保护数据隐私的同时，高效地进行数据分析和挖掘。

五、联邦学习

基本概念与定位
- 定义：在原始数据不出域的前提下，通过交换中间数据完成机器学习建模，包含水平联邦和垂直联邦（主要是拆分学习，Split Learning）。
- 定位：具备安全攻防保障的明密文混合机器学习框架和算法，为联邦学习过程提供可靠的安全防护。
技术特点
- 安全攻防 ：构建安全风险度量体系，及时发现和评估潜在的安全风险；提供攻防框架和攻防算法，有效抵御各种攻击。
- 性能优化 ：采用稀疏化、量化、流水线等技术，提高联邦学习的训练效率和性能。
- 算法丰富 ：支持营销算法（DeepFM、BST、MMoE 等）、SOTA 安全聚合以及大模型（计划），满足不同业务场景下的机器学习需求。

六、混合编译调度 - RayFed

定位与功能
- 定位：在 Ray 基础之上构建的专注于跨机构的分布式计算调度框架，面向跨机构场景，提供单机构内计算任务独立调度和跨机构计算任务协作的能力。
- 功能特点 ：作为 ray 的孵化项目，RayFed 具备良好的扩展性和兼容性，能够与 Ray 生态系统中的其他组件无缝集成，实现高效的分布式计算任务调度。
应用场景
- 主要适用于跨机构的数据分析、机器学习训练等场景，通过分布式计算调度，提高资源利用率和任务执行效率，促进不同机构之间的数据协作和共享。

七、SPU（Secure Process Unit）

定位与核心特性
- 定位：桥接上层算法和底层安全协议，保持原生 AI 框架体验的同时为用户提供引擎提供透明的、高性能的、基于安全协议的密态计算能力。
- 核心特性 ：
  - 原生对接主流 AI 前端，如 Tensorflow、JAX、PyTorch 等，方便用户将现有 AI 模型和应用迁移到密态计算环境中。
  - 支持丰富的机器学习算法，满足多样化的 AI 应用需求。
  - 带隐私保护语义的中间表示语言，确保数据在计算过程中的隐私性。
  - 基于 MLIR 的加速计算编译优化，提高计算效率和性能。
  - 高性能 MPC 协议虚拟机，实现高效的安全多方计算。
  - 多种数据并行、指令并行优化，充分利用硬件资源，提升计算速度。
  - 丰富的 MPC 协议，适配各种场景，提供灵活的解决方案。
  - 支持协议扩展，支持异构设备接入，具备良好的可扩展性和兼容性。
架构与工作原理
- 架构组成 ：包括 Frontend、Compiler、Runtime 等部分。Frontend 负责接收来自不同 AI 框架的模型和数据；Compiler 将模型编译为适合密态计算的中间表示；Runtime 提供 MPC 协议虚拟机等执行环境，完成密态计算任务。
- 工作流程 ：从接收前端请求，到编译优化，再到 Runtime 执行，整个过程无缝衔接，确保密态计算的高效性和安全性。

八、HEU（Homomorphic Encryption Unit）

定位与应用场景
- 定位：低门槛、高性能的同态加密库，支持多类型、可扩展的算法协议和硬件加速生态。
- 应用场景 ：广泛应用于同态加密用户、同态算法研究人员和同态硬件研发人员等领域，为数据加密处理和隐私保护提供强大的技术支持。
同态加密原理与分类
- 原理：允许对密文进行计算，得到的结果解密后与对明文进行相同计算的结果一致，从而在不泄露数据内容的前提下实现数据的处理和分析。
- 分类：
  - PHE（Partially Homomorphic Encryption）：支持密态加法或乘法。
  - LHE（Limited Homomorphic Encryption）：支持有限次数密态加法和乘法。
  - FHE（Fully Homomorphic Encryption）：支持无限次数密态加法和乘法。
核心特性
- 支持多种 PHE 算法，满足不同场景下的加密需求。
- 性能业界领先，通过优化算法和硬件加速，提高加密计算的效率。
- 支持多种接口，包括 Numpy-like API、C++ API、Python API 等，方便不同编程语言的用户使用。
- 硬件加速能力，进一步提升加密性能，降低计算延迟。

九、TEEU（Trusted Enextusion Environment Unit）

定位与功能特点
- 定位：支持多种可信执行环境的、具备数据使用跨域管控能力的密态计算枢纽，可执行数据分析、机器学习、MPC/FL 加速等功能。
- 功能特点 ：
  - 跨域管控：实现数据确权、使用授权、使用鉴权和结果授权等功能，确保数据在跨域使用过程中的安全性和合规性。
  - 可信应用：支持预处理、经典机器学习、深度学习（计划）和大模型（计划）等多种应用类型，满足不同业务场景下的需求。
  - 多硬件支持：兼容 SGX、HyperEnclave、海光 CSV、Intel TDX 等多种硬件可信执行环境，充分发挥硬件的安全特性。
应用场景
- 主要应用于数据合规研究人员、TEE 软件开发人员和 TEE 硬件制造商等领域，为数据安全处理和隐私保护提供硬件级的保障。

十、YACL（Yet Another Crypto Library）

定位与优势
- 定位：多种隐私计算技术路线共同需要的密码库，具备安全实现保证、高性能等特点。
- 优势：
  - 性能卓越：采用精心设计的算法和优化技术，确保高性能源码实现，为隐私计算提供高效的基础密码支持。
  - 安全性高：遵循安全编码规范，经过严格的安全评估和测试，保障密码库的安全性和可靠性。
  - 易用性强：对密码协议开发者提供良好的接口抽象和编程体验，降低开发难度，提高开发效率。
与现有密码库的对比
- 相较于学术界密码库（如 EMP、ABY）和工业界密码库（如 OpenSSL、intel ipp-crypto），YACL 在性能、安全性和易用性方面进行了综合优化和改进，更好地满足隐私计算领域的实际需求。
在隐私计算中的作用
- YACL 作为密码库，为隐私计算的各种技术（如 MPC、FL、PIR 等）提供底层的密码学支持，确保数据在传输、存储和计算过程中的保密性、完整性和可用性。

十一、KUSCIA

定位与功能概述
- 定位：屏蔽不同机构间基础设施的差异，为跨机构协作提供丰富且可靠的资源管理和任务调度能力。
- 功能组成 ：
  - Master（控制平面） ：包括 K3s（K8s 的轻量发行版）、KusciaControllers（自定义的资源控制器，实现跨域任务调度、服务发现、数据授权等）、InterConnControllers（互联互通控制器）。
  - Lite ：由 ServiceMesh（算法容器之间通信的网络层基础设施）、DataMesh（面向数据管理的基础设施，解决数据发现、多源适配、数据授权等问题）、Agent（负责节点实例注册和容器管理）组成。
应用场景
- 主要用于跨机构的隐私计算任务编排和调度，通过 Kubernetes（K8s）生态系统的优势，实现对计算资源的高效管理和任务的灵活调度，促进不同机构之间的数据协作和共享。

十二、互联互通

定位与模式
- 定位：实现隐语和其他厂商的平台互联互通，共同完成一个隐私计算任务。
- 模式：
  - 黑盒模式 ：又称管理调度互联，通过管理面、控制面实现互联互通，要求两边加载相同的算法容器。
  - 白盒模式 ：又称基于开放算法协议的互联，算法引擎层面可以直接互联，实现更紧密的合作和数据交互。
技术实现与挑战
- 需要解决不同平台之间的协议兼容性、数据格式转换、安全通信等问题，确保互联互通的稳定性和可靠性。同时，在互联互通过程中，要兼顾数据隐私保护和任务执行效率。

十三、跨域管控 - 三权分置

定位与核心理念
- 定位：在数据流转过程中保护数据安全，使数据离开持有者的运维域后，数据方仍然能够有效地控制数据的流转过程，避免其被窃取或者非预期使用。
- 核心理念 ：基于数据要素 “三权”（数据资源持有权、数据加工使用权、数据产品经营权）分置，通过技术手段实现跨域管控，确保数据在流转过程中的合法合规使用。
三权流转关系与机制保障
- 流转关系 ：数据资源持有者通过授权将数据加工使用权授予数据处理者，数据处理者在授权范围内对数据进行加工处理，生成数据产品，并将数据产品经营权赋予数据产品经营者，最终为数据消费者提供服务。
- 机制保障 ：通过数据确权、使用授权、存证审计等技术手段，以及以隐私计算为核心支撑技术构建密态互联网（包括密态存储与密态通信），保障数据要素 “三权” 的有效流转和实现。

十四、总结

隐语技术体系涵盖了从底层硬件到上层应用的完整架构，包括隐语架构、隐语产品、PSI/PIR 技术、Data Analysis - SCQL、联邦学习、混合编译调度 - RayFed、SPU、HEU、TEEU、YACL、KUSCIA、互联互通以及跨域管控 - 三权分置等多个核心组件和技术。这些组件相互协作，共同构建了一个清晰分层、灵活集成、简单易用的隐私计算平台，为隐私保护计算从业者提供了全方位的解决方案，满足了不同用户群体在数据安全、隐私保护、高效计算等方面的需求，推动了隐私计算技术在各个领域的广泛应用和创新发展。在学习和实践过程中，我掌握了各组件的定位与功能，如 SecretPad 的轻量化部署、SCQL 的多方数据分析、RayFed 的分布式调度等。对 PSI/PIR 的协议原理、联邦学习的安全攻防机制、SPU 的原生 AI 对接等关键技术有了深刻认知。

...全文