可信隐私计算框架概览学习笔记
一、隐语架构概览
整体架构分层
- 产品层 :包含易用 CLI、可视笔记 DAG 操作、开箱 Notebook IDE 等多种产品形态,满足不同用户的操作习惯和需求,降低终端用户的使用门槛,提高用户体验。
- 算法层 :涵盖 PSI/PIR、数据分析、联邦学习等核心算法模块,为各类数据处理和学习机器任务提供底层算法支持,是实现数据安全融合与分析的关键所在。
- 计算层 :由隐私保护容器、混合编译调度、密态引擎等组成,负责对算法进行高效计算和任务调度,保障计算过程的安全性和性能优化。
- 资源层 :包括数据管理、网络管理、边缘计算管理等功能模块,实现对各类计算资源的统一管理和调配,为上层计算提供稳定的资源支撑。
- 硬件层 :支持 FPGA、GPU、ASIC 等多种硬件设备,适配海光 CSF、Intel TDX 等可信执行环境,充分发挥硬件的加速能力和安全特性,提升整体系统的性能和安全性。
架构特点
- 清晰分层 :各层之间职责明确,接口规范,便于开发、维护和扩展。
- 灵活集成 :支持多种部署方式和集成形态,能够与不同机构的现有系统进行无缝对接。
- 简单易用 :通过可视化产品和模块化 API,降低了终端用户的使用成本和技术集成商的研发成本。
二、隐语产品
产品定位与人群画像
- 定位 :作为隐语的直观入口,为隐私保护计算从业者提供一站式解决方案,涵盖从数据处理、分析到机器学习建模的全流程。
- 人群画像 :主要面向隐私保护计算集成商、产品人员、开发人员、研究人员等专业人士,满足他们在不同场景下的需求。
具体产品组件
- SecretPad :轻量化安装,便于快速部署;支持快速验证 POC,加速项目落地;具有可定制集成能力,可适配不同企业的业务需求。
- 多部署形态 :提供中心模式和 P2P 模式(计划),满足不同网络架构和业务场景下的部署需求。
- 全栈产品 :整合 MPC、TEE、SCQL 等多种技术,构建完整的隐私计算技术栈,为用户提供更全面的解决方案。
- SecretNote :以 Notebook 形式呈现,方便用户进行交互式建模;支持多节点一站式管理和交互,提高团队协作效率;具备运行状态跟踪功能,便于实时监控任务执行情况。
三、PSI/PIR 技术
PSI(Private Set Intersection)
- 定义与原理 :一种特殊的安全多方计算(MPC)协议,用于计算两个集合的交集,同时保证交集外的元素不会泄露。例如,Alice 拥有集合 X,Bob 拥有集合 Y,通过 PSI 协议可以得到交集 X∩Y,而不泄露其他信息。
- 应用场景 :在数据共享、联合营销、情报分析等领域,用于在保护用户隐私的前提下实现数据的交集计算。
- 支持协议与优化 :支持各类协议,包括基于半诚实模型的 ec-dh、kkt16、bc22(pcg-psl)、ot-based PSI(带平衡 PSI)等;针对多方场景,支持 ecdh 3-party(可扩展至多方);在恶意模型下,支持 mini-psi(适合小数据集)。同时,在协议优化和性能优化方面不断改进,提高计算效率和安全性。
PIR(Private Information Retrieval)
- 定义与原理 :允许用户查询服务端数据库中的数据,但服务端无法得知用户查询的具体内容,有效保护用户隐私。
- 应用场景 :适用于在线数据库查询、分布式存储系统、隐私情报检索等场景,确保用户在获取所需信息时隐私不受侵犯。
- 支持协议与优化 :支持 Sealed PIR、Label PIR、Spiral PIR(计划)、Simple PIR(计划)等多种协议类型,并在协议和性能方面进行优化,以满足不同场景下的需求。
四、Data Analysis - SCQL
定位与核心特性
- 定位 :一种多方安全数据分析系统,让互不信任的参与方在保护自身数据隐私的前提下,完成多方数据分析任务。
- 核心特性 :
- 半诚实安全模型,支持多方(N≥2)参与。
- 易上手,提供 MySQL 兼容的 SQL 语言用户界面,方便用户快速上手。
- 支持常用的 SQL 语法和算子,满足大部分数据分析场景的需求。
- 提供列级别的数据使用授权控制(CCL),增强数据安全性。
- 支持多种密态协议,如 SEMI2K/CHEETAH/ABY3 等,灵活适配不同安全需求。
- 内置支持多种数据源接入,包括 MySQL、Postgres、CSV 等,方便数据集成和处理。
应用场景
- 主要应用于数据分析集成商、数据分析产品人员、数据分析需求人员以及数据分析研究人员等群体,帮助他们在保护数据隐私的同时,高效地进行数据分析和挖掘。
五、联邦学习
基本概念与定位
- 定义 :在原始数据不出域的前提下,通过交换中间数据完成机器学习建模,包含水平联邦和垂直联邦(主要是拆分学习,Split Learning)。
- 定位 :具备安全攻防保障的明密文混合机器学习框架和算法,为联邦学习过程提供可靠的安全防护。
技术特点
- 安全攻防 :构建安全风险度量体系,及时发现和评估潜在的安全风险;提供攻防框架和攻防算法,有效抵御各种攻击。
- 性能优化 :采用稀疏化、量化、流水线等技术,提高联邦学习的训练效率和性能。
- 算法丰富 :支持营销算法(DeepFM、BST、MMoE 等)、SOTA 安全聚合以及大模型(计划),满足不同业务场景下的机器学习需求。
六、混合编译调度 - RayFed
定位与功能
- 定位 :在 Ray 基础之上构建的专注于跨机构的分布式计算调度框架,面向跨机构场景,提供单机构内计算任务独立调度和跨机构计算任务协作的能力。
- 功能特点 :作为 ray 的孵化项目,RayFed 具备良好的扩展性和兼容性,能够与 Ray 生态系统中的其他组件无缝集成,实现高效的分布式计算任务调度。
应用场景
- 主要适用于跨机构的数据分析、机器学习训练等场景,通过分布式计算调度,提高资源利用率和任务执行效率,促进不同机构之间的数据协作和共享。
七、SPU(Secure Process Unit)
定位与核心特性
- 定位 :桥接上层算法和底层安全协议,保持原生 AI 框架体验的同时为用户提供引擎提供透明的、高性能的、基于安全协议的密态计算能力。
- 核心特性 :
- 原生对接主流 AI 前端,如 Tensorflow、JAX、PyTorch 等,方便用户将现有 AI 模型和应用迁移到密态计算环境中。
- 支持丰富的机器学习算法,满足多样化的 AI 应用需求。
- 带隐私保护语义的中间表示语言,确保数据在计算过程中的隐私性。
- 基于 MLIR 的加速计算编译优化,提高计算效率和性能。
- 高性能 MPC 协议虚拟机,实现高效的安全多方计算。
- 多种数据并行、指令并行优化,充分利用硬件资源,提升计算速度。
- 丰富的 MPC 协议,适配各种场景,提供灵活的解决方案。
- 支持协议扩展,支持异构设备接入,具备良好的可扩展性和兼容性。
架构与工作原理
- 架构组成 :包括 Frontend、Compiler、Runtime 等部分。Frontend 负责接收来自不同 AI 框架的模型和数据;Compiler 将模型编译为适合密态计算的中间表示;Runtime 提供 MPC 协议虚拟机等执行环境,完成密态计算任务。
- 工作流程 :从接收前端请求,到编译优化,再到 Runtime 执行,整个过程无缝衔接,确保密态计算的高效性和安全性。
八、HEU(Homomorphic Encryption Unit)
定位与应用场景
- 定位 :低门槛、高性能的同态加密库,支持多类型、可扩展的算法协议和硬件加速生态。
- 应用场景 :广泛应用于同态加密用户、同态算法研究人员和同态硬件研发人员等领域,为数据加密处理和隐私保护提供强大的技术支持。
同态加密原理与分类
- 原理 :允许对密文进行计算,得到的结果解密后与对明文进行相同计算的结果一致,从而在不泄露数据内容的前提下实现数据的处理和分析。
- 分类 :
- PHE(Partially Homomorphic Encryption):支持密态加法或乘法。
- LHE(Limited Homomorphic Encryption):支持有限次数密态加法和乘法。
- FHE(Fully Homomorphic Encryption):支持无限次数密态加法和乘法。
核心特性
- 支持多种 PHE 算法,满足不同场景下的加密需求。
- 性能业界领先,通过优化算法和硬件加速,提高加密计算的效率。
- 支持多种接口,包括 Numpy-like API、C++ API、Python API 等,方便不同编程语言的用户使用。
- 硬件加速能力,进一步提升加密性能,降低计算延迟。
九、TEEU(Trusted Enextusion Environment Unit)
定位与功能特点
- 定位 :支持多种可信执行环境的、具备数据使用跨域管控能力的密态计算枢纽,可执行数据分析、机器学习、MPC/FL 加速等功能。
- 功能特点 :
- 跨域管控:实现数据确权、使用授权、使用鉴权和结果授权等功能,确保数据在跨域使用过程中的安全性和合规性。
- 可信应用:支持预处理、经典机器学习、深度学习(计划)和大模型(计划)等多种应用类型,满足不同业务场景下的需求。
- 多硬件支持:兼容 SGX、HyperEnclave、海光 CSV、Intel TDX 等多种硬件可信执行环境,充分发挥硬件的安全特性。
应用场景
- 主要应用于数据合规研究人员、TEE 软件开发人员和 TEE 硬件制造商等领域,为数据安全处理和隐私保护提供硬件级的保障。
十、YACL(Yet Another Crypto Library)
定位与优势
- 定位 :多种隐私计算技术路线共同需要的密码库,具备安全实现保证、高性能等特点。
- 优势 :
- 性能卓越:采用精心设计的算法和优化技术,确保高性能源码实现,为隐私计算提供高效的基础密码支持。
- 安全性高:遵循安全编码规范,经过严格的安全评估和测试,保障密码库的安全性和可靠性。
- 易用性强:对密码协议开发者提供良好的接口抽象和编程体验,降低开发难度,提高开发效率。
与现有密码库的对比
- 相较于学术界密码库(如 EMP、ABY)和工业界密码库(如 OpenSSL、intel ipp-crypto),YACL 在性能、安全性和易用性方面进行了综合优化和改进,更好地满足隐私计算领域的实际需求。
在隐私计算中的作用
- YACL 作为密码库,为隐私计算的各种技术(如 MPC、FL、PIR 等)提供底层的密码学支持,确保数据在传输、存储和计算过程中的保密性、完整性和可用性。
十一、KUSCIA
定位与功能概述
- 定位 :屏蔽不同机构间基础设施的差异,为跨机构协作提供丰富且可靠的资源管理和任务调度能力。
- 功能组成 :
- Master(控制平面) :包括 K3s(K8s 的轻量发行版)、KusciaControllers(自定义的资源控制器,实现跨域任务调度、服务发现、数据授权等)、InterConnControllers(互联互通控制器)。
- Lite :由 ServiceMesh(算法容器之间通信的网络层基础设施)、DataMesh(面向数据管理的基础设施,解决数据发现、多源适配、数据授权等问题)、Agent(负责节点实例注册和容器管理)组成。
应用场景
- 主要用于跨机构的隐私计算任务编排和调度,通过 Kubernetes(K8s)生态系统的优势,实现对计算资源的高效管理和任务的灵活调度,促进不同机构之间的数据协作和共享。
十二、互联互通
定位与模式
- 定位 :实现隐语和其他厂商的平台互联互通,共同完成一个隐私计算任务。
- 模式 :
- 黑盒模式 :又称管理调度互联,通过管理面、控制面实现互联互通,要求两边加载相同的算法容器。
- 白盒模式 :又称基于开放算法协议的互联,算法引擎层面可以直接互联,实现更紧密的合作和数据交互。
技术实现与挑战
- 需要解决不同平台之间的协议兼容性、数据格式转换、安全通信等问题,确保互联互通的稳定性和可靠性。同时,在互联互通过程中,要兼顾数据隐私保护和任务执行效率。
十三、跨域管控 - 三权分置
定位与核心理念
- 定位 :在数据流转过程中保护数据安全,使数据离开持有者的运维域后,数据方仍然能够有效地控制数据的流转过程,避免其被窃取或者非预期使用。
- 核心理念 :基于数据要素 “三权”(数据资源持有权、数据加工使用权、数据产品经营权)分置,通过技术手段实现跨域管控,确保数据在流转过程中的合法合规使用。
三权流转关系与机制保障
- 流转关系 :数据资源持有者通过授权将数据加工使用权授予数据处理者,数据处理者在授权范围内对数据进行加工处理,生成数据产品,并将数据产品经营权赋予数据产品经营者,最终为数据消费者提供服务。
- 机制保障 :通过数据确权、使用授权、存证审计等技术手段,以及以隐私计算为核心支撑技术构建密态互联网(包括密态存储与密态通信),保障数据要素 “三权” 的有效流转和实现。
十四、总结
隐语技术体系涵盖了从底层硬件到上层应用的完整架构,包括隐语架构、隐语产品、PSI/PIR 技术、Data Analysis - SCQL、联邦学习、混合编译调度 - RayFed、SPU、HEU、TEEU、YACL、KUSCIA、互联互通以及跨域管控 - 三权分置等多个核心组件和技术。这些组件相互协作,共同构建了一个清晰分层、灵活集成、简单易用的隐私计算平台,为隐私保护计算从业者提供了全方位的解决方案,满足了不同用户群体在数据安全、隐私保护、高效计算等方面的需求,推动了隐私计算技术在各个领域的广泛应用和创新发展。在学习和实践过程中,我掌握了各组件的定位与功能,如 SecretPad 的轻量化部署、SCQL 的多方数据分析、RayFed 的分布式调度等。对 PSI/PIR 的协议原理、联邦学习的安全攻防机制、SPU 的原生 AI 对接等关键技术有了深刻认知。