隐私集合交集(PSI)总结
一、PSI 定义
隐私集合交集是一种密码学技术,用于在保护数据隐私的前提下,找到两个或多个参与方所持有集合的交集元素。例如参与方 A 有集合 X,参与方 B 有集合 Y,PSI 技术能在不泄露 X 和 Y 中除交集元素之外的其他元素信息的情况下,找出 X 和 Y 的交集。

二、最常用基础的 PSI:Two-Party Semi-Honest PSI
- 适用于两方在半诚实模型下计算集合交集的场景,确保只有交集元素被公开,非交集元素被保密。
- 假设参与者是半诚实的,即会遵守协议,但可能会尝试获取对方的机密信息。
三、Two-Party Semi-Honest PSI 的三个挑战及解决思路
- 隐藏非交集元素:需要在密码学上安全地 “隐藏” 非交集元素。当两个元素不相等时,必须添加某种 “噪声”,以确保不匹配的元素无法被穷举计算。
- 计算交集元素:当两个元素相等时,应该能够以某种方式揭示它们的相等性。
- 效率高:隐私集合交集协议需要在大规模应用中具有实用性。
四、PSI 方法
- 基于哈希的朴素隐私集合交集方法(Method 1):
- 基本思想是先对数据进行哈希处理,然后进行匹配。
- 隐藏性:使用单向加密哈希函数。
- 比较:相同的输入经过哈希处理后得到相同的输出。
- 效率:哈希处理速度很快。
- 基于 Diffie-Hellman 密钥交换的 PSI 方法(Method 2):

- 基于 OPRF 的 PSI 方法(Method 3):
- 通过发送方和接收方分别计算 “秘密” 函数并比较结果来实现隐私集合交集。
- 在隐藏和效率方面有一定优势,大部分操作都是高效的加密操作,并且只有少量的公钥基础设施操作。
五、无感知伪随机函数(OPRF)
在隐私保护计算领域,它占据着极其重要的位置。于隐私集合交集(PSI)的场景之中,它可以让双方在不暴露各自数据的情况下找到集合的交集。接收方借助发送方的密钥对自身的数据进行计算,发送方对自己的数据进行操作并传递结果,最后接收方通过比较结果来确定交集,从而有效地保障了数据的隐私性。

六、Two-Party Semi-Honest Secure PSI 的应用
如黑白名单、撞库等中使用。

七、计算模型
- 单向模型: 仅一方获知结果。
- 双向模型: 双方均得知交集。
- 第三方协助模型: 云服务辅助但不得知最终结果
十、PSI 的最新进展
1. 优化离线阶段
- 采用最新的可转换传输(OT)技术,以提升离线阶段的效率与安全性。
- 用向量化的可转换线性扩展(VOLE)取代传统的 OT,增强性能表现。
- 以新的密码学原语替代布谷鸟哈希,提高整体的安全性和稳定性。
2. 引入新技术
- 引入探针与字符串异或(PaXos)技术,为隐私保护计算带来新的可能性。
- 采用隐蔽键值存储(OKVS),进一步加强数据的安全性和隐私性。
3. 支持交集上的安全计算
- 运用可编程的无感知伪随机函数(OPRF),满足更复杂的隐私保护需求。
- 支持差分隐私(DP)的 PSI,在保证交集计算的同时更好地保护个体隐私。