隐私计算实训营第四期第7节：PIR实战

2301_80297147 2024-12-09 00:29:19

同 PSI 实战一样，本笔记侧重于过程。上一期 PSI 实战已经涉及一部分内容，本笔记侧重于不同部分。

1、创建节点，上传文件

创建节点（分别命名为 guest 和 server）后，向 guest 上传 pir_query.csv，向 server 上传 pir_server_setup.tar, server_secret_key.bin 与 source_data.csv （该文件来源于上节求交数据）。与上一节不同，我们首先要对数据进行预处理：将 pir_server_setup.tar 解压为目录；创建 tmp 文件夹并将 server_secret_key.bin 置入其中。文件预处理代码如下：

# 将上传的 .tar 形式的目录解压
import tarfile
import os
from pathlib import Path

work_path = os.getcwd()

tar_path = f'{work_path}/pir_server_setup.tar'


extract_path = work_path


os.makedirs(extract_path, exist_ok=True)

# 打开 .tar 文件
with tarfile.open(tar_path, 'r') as tar:
    # 解压所有文件到指定目录
    tar.extractall(path=extract_path)

# 将密钥文件移动到 /tmp 目录下
import shutil
import os

work_path = os.getcwd()


os.makedirs(f'{work_path}/tmp', exist_ok = True)

shutil.move(f'{work_path}/server_secret_key.bin', f'{work_path}/tmp')

2、初始化 SecretFlow 与 SPU 。

该部分与 PSI 完全相同，不再讲解

3、预处理数据

调用 spu.pir_setup 对 source_data.csv 进行预处理，预处理结果保存在 pir_server_setup 目录下。运行结果如下：

注意预处理需要两端同时进行（见右上角）。从运行结果可以看出，预处理的计算复杂度很高，处理 800,000 行的数据需要耗时数分钟。此外，预处理的空间复杂度也很高，经测试，如果没有将 server_secret_key 置于一个 tmp 目录下，执行时会出现空间超限（MLE）。笔者推测是由于预处理执行时需要存放临时文件导致。

4、进行查询操作

有了前面的铺垫之后，就可以正式进行 PIR 了。

PIR查询执行完成后，我们可以在 guest 的文件列表找到输出结果。

5、本地验证结果

与 PSI 类似，PIR 的执行结果需要本地验证。下载 pir_result.csv 并打开后，我意外发现里面是一个空表。

这表明没有查询到任何结果。随后，我复制 pir_query.csv 中所查询的 uid，用文本编辑器的查找替换功能查找了这个 uid 字符串，发现这个 uid 确实没有在源文件中出现。说明本次 PIR 输出结果正确。

事实上， PIR 的日志也反映了这一结果。这使我确信 PIR 运行正确。

至此，PIR 实验进行完毕。

...全文

132 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

隐私计算实训营免费学习！

多方安全计算多方安全计算是指在无可信第三方的情况下，多个参与方共同计算一个目标函数，并且保证每一方仅获取自己的计算结果，无法通过计算过程中的交互数据推测出其他任意一方的输入数据。多方安全计算是基于密码学的算法协议来实现隐私计算，可以看作多种密码学基础工具的综合应用。多方安全计算能够满足人们利用隐私数据进行保密计算的需求，有效解决数据的“保密性”和“共享性”之间的矛盾，还可与可信执行环境等硬件隐私计算技术结合进一步强化安全性。

第二部分：核心内容 (Core Content)4. 问题背景与动机 (Problem Background & Motivation)4.1 LLM数据隐私泄露的三大“重灾区”案例1：提示词直接泄露敏感数据2023年，某医疗AI公司使用GPT-4处理患者病历，工程师在调试时直接将包含患者姓名、病历编号的完整病例作为提示词发送给OpenAI API。案例2：模型记忆与成员推断攻击此类攻击利用模型对高频训练数据的“记忆”特性，可精准定位隐私信息。案例3：提示注入导致权限越界。

自然语言处理（NLP）是人工智能的一个重要分支，旨在使计算机能够理解、解析和生成人类语言。医疗NLP则专注于医学领域的文本处理，如电子病历、医学论文、临床指南、患者对话等。其核心挑战在于医学语言的高度专业性、术语复杂性以及上下文依赖性。近年来，随着深度学习的发展，尤其是Transformer架构的广泛应用，医疗NLP在多个任务中取得了显著进展。例如，命名实体识别（NER）可用于识别病历中的疾病、药物和症状；关系抽取可帮助发现药物与病症之间的潜在联系；文本分类可用于自动诊断分类或患者风险评估。

本文深入解析了基于DeepSeek大模型的智能家居系统架构与开发实践，涵盖硬件选型、多模态交互、安全通信及典型应用场景，重点介绍了AI中枢的本地化部署、自然语言理解与自动化规则引擎设计。

隐语开源社区

574

社区成员

2,178

社区内容

发帖

与我相关

我的任务

密码学可信计算技术安全企业社区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

【最新活动】

3月18日：隐私计算实训营第一期

试试用AI创作助手写篇文章吧

+ 用AI写文章