《2025隐私计算实训营|数据要素驱动的隐私计算实践》学习笔记-1

线树图集 2025-05-27 15:41:42

数据与隐私安全学习笔记

一、大数据的 “3V” 特性

img

  • Volume(海量) :数据量呈爆发式增长,例如2011年全球创建和复制的数据总量达到1.8ZB(10²¹),远超人类有史以来所有印刷材料的数据总量(200PB);淘宝每天产生的交易数据高达20TB。
  • Velocity(高速) :数据生成和处理速度极快,如Facebook每天发布47.5亿条内容,谷歌每秒处理285万笔搜索请求。
  • Variety(多样) :数据类型丰富,包括结构化数据和非结构化数据,其中非结构化数据占比达80%。

二、大数据的时代特性

img

  • 数据是新能源 :数据如同第一次技术革命中的蒸汽能、第二次技术革命中的电能一样,成为第三次技术革命的核心驱动力,推动经济社会从工业经济向数字经济转型。

  • 技术革命对比 :第一次技术革命以英国的机械系为主导,蒸汽能是核心动力;第二次技术革命以美国的电机系为主导,电能广泛应用;第三次技术革命在中国,数据学院成为创新中心,数据能引领发展。

三、数据是一种新的生产要素

  • 政策文件支持 :2017年互联网经济时代,数据被视为新的生产要素,是基础性资源和战略性资源。2020年4月9日,数据与土地、劳动力、资本、技术等并列为一种生产要素。2020年《中共中央、国务院关于构建更加完善的要素市场化配置体制机制的意见》首次将数据作为新型生产要素纳入官方文件。2021年《“十四五” 数字经济发展规划》强调构建数据要素市场规则。2022年《中共中央、国务院关于构建数据基础制度更好发挥数据要素作用的意见》从数据产权、流通交易、收益分配、安全治理等方面提出政策举措。
  • 数字经济基础 :数据是数字经济腾飞的基础性资源,但面临数据孤岛、数据隐私和安全等挑战。

四、数据隐私泄漏问题

  • 问题现状 :数据隐私泄漏问题频发,涉及网络安全漏洞、第三方数据共享、社交媒体和应用程序的数据管理、数据存储和处理不当、内部威胁、法律和监管漏洞以及内部人员的疏忽或恶意行为。从2012-2019年全球数据泄露事件数量和丢失记录数量总体呈上升趋势。
  • 典型事件 :2023年初,埃及政府因云配置错误泄露7万多儿童敏感信息;2023年5月,丰田汽车因数据库配置错误泄露215万车主数据;微软因黑客攻击泄露美国政府电子邮件数据。

五、隐私问题的产生

  • 科技因素 :科技发展使个人信息获取、存储和传播更容易,增加了隐私泄露风险。
  • 商业因素 :商业利益驱动下的数据收集和分析,导致用户隐私被侵犯,个人信息被滥用,如精准广告投放和产品推荐。
  • 社会文化因素 :不同社会文化背景下,个人对隐私的认知和重视程度存在差异,影响隐私保护意识和行为。
  • 信息系统中的隐私数据 :医院信息管理系统包含电子病历、疾病信息、药品购买记录等隐私数据;人口管理系统涉及市民家庭住址、收入状况、个人爱好、犯罪记录等;金融业务系统涵盖银行卡信息、收入状况、交易行为等。

六、数据的生命周期

img

    数据生命周期涵盖生产、存储、使用、分享、存档和销毁六个阶段,数据隐私问题可能存在于整个生命周期中。例如,生产阶段可能面临数据过度收集的风险,存储阶段存在数据被非法访问的风险,使用阶段可能因权限管理不当导致数据泄露,分享阶段可能因共享范围控制不严泄露隐私,存档阶段面临数据残留风险,销毁阶段若未彻底删除数据也可能导致隐私泄露。

七、用户数据和个人信息

  • 用户数据 :由符号组成序列,包括与个人、企业、组织等相关的数据。
  • 个人信息 :在中国,《民法典》定义个人信息为能识别特定自然人的各种信息;欧美等地指个人数据或个人可识别信息(PII),GDPR定义个人数据为与已识别或可识别自然人相关的任何信息。

八、隐私信息

  • 定义 :隐私是“个体的满足某些特定条件的属性”,属性需满足可标识个体身份、泄密后会造成损失、个体不愿公开等条件。
  • 属性分类 :数据表中的数据根据属性作用分为显示标识符、准标识符、敏感属性、非敏感属性。显示标识符唯一标识个体身份,需保护;准标识符可作为攻击者属性集合;敏感属性涉及个体隐私,与场景相关;非敏感属性不涉及隐私。
  • 隐私信息组成 :包括标识符、准标识符和敏感属性,反映它们的关联关系。美国联邦贸易委员会将个人信息分为12类、221个属性字段,涵盖标识数据、敏感标识数据、人口数据等。

九、数据发布隐私保护技术

  • 考虑因素 :保证数据应用中不泄露隐私,同时有利于数据应用,需平衡隐私保护与数据应用。
  • 通用技术 :包括通用隐私保护技术、隐私保护数据发布原则、隐私保护数据挖掘/机器学习等。
  • 技术分类 :分为数据失真(对原始数据扰动,如加噪)、数据加密(加密隐藏敏感属性)、数据匿名化(限制发布技术)。三种技术各有优缺点,数据失真计算开销小但会导致数据丢失;数据加密保护效果好但计算开销大、部署复杂;数据匿名化通用性高但存在数据缺损和隐私二次泄露可能。

十、隐私计算与人工智能

  • 数据的重要性 :数据是AI技术基石,从自然语言处理到计算机视觉等领域都需要大量数据支撑,数据收集、管理和分析推动AI发展。但数据宝贵且不易收集,随意分享可能泄露隐私或危害国家,需遵循相关法律法规,如中国的《个人信息保护法》《数据安全法》《网络安全法》。

十一、法律与政策背景

全球数据保护法律日益严格,如欧盟《GDPR》(2018)、美国《CCPA》(2018)、中国《网络安全法》(2017)、《数据安全法》(2021.9)、《个人信息保护法》(2021.11)。各国政府和组织重视数据安全保护,通过法律政策引导约束,推动构建安全合规的数据流通方式,发挥数据计算价值,促进数据要素流通。

十二、隐私计算的定义

隐私计算是在保护数据隐私的同时实现计算任务的技术统称,利用密码学、人工智能、统计学、大数据等多学科知识,使多方协作计算中数据可用不可见,数据价值可流通、可度量、可保护、可管理,确保数据在流通融合过程中的隐私安全。

通过学习,我对数据在当今时代的重要性和隐私保护的紧迫性有了深刻认识,也了解到隐私计算作为新兴领域,融合多学科知识为解决数据隐私问题提供了有效途径。在后续学习中,我将进一步深入研究隐私计算的具体技术实现和应用场景,以更好地应对数据隐私挑战,推动数据价值的安全释放。

...全文
33 回复 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

562

社区成员

发帖
与我相关
我的任务
社区描述
隐语开源社区,隐私计算开发者交流和讨论的平台。
密码学可信计算技术安全 企业社区
社区管理员
  • 隐语SecretFlow
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

【最新活动】

3月18日:隐私计算实训营第一期

试试用AI创作助手写篇文章吧