数据与隐私安全学习笔记
一、大数据的 “3V” 特性

- Volume(海量) :数据量呈爆发式增长,例如2011年全球创建和复制的数据总量达到1.8ZB(10²¹),远超人类有史以来所有印刷材料的数据总量(200PB);淘宝每天产生的交易数据高达20TB。
- Velocity(高速) :数据生成和处理速度极快,如Facebook每天发布47.5亿条内容,谷歌每秒处理285万笔搜索请求。
- Variety(多样) :数据类型丰富,包括结构化数据和非结构化数据,其中非结构化数据占比达80%。
二、大数据的时代特性

三、数据是一种新的生产要素
- 政策文件支持 :2017年互联网经济时代,数据被视为新的生产要素,是基础性资源和战略性资源。2020年4月9日,数据与土地、劳动力、资本、技术等并列为一种生产要素。2020年《中共中央、国务院关于构建更加完善的要素市场化配置体制机制的意见》首次将数据作为新型生产要素纳入官方文件。2021年《“十四五” 数字经济发展规划》强调构建数据要素市场规则。2022年《中共中央、国务院关于构建数据基础制度更好发挥数据要素作用的意见》从数据产权、流通交易、收益分配、安全治理等方面提出政策举措。
- 数字经济基础 :数据是数字经济腾飞的基础性资源,但面临数据孤岛、数据隐私和安全等挑战。
四、数据隐私泄漏问题
- 问题现状 :数据隐私泄漏问题频发,涉及网络安全漏洞、第三方数据共享、社交媒体和应用程序的数据管理、数据存储和处理不当、内部威胁、法律和监管漏洞以及内部人员的疏忽或恶意行为。从2012-2019年全球数据泄露事件数量和丢失记录数量总体呈上升趋势。
- 典型事件 :2023年初,埃及政府因云配置错误泄露7万多儿童敏感信息;2023年5月,丰田汽车因数据库配置错误泄露215万车主数据;微软因黑客攻击泄露美国政府电子邮件数据。
五、隐私问题的产生
- 科技因素 :科技发展使个人信息获取、存储和传播更容易,增加了隐私泄露风险。
- 商业因素 :商业利益驱动下的数据收集和分析,导致用户隐私被侵犯,个人信息被滥用,如精准广告投放和产品推荐。
- 社会文化因素 :不同社会文化背景下,个人对隐私的认知和重视程度存在差异,影响隐私保护意识和行为。
- 信息系统中的隐私数据 :医院信息管理系统包含电子病历、疾病信息、药品购买记录等隐私数据;人口管理系统涉及市民家庭住址、收入状况、个人爱好、犯罪记录等;金融业务系统涵盖银行卡信息、收入状况、交易行为等。
六、数据的生命周期

数据生命周期涵盖生产、存储、使用、分享、存档和销毁六个阶段,数据隐私问题可能存在于整个生命周期中。例如,生产阶段可能面临数据过度收集的风险,存储阶段存在数据被非法访问的风险,使用阶段可能因权限管理不当导致数据泄露,分享阶段可能因共享范围控制不严泄露隐私,存档阶段面临数据残留风险,销毁阶段若未彻底删除数据也可能导致隐私泄露。
七、用户数据和个人信息
- 用户数据 :由符号组成序列,包括与个人、企业、组织等相关的数据。
- 个人信息 :在中国,《民法典》定义个人信息为能识别特定自然人的各种信息;欧美等地指个人数据或个人可识别信息(PII),GDPR定义个人数据为与已识别或可识别自然人相关的任何信息。
八、隐私信息
- 定义 :隐私是“个体的满足某些特定条件的属性”,属性需满足可标识个体身份、泄密后会造成损失、个体不愿公开等条件。
- 属性分类 :数据表中的数据根据属性作用分为显示标识符、准标识符、敏感属性、非敏感属性。显示标识符唯一标识个体身份,需保护;准标识符可作为攻击者属性集合;敏感属性涉及个体隐私,与场景相关;非敏感属性不涉及隐私。
- 隐私信息组成 :包括标识符、准标识符和敏感属性,反映它们的关联关系。美国联邦贸易委员会将个人信息分为12类、221个属性字段,涵盖标识数据、敏感标识数据、人口数据等。
九、数据发布隐私保护技术
- 考虑因素 :保证数据应用中不泄露隐私,同时有利于数据应用,需平衡隐私保护与数据应用。
- 通用技术 :包括通用隐私保护技术、隐私保护数据发布原则、隐私保护数据挖掘/机器学习等。
- 技术分类 :分为数据失真(对原始数据扰动,如加噪)、数据加密(加密隐藏敏感属性)、数据匿名化(限制发布技术)。三种技术各有优缺点,数据失真计算开销小但会导致数据丢失;数据加密保护效果好但计算开销大、部署复杂;数据匿名化通用性高但存在数据缺损和隐私二次泄露可能。
十、隐私计算与人工智能
- 数据的重要性 :数据是AI技术基石,从自然语言处理到计算机视觉等领域都需要大量数据支撑,数据收集、管理和分析推动AI发展。但数据宝贵且不易收集,随意分享可能泄露隐私或危害国家,需遵循相关法律法规,如中国的《个人信息保护法》《数据安全法》《网络安全法》。
十一、法律与政策背景
全球数据保护法律日益严格,如欧盟《GDPR》(2018)、美国《CCPA》(2018)、中国《网络安全法》(2017)、《数据安全法》(2021.9)、《个人信息保护法》(2021.11)。各国政府和组织重视数据安全保护,通过法律政策引导约束,推动构建安全合规的数据流通方式,发挥数据计算价值,促进数据要素流通。
十二、隐私计算的定义
隐私计算是在保护数据隐私的同时实现计算任务的技术统称,利用密码学、人工智能、统计学、大数据等多学科知识,使多方协作计算中数据可用不可见,数据价值可流通、可度量、可保护、可管理,确保数据在流通融合过程中的隐私安全。
通过学习,我对数据在当今时代的重要性和隐私保护的紧迫性有了深刻认识,也了解到隐私计算作为新兴领域,融合多学科知识为解决数据隐私问题提供了有效途径。在后续学习中,我将进一步深入研究隐私计算的具体技术实现和应用场景,以更好地应对数据隐私挑战,推动数据价值的安全释放。