笔记内容来自隐语Mooc,欢迎一起来学习。Mooc课程地址:https://www.secretflow.org.cn/community/bootcamp/2narwgw4ub8rabq/course/vhii941jitkl122?tab=outline
参考文档地址:https://www.secretflow.org.cn/zh-CN/docs/kuscia/v0.15.0b1/getting_started/quickstart_cn
一、背景与要求
宏观形势
- 政策导向:二十届三中全会强调培育全国一体化数据市场,完善数据要素价格与收益分配机制。
- 数字经济发展:数据要素价值尚未充分释放,百亿美元级数据公司仍有待培育。
- AI发展:大模型(如DeepSeek-R1)推动科研与产业变革。
- 安全与隐私:数据融合共享需加强隐私保护与安全治理。
制度与基建
- 数据基础制度基本形成。
- 地方政府与数据集团积极组建。
- 数据跨境流动在浙江、上海、江苏等地试点。
- 基础设施建设:可信数据空间、数据元件、区块链、隐私保护计算等。
二、数据元件核心概念
2.1 定义与形态
- 定义:数据元件是经过清洗、加工形成的信息密度高、安全性强、产权清晰的数据表征结果。
- 三种形态:
- 组态数据元件:由相关字段形成的数据集。
- 模态数据元件:通过建模形成的数据特征。
- 组合态数据元件:由组态数据元件组合而成。
2.4 生成与封装
- 生成原理:通过脱敏、建模提取高价值、形态稳定的数据单元。
- 封装方式:
- 数据元素产品封装:包含结构、编码、说明等。
- 数字对象封装:包括对象标识、元素标识、存储文件。
2.5 突破性作用
- 解决数据确权难题:三次分离 + 三阶段确权。
- 解决数据流通难题:元件体量、质量、信息密度标准化。
- 解决数据估值定价难题:基于元件特性定价。
- 解决安全与隐私难题:关键数据入库、双向风险隔离、三级安全管理。
三、数据元件的生产与流通
3.3 加工流程
共分为5个阶段、15个步骤、40道工序:
- 数据汇聚治理(资源化)
- 数据元件加工(要素化)
- 数据元件检测
- 数据元件流通(资产化)
- 数据元件使用
3.4 传输技术
- 数据要素互联网体系:将数据元件作为数字对象进行管理。
- 核心系统:
- 基础协议:IRP(解析)、DQIP(发现与使用)
四、应用场景与实践案例
4.1 城市级应用
- 德阳、郑州、温州、徐州、北京、大理等城市试点。
- 成果:
- 德阳上线3000+数据元件,完成全国首例数据元件质押融资。
- 郑州数据仓库接入59亿条数据,签约交易额超1亿元。
4.2 行业级应用
- 银行:用于贷款评估、风险分析,服务10万客户。
- 医疗健康:整合基因、运动、心理等数据,提供个性化健康方案,服务5万客户。
4.3 其他应用
- 安全可信数据空间:实现“数据可用不可见、使用可控可计量”。
- 高质量语料库:助力大模型训练与评测,提升合规性与训练效率。
五、展望
- 数据元件将与数据空间、数联网、数据技术路线深度融合。
- 成为数据资产化的关键支点,助力数字经济高质量发展。
- 在国家安全、隐私保护、AI发展、跨境数据流动中发挥核心作用。