- 数据安全防控:数据脱敏[2022-06-29]
- 数据治理的制度、机制、流[2022-06-28]
- 数据仓库体系之贴源层、历[2022-06-27]
- 数据域和主题域是什么关系?[2022-06-24]
- 数据资产管理:关于数据发现[2022-06-23]
- 央企国企数字化转型,必须先[2022-06-22]
- 数字化转型是建个系统那么[2022-06-20]
- 非结构化数据,怎么治理?[2022-06-17]
- 如何打造数据治理闭环?以保[2022-06-16]
- 什么样的公司需要数据治理?[2022-06-15]
数据安全防控:数据脱敏
一、数据脱敏的基础概念
所谓的数据脱敏,是指在不影响数据分析结果的准确性前提下,对原始数据中的敏感字段进行处理,从而降低数据敏感度和减少个人隐私风险的技术措施。
具体效果上,主要是去标识化和匿名化。
l 去标识化:是指通过对个人信息的技术处理,使得在不借助额外信息的情况下,无法识别个人信息主体
l 匿名化:是指通过对个人信息的技术处理,使得个人信息主体无法被识别或关联,且处理后的信息不能被还原的过程
二、常见的脱敏场景
企业内部常见的数据脱敏场景主要包括数据报告脱敏、应用系统脱敏、数据库脱敏等。
(1)静态(数据文件)脱敏
适用于批量进行脱敏数据。比如用于模型训练的测试数据,再比如数据的导出用于离线数据分析。
(2)动态(数据库)脱敏
动态数据脱敏主要指的是数据库脱敏。具体而言,指的是比如研发人员的开发调试、DBA日常数据管理、运维人员基础运维等。
(3)应用系统脱敏
应用系统脱敏主要指的是前端页面的敏感数据脱敏,以及数据类型接口API的透出数据脱敏。
(4)数据报告及数据产品脱敏
这类场景主要包括内部的数据监控类产品或者看板、对外服务的数据类产品、基于数据分析的报告,比如业务汇报、项目复盘等。
三、常用的脱敏技术方法
常见的数据脱敏技术主要包括以下几类。
(1)统计技术
统计技术是一种对数据集进行去标识化的常用方法,主要包括数据抽样和数据聚合两种技术。
l 数据抽样:是通过选取数据集中有代表性的⼦集来对原始数据集进⾏分析和评估的,它是提升去标识化技术有效性的重要⽅法。
l 数据聚合:作为⼀系列统计技术(如求和、计数、平均、最⼤值与最⼩值)的集合,应⽤于微数据中的属性时,产⽣的结果能够代表原始数据集中的所有记录。
(2)密码技术
密码技术是去标识化或提升去标识化技术有效性的常⽤⽅法,采⽤不同类型的加密算法所能达到不同的脱敏效果。
l 确定性加密:⼀种⾮随机对称加密,常见对id类数据进⾏处理,可在必要时对密⽂进⾏解密还原为原id,但需要对密钥进⾏妥善保护。
l 不可逆加密:通常散列(hash)函数对数据进⾏处理,常见于对id类数据进⾏处理,不可以直接解密,需保存映射关系,同时因为hash函数特性,会存在数据碰撞的问题,⽤法简单,不⽤担⼼密钥保护。
l 同态加密:⽤密⽂同态算法,其特点是密⽂运算的结果解密之后和明⽂运算相同,因此常见于对数值类字段进⾏处理,但性能原因,⽬前未⼤范围使⽤。
(3)抑制技术
抑制技术即对不满⾜隐私保护的数据项删除或屏蔽,不进⾏发布。
l 屏蔽:是指对属性值进行屏蔽,最常见的脱敏方式,如对手机号、身份证进行打*号处理,或对于地址采取截断的方式;
l 局部抑制:是指删除特定的属性值(列)的处理方式,删除非必要的数据字段;
l 记录抑制:是指删除特定的记录(行)的处理方式,删除非必要的数据记录。
(4)假名化技术
假名化技术是⼀种使⽤假名替换直接标识(或其它敏感标识符)的去标识化技术。假名化技术为每⼀个⼈信息主体创建唯⼀的标识符,以取代原来的直接标识或敏感标识符。
l 可以独立生成随机值对原始ID进⾏对应,并保存映射关系表,同时对映射关系表的访问进⾏严格控制;
l 同样可以采用加密的方式生产假名,但需为妥善保存解密密钥;
该技术广泛使用在数据使用方数量多且相互独立的情况,比如开放平台场景的openid,同样⼀个⽤户,不同开发者获取的openid不同。
(5)泛化技术
泛化技术是指⼀种降低数据集中所选属性粒度的去标识化技术,对数据进⾏更概括、抽象的描述。泛化技术实现简单,能保护记录级数据的真实性,常见于数据产品或数据报告中。
取整:涉及到为所选的属性选定⼀个取整基数,比如向上或向下取证,产出结果100、500、1k、10k
顶层与底层编码技术:使用表示顶层(或底层)的阈值替换⾼于(或低于)该阈值的值,产出结果为 “高于X”或 “低于X”
(6)随机化技术
随机化技术作为⼀种去标识化技术类别,指通过随机化修改属性的值,使得随机化处理后的值区别于原来的真实值。该过程降低了攻击者从同⼀数据记录中根据其它属性值推导出某⼀属性值的能⼒,但会影响结果数据的真实性,常见于生产测试数据。