本文主要是介绍数据安全前沿技术敏感数据智能识别,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
敏感数据智能识别
智能敏感数据识别技术主要应用在文本、图像等非结构化数据类型中。智能敏感识别包括三类智能 算法:基于相似度、非监督学习和监督学习。
基于相似度算法可准确检测以文档形式存储的非结构化数据,例如 Word 与 PowerPoint 文件、PDF 文档、财务、并购文档,以及其他敏感或专有信息。首先,手工或者通过感知算法(例如,SimHash)取文档指纹特征,以检测原始文档的已检索部分、草稿或不同版本的受保护文档。第二步进行敏感文 件的学习和训练,获得敏感内容的文档时,采用语义分析的技术进行分词,出来需要学习和训练的敏 感信息文档的指纹模型,然后利用同样的方法对被测的文档或内容进行指纹抓取,将得到的指纹与训练 的指纹进行比对,根据预设的相似度阈值去确认被检测文档是否为敏感信息文档。
基于非监督学习算法,人工无需打标签,进行特征设计与提取,比如敏感图像场景提取目标关键点、 文档数据根据语义取特征向量。首先选取 K-means、DBSCAN 等聚类算法其中之一作为训练算法, 然后将敏感数据待分类的数目赋为聚类“簇”的个数,将输入的样本数据进行聚类,聚类完成形成不同 “簇”的数据集合,人工对这些“簇”的部分样本进行分析并确定相应“簇”的类别,比如敏感型、非 敏感型。
基于监督学习算法需收集一定数量的训练数据(比如文档、图片),同时对数据进行人工打标签, 比如敏感 / 非敏感标签(二分类场景)。然后选择相应的监督学习算法,比如支持向量机(SVM)、决 策树、随机森林、神经网络等,再对训练数据进行模型训练与调参。训练完成,将输出的模型应用在新 的数据进行智能识别与预测,自动化输出数据类型⸺敏感 / 非敏感数据。
在实际应用中,Securiti.ai [17] 和 BigID [19]公司均宣称利用机器学习和聚类算法在大规模数据实现分 类,以自动化发现个人数据以及其他敏感数据。但算法的效率、识别精度以及可扩展性仍然是一系列富 有挑战性的关键问题。
数据脱敏风险评估
数据脱敏风险评估,是对脱敏的数据的隐私泄露风险进行分析和刻画。其技术主要可分为两类:基 于人工抽查的定性判定方法、和通用的评估技术。其中,基于人工抽查的定性判定方法,指的是按照标 准流程和表格进行专家检查和判定,然而,这种方法成本十分昂贵。
通用的风险评估技术与数据脱敏方法与模型无关,在学术上通常称为重标识风险(re-identification risk)的度量。加拿大学者 El Emam 建立较为通用的重标识风险评估理论与方法 ,根据攻击者能力,以 及攻击意图将攻击分为三类场景,并将其形象化命名为⸺检察官攻击 (Prosecutor attack)、记者攻
击 (Journalist attack)和营销者攻击 (Marketer attack)[21],相关描述由表 4-1 所示。
表 4-1 重标识攻击场景与举例
攻击场景 | 描述 | 潜在攻击者 | 举例 |
---|---|---|---|
检察官攻击 | 攻击者知道某个特定人员在公开的数据集(背景知识), 且了解特定人员的身份属性信息(攻击能力),由于 好奇特定人员的其他敏感属性(攻击意图)发起针对 特定目标的攻击 | 1、朋友 2、同学 3、邻居等 | 某个人了解他的同学是某次受访的调 查对象,他在公开网站的去标识化数 据集去查找他的同学属于哪一行记录 |
记者攻击 | 攻击者拥有私有的或者可访问公开的身份数据库(攻 击能力),但他并不知道数据库的人员是否在公开的 去标识数据集中,他通过多次炫耀式攻击证明某人可 以被重新标识,使得公开数据库的组织感到难堪或者 名誉扫地(攻击意图) | 1、公众人士 2、研究人员 3、竞争对手等 | 研究人员将去标识化的医疗患者信息 数据集与公开的州选民的登记表进行 关联,恢复和确认大部分患者信息的 身份 |
营销者攻击 | 攻击者拥有私有的或者可访问公开的身份数据库(攻 击能力),他将其与去标识化数据集进行关联,实现 对身份数据库的人进行扩展更多维度的画像(攻击意 图),无需证明重标识结果的正确性,仅需保证较高 概率的关联性 | 1、 大数据企业 2、 广告商 3、 掌握黑灰产数据 库的黑客 | 大数据企业从网络搜集用户各类数据 集,进行同一实体识别,进行维度扩 展和精确画像 |
重标识攻击场景下的风险评估,可从攻击的可能性维度进行评估,其定义的指标与计算由表 4-2给出。 其中,检察官攻击、记者攻击均用最大重标识概率、平均重标识概率、高重标识记录占比 3 个指标刻画; 营销者攻击在两种情况分别用两者其一的平均重标识概率刻画。这 8 个指标的数值范围均为 [0,1],1 表 示最高重标识风险,0 表示几乎最低重标识风险。在业务场景中,可根据实际情况,选择合的指标集 |
进行评估。
表 4-2 重标识攻击场景的可能性度量
攻击场景 | 评估指标 | 指标意义 | 符号含义 |
---|---|---|---|
检察官攻击 | 1×∑ f >If j 1 τ R P a j n j∈J 1 = = R P b min(f ) j j∈J J R P c n | PRa刻画重标识概率大于τ 的数据集记录占总体的比例; PR 刻画数据集所有记录中最大的重标识概率; b R 刻画平均重标识概率 P c | n J ➀ ―数据集记录的数量; ➁ ―数据集的等价组的集合; J ➂ ―数据集的等价组数量; ➃ f ―数据集等价组为 j∈J 的 数量; j ➄τ ―阈值; ➅ I(⋅)―当输入为真,输出为 1 否则为 0; ➆ N ―身份数据集记录(可访 问或拥有的)的数量; ➇ F ―身份数据集(可访问或 j 拥有的)等价组为 j∈J 的数量 |
记者攻击 | R ∑× f l>1 τ 1 J a n j∈J F j j 1 R = J b min(F ) j j∈J 1 f J , ∑ j n j∈J F R = J c max∑F j j j∈J | Ra刻画重标识概率大于τ 的数据集记录占总体的比例; R 刻画数据集所有记录中最大的重标识概率; J J J b R 刻画平均重标识概率 c | |
营销者攻击 | R = M 1 N R = M 2 | R, R2分别刻画在情况 1 和 2 下的平均重标识概率; M 1 M 情况 1:身份数据集和发布数据集的个人信息主体完全相同; 情况 2:发布数据集是身份数据集的个人信息主体的一部分 | |
27 |
在工业应用中,EI Emam 等人将研究的理论进行应用与落地,创立一家面向医疗隐私数据的保护 的数据安全公司 Privacy Analytics,主要面向数据脱敏以及风险评估与检测,帮助数据处理企业实现 HIPAA合规,同时将数据共享价值最大化,比如数据处理企业可借助前述产品,将合规的数据出售给保 险、药企和科研结构等第三方。
我国《网络安全法》的第四十二条规定“网络运营者不得泄露、篡改、毁损其收集的个人信息;未 经被收集者同意,不得向他人供个人信息。但是,经过处理无法识别特定个人且不能复原的除外”, 也就是说涉及到个人信息数据共享有两条合法路径:一种是征求用户同意,但对于巨量的用户群体,这 就意味着巨大的成本和结果的不确定性;另一种是技术性方法,满足“特定门槛”(满足无法识别特定 个人且不能复原)的脱敏处理,这意味着数据脱敏(不可逆的脱敏方法)+ 脱敏效果的评估可满足法规 要求。绿盟科技出的数据脱敏与效果评估框架如图 4-1 所示,个人数据经过数据脱敏后,对脱敏结果 和使用技术进行风
险评估,最终得到
风险值,根据预置
场景:内部使用、
与第三方共享、对
外交易的、对外公
开发布的阈值进行 图 4-1 绿盟科技数据脱敏 -脱敏效果评估框架 比较,若不满足分
析原因,实施二次
脱敏,直到脱敏的
残余风险在可控范
围。如图 4-2 所示,
对身份证号和手机
号的数据集进行三
次“脱敏 -评估”循
环,直至风险的可
能性和危害性落入
可接收范围内。 图 4-2 数据脱敏 -脱敏效果评估方法在身份证号和手机号数据集的应用
参考资料
绿盟 2020 数据安全前沿技术研究报告
这篇关于数据安全前沿技术敏感数据智能识别的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!