数据安全前沿技术敏感数据智能识别

本文主要是介绍数据安全前沿技术敏感数据智能识别，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

敏感数据智能识别

智能敏感数据识别技术主要应用在文本、图像等非结构化数据类型中。智能敏感识别包括三类智能算法：基于相似度、非监督学习和监督学习。

基于相似度算法可准确检测以文档形式存储的非结构化数据，例如 Word 与 PowerPoint 文件、PDF 文档、财务、并购文档，以及其他敏感或专有信息。首先，手工或者通过感知算法（例如，SimHash）取文档指纹特征，以检测原始文档的已检索部分、草稿或不同版本的受保护文档。第二步进行敏感文件的学习和训练，获得敏感内容的文档时，采用语义分析的技术进行分词，出来需要学习和训练的敏感信息文档的指纹模型，然后利用同样的方法对被测的文档或内容进行指纹抓取，将得到的指纹与训练的指纹进行比对，根据预设的相似度阈值去确认被检测文档是否为敏感信息文档。

基于非监督学习算法，人工无需打标签，进行特征设计与提取，比如敏感图像场景提取目标关键点、文档数据根据语义取特征向量。首先选取 K-means、DBSCAN 等聚类算法其中之一作为训练算法，然后将敏感数据待分类的数目赋为聚类“簇”的个数，将输入的样本数据进行聚类，聚类完成形成不同 “簇”的数据集合，人工对这些“簇”的部分样本进行分析并确定相应“簇”的类别，比如敏感型、非敏感型。

基于监督学习算法需收集一定数量的训练数据（比如文档、图片），同时对数据进行人工打标签，比如敏感 / 非敏感标签（二分类场景）。然后选择相应的监督学习算法，比如支持向量机（SVM）、决策树、随机森林、神经网络等，再对训练数据进行模型训练与调参。训练完成，将输出的模型应用在新的数据进行智能识别与预测，自动化输出数据类型⸺敏感 / 非敏感数据。

在实际应用中，Securiti.ai [17] 和 BigID [19]公司均宣称利用机器学习和聚类算法在大规模数据实现分类，以自动化发现个人数据以及其他敏感数据。但算法的效率、识别精度以及可扩展性仍然是一系列富有挑战性的关键问题。

数据脱敏风险评估

数据脱敏风险评估，是对脱敏的数据的隐私泄露风险进行分析和刻画。其技术主要可分为两类：基于人工抽查的定性判定方法、和通用的评估技术。其中，基于人工抽查的定性判定方法，指的是按照标准流程和表格进行专家检查和判定，然而，这种方法成本十分昂贵。

通用的风险评估技术与数据脱敏方法与模型无关，在学术上通常称为重标识风险（re-identification risk）的度量。加拿大学者 El Emam 建立较为通用的重标识风险评估理论与方法 ,根据攻击者能力，以及攻击意图将攻击分为三类场景，并将其形象化命名为⸺检察官攻击（Prosecutor attack）、记者攻

击（Journalist attack）和营销者攻击（Marketer attack）[21]，相关描述由表 4-1 所示。

表 4-1　重标识攻击场景与举例

攻击场景	描述	潜在攻击者	举例
检察官攻击	攻击者知道某个特定人员在公开的数据集（背景知识），且了解特定人员的身份属性信息（攻击能力），由于好奇特定人员的其他敏感属性（攻击意图）发起针对特定目标的攻击	1、朋友 2、同学 3、邻居等	某个人了解他的同学是某次受访的调查对象，他在公开网站的去标识化数据集去查找他的同学属于哪一行记录
记者攻击	攻击者拥有私有的或者可访问公开的身份数据库（攻击能力），但他并不知道数据库的人员是否在公开的去标识数据集中，他通过多次炫耀式攻击证明某人可以被重新标识，使得公开数据库的组织感到难堪或者名誉扫地（攻击意图）	1、公众人士 2、研究人员 3、竞争对手等	研究人员将去标识化的医疗患者信息数据集与公开的州选民的登记表进行关联，恢复和确认大部分患者信息的身份
营销者攻击	攻击者拥有私有的或者可访问公开的身份数据库（攻击能力），他将其与去标识化数据集进行关联，实现对身份数据库的人进行扩展更多维度的画像（攻击意图），无需证明重标识结果的正确性，仅需保证较高概率的关联性	1、大数据企业 2、广告商 3、掌握黑灰产数据库的黑客	大数据企业从网络搜集用户各类数据集，进行同一实体识别，进行维度扩展和精确画像
重标识攻击场景下的风险评估，可从攻击的可能性维度进行评估，其定义的指标与计算由表 4-2给出。其中，检察官攻击、记者攻击均用最大重标识概率、平均重标识概率、高重标识记录占比 3 个指标刻画；营销者攻击在两种情况分别用两者其一的平均重标识概率刻画。这 8 个指标的数值范围均为 [0,1]，1 表示最高重标识风险，0 表示几乎最低重标识风险。在业务场景中，可根据实际情况，选择合的指标集

进行评估。

表 4-2　重标识攻击场景的可能性度量

攻击场景	评估指标	指标意义	符号含义
检察官攻击	1×∑ f >If j   1 τ  R P a j n j∈J 1 = = R P b min(f ) j j∈J J R P c n	PRa刻画重标识概率大于τ 的数据集记录占总体的比例； PR 刻画数据集所有记录中最大的重标识概率； b R 刻画平均重标识概率 P c	n J ➀ ―数据集记录的数量； ➁ ―数据集的等价组的集合； J ➂ ―数据集的等价组数量； ➃ f ―数据集等价组为 j∈J 的数量； j ➄τ ―阈值； ➅ I(⋅)―当输入为真，输出为 1 否则为 0； ➆ N ―身份数据集记录（可访问或拥有的）的数量； ➇ F ―身份数据集（可访问或 j 拥有的）等价组为 j∈J 的数量
记者攻击	R ∑× f l>1  τ  1 J a n j∈J F j j  1 R = J b min(F ) j j∈J  1 f J  , ∑ j n j∈J F R = J c max∑F j j j∈J	Ra刻画重标识概率大于τ 的数据集记录占总体的比例； R 刻画数据集所有记录中最大的重标识概率； J J J b R 刻画平均重标识概率 c     
营销者攻击	R = M 1 N R = M 2		R, R2分别刻画在情况 1 和 2 下的平均重标识概率； M 1 M 情况 1：身份数据集和发布数据集的个人信息主体完全相同；情况 2：发布数据集是身份数据集的个人信息主体的一部分
27

在工业应用中，EI Emam 等人将研究的理论进行应用与落地，创立一家面向医疗隐私数据的保护的数据安全公司 Privacy Analytics，主要面向数据脱敏以及风险评估与检测，帮助数据处理企业实现 HIPAA合规，同时将数据共享价值最大化，比如数据处理企业可借助前述产品，将合规的数据出售给保险、药企和科研结构等第三方。

我国《网络安全法》的第四十二条规定“网络运营者不得泄露、篡改、毁损其收集的个人信息；未经被收集者同意，不得向他人供个人信息。但是，经过处理无法识别特定个人且不能复原的除外”，也就是说涉及到个人信息数据共享有两条合法路径：一种是征求用户同意，但对于巨量的用户群体，这就意味着巨大的成本和结果的不确定性；另一种是技术性方法，满足“特定门槛”（满足无法识别特定个人且不能复原）的脱敏处理，这意味着数据脱敏（不可逆的脱敏方法）+ 脱敏效果的评估可满足法规要求。绿盟科技出的数据脱敏与效果评估框架如图 4-1 所示，个人数据经过数据脱敏后，对脱敏结果和使用技术进行风

险评估，最终得到

风险值，根据预置

场景：内部使用、

与第三方共享、对

外交易的、对外公

开发布的阈值进行图 4-1　绿盟科技数据脱敏 -脱敏效果评估框架比较，若不满足分

析原因，实施二次

脱敏，直到脱敏的

残余风险在可控范

围。如图 4-2 所示，

对身份证号和手机

号的数据集进行三