数据安全前沿技术敏感数据智能识别

2023-10-13 14:30

本文主要是介绍数据安全前沿技术敏感数据智能识别,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

敏感数据智能识别

智能敏感数据识别技术主要应用在文本、图像等非结构化数据类型中。智能敏感识别包括三类智能 算法:基于相似度、非监督学习和监督学习。

基于相似度算法可准确检测以文档形式存储的非结构化数据,例如 Word 与 PowerPoint 文件、PDF 文档、财务、并购文档,以及其他敏感或专有信息。首先,手工或者通过感知算法(例如,SimHash)取文档指纹特征,以检测原始文档的已检索部分、草稿或不同版本的受保护文档。第二步进行敏感文 件的学习和训练,获得敏感内容的文档时,采用语义分析的技术进行分词,出来需要学习和训练的敏 感信息文档的指纹模型,然后利用同样的方法对被测的文档或内容进行指纹抓取,将得到的指纹与训练 的指纹进行比对,根据预设的相似度阈值去确认被检测文档是否为敏感信息文档。

基于非监督学习算法,人工无需打标签,进行特征设计与提取,比如敏感图像场景提取目标关键点、 文档数据根据语义取特征向量。首先选取 K-means、DBSCAN 等聚类算法其中之一作为训练算法, 然后将敏感数据待分类的数目赋为聚类“簇”的个数,将输入的样本数据进行聚类,聚类完成形成不同 “簇”的数据集合,人工对这些“簇”的部分样本进行分析并确定相应“簇”的类别,比如敏感型、非 敏感型。

基于监督学习算法需收集一定数量的训练数据(比如文档、图片),同时对数据进行人工打标签, 比如敏感 / 非敏感标签(二分类场景)。然后选择相应的监督学习算法,比如支持向量机(SVM)、决 策树、随机森林、神经网络等,再对训练数据进行模型训练与调参。训练完成,将输出的模型应用在新 的数据进行智能识别与预测,自动化输出数据类型⸺敏感 / 非敏感数据。

在实际应用中,Securiti.ai [17] 和 BigID [19]公司均宣称利用机器学习和聚类算法在大规模数据实现分 类,以自动化发现个人数据以及其他敏感数据。但算法的效率、识别精度以及可扩展性仍然是一系列富 有挑战性的关键问题。

数据脱敏风险评估

数据脱敏风险评估,是对脱敏的数据的隐私泄露风险进行分析和刻画。其技术主要可分为两类:基 于人工抽查的定性判定方法、和通用的评估技术。其中,基于人工抽查的定性判定方法,指的是按照标 准流程和表格进行专家检查和判定,然而,这种方法成本十分昂贵。

通用的风险评估技术与数据脱敏方法与模型无关,在学术上通常称为重标识风险(re-identification risk)的度量。加拿大学者 El Emam 建立较为通用的重标识风险评估理论与方法 ,根据攻击者能力,以 及攻击意图将攻击分为三类场景,并将其形象化命名为⸺检察官攻击 (Prosecutor attack)、记者攻

击 (Journalist attack)和营销者攻击 (Marketer attack)[21],相关描述由表 4-1 所示。

表 4-1 重标识攻击场景与举例

攻击场景描述潜在攻击者举例
检察官攻击攻击者知道某个特定人员在公开的数据集(背景知识), 且了解特定人员的身份属性信息(攻击能力),由于 好奇特定人员的其他敏感属性(攻击意图)发起针对 特定目标的攻击1、朋友 2、同学 3、邻居等某个人了解他的同学是某次受访的调 查对象,他在公开网站的去标识化数 据集去查找他的同学属于哪一行记录
记者攻击攻击者拥有私有的或者可访问公开的身份数据库(攻 击能力),但他并不知道数据库的人员是否在公开的 去标识数据集中,他通过多次炫耀式攻击证明某人可 以被重新标识,使得公开数据库的组织感到难堪或者 名誉扫地(攻击意图)1、公众人士 2、研究人员 3、竞争对手等研究人员将去标识化的医疗患者信息 数据集与公开的州选民的登记表进行 关联,恢复和确认大部分患者信息的 身份
营销者攻击攻击者拥有私有的或者可访问公开的身份数据库(攻 击能力),他将其与去标识化数据集进行关联,实现 对身份数据库的人进行扩展更多维度的画像(攻击意 图),无需证明重标识结果的正确性,仅需保证较高 概率的关联性

1、 大数据企业 2、 广告商

3、 掌握黑灰产数据 库的黑客

大数据企业从网络搜集用户各类数据 集,进行同一实体识别,进行维度扩 展和精确画像
重标识攻击场景下的风险评估,可从攻击的可能性维度进行评估,其定义的指标与计算由表 4-2给出。 其中,检察官攻击、记者攻击均用最大重标识概率、平均重标识概率、高重标识记录占比 3 个指标刻画; 营销者攻击在两种情况分别用两者其一的平均重标识概率刻画。这 8 个指标的数值范围均为 [0,1],1 表 示最高重标识风险,0 表示几乎最低重标识风险。在业务场景中,可根据实际情况,选择合的指标集

进行评估。

表 4-2 重标识攻击场景的可能性度量

攻击场景评估指标指标意义符号含义
检察官攻击

1×∑ f >If j  

1 τ 

R P a

j

n

jJ

1

= =

R

P b

min(f ) j

jJ

J

R

P c n

PRa刻画重标识概率大于τ 的数据集记录占总体的比例; PR 刻画数据集所有记录中最大的重标识概率;

b

R 刻画平均重标识概率

P c

n J

➀ ―数据集记录的数量;

➁ ―数据集的等价组的集合;

J

➂ ―数据集的等价组数量;

f ―数据集等价组为 jJ 的 数量;

j

➄τ ―阈值;

I(⋅)―当输入为真,输出为 1

否则为 0;

N ―身份数据集记录(可访 问或拥有的)的数量;

F ―身份数据集(可访问或 j

拥有的)等价组为 jJ 的数量

记者攻击

R ∑× f l>1

 τ 

1

J a n jJF j

j

1

R =

J b

min(F ) j

jJ

1 f

J

, ∑ j n jJ F

R =

J c max∑F

j

j

jJ

Ra刻画重标识概率大于τ 的数据集记录占总体的比例; R 刻画数据集所有记录中最大的重标识概率;

J J J

b

R 刻画平均重标识概率

c

   

营销者攻击

R =

M 1 N

R =

M 2

R, R2分别刻画在情况 1 和 2 下的平均重标识概率; M 1

M

情况 1:身份数据集和发布数据集的个人信息主体完全相同; 情况 2:发布数据集是身份数据集的个人信息主体的一部分

27

在工业应用中,EI Emam 等人将研究的理论进行应用与落地,创立一家面向医疗隐私数据的保护 的数据安全公司 Privacy Analytics,主要面向数据脱敏以及风险评估与检测,帮助数据处理企业实现 HIPAA合规,同时将数据共享价值最大化,比如数据处理企业可借助前述产品,将合规的数据出售给保 险、药企和科研结构等第三方。

我国《网络安全法》的第四十二条规定“网络运营者不得泄露、篡改、毁损其收集的个人信息;未 经被收集者同意,不得向他人供个人信息。但是,经过处理无法识别特定个人且不能复原的除外”, 也就是说涉及到个人信息数据共享有两条合法路径:一种是征求用户同意,但对于巨量的用户群体,这 就意味着巨大的成本和结果的不确定性;另一种是技术性方法,满足“特定门槛”(满足无法识别特定 个人且不能复原)的脱敏处理,这意味着数据脱敏(不可逆的脱敏方法)+ 脱敏效果的评估可满足法规 要求。绿盟科技出的数据脱敏与效果评估框架如图 4-1 所示,个人数据经过数据脱敏后,对脱敏结果 和使用技术进行风

险评估,最终得到

风险值,根据预置

场景:内部使用、

与第三方共享、对

外交易的、对外公

开发布的阈值进行 图 4-1 绿盟科技数据脱敏 -脱敏效果评估框架 比较,若不满足分

析原因,实施二次

脱敏,直到脱敏的

残余风险在可控范

围。如图 4-2 所示,

对身份证号和手机

号的数据集进行三

次“脱敏 -评估”循

环,直至风险的可

能性和危害性落入

可接收范围内。 图 4-2 数据脱敏 -脱敏效果评估方法在身份证号和手机号数据集的应用

参考资料

绿盟 2020 数据安全前沿技术研究报告

这篇关于数据安全前沿技术敏感数据智能识别的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/203867

相关文章

嵌入式QT开发:构建高效智能的嵌入式系统

摘要: 本文深入探讨了嵌入式 QT 相关的各个方面。从 QT 框架的基础架构和核心概念出发,详细阐述了其在嵌入式环境中的优势与特点。文中分析了嵌入式 QT 的开发环境搭建过程,包括交叉编译工具链的配置等关键步骤。进一步探讨了嵌入式 QT 的界面设计与开发,涵盖了从基本控件的使用到复杂界面布局的构建。同时也深入研究了信号与槽机制在嵌入式系统中的应用,以及嵌入式 QT 与硬件设备的交互,包括输入输出设

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

让树莓派智能语音助手实现定时提醒功能

最初的时候是想直接在rasa 的chatbot上实现,因为rasa本身是带有remindschedule模块的。不过经过一番折腾后,忽然发现,chatbot上实现的定时,语音助手不一定会有响应。因为,我目前语音助手的代码设置了长时间无应答会结束对话,这样一来,chatbot定时提醒的触发就不会被语音助手获悉。那怎么让语音助手也具有定时提醒功能呢? 我最后选择的方法是用threading.Time

智能交通(二)——Spinger特刊推荐

特刊征稿 01  期刊名称: Autonomous Intelligent Systems  特刊名称: Understanding the Policy Shift  with the Digital Twins in Smart  Transportation and Mobility 截止时间: 开放提交:2024年1月20日 提交截止日

基于 YOLOv5 的积水检测系统:打造高效智能的智慧城市应用

在城市发展中,积水问题日益严重,特别是在大雨过后,积水往往会影响交通甚至威胁人们的安全。通过现代计算机视觉技术,我们能够智能化地检测和识别积水区域,减少潜在危险。本文将介绍如何使用 YOLOv5 和 PyQt5 搭建一个积水检测系统,结合深度学习和直观的图形界面,为用户提供高效的解决方案。 源码地址: PyQt5+YoloV5 实现积水检测系统 预览: 项目背景

【C++学习笔记 20】C++中的智能指针

智能指针的功能 在上一篇笔记提到了在栈和堆上创建变量的区别,使用new关键字创建变量时,需要搭配delete关键字销毁变量。而智能指针的作用就是调用new分配内存时,不必自己去调用delete,甚至不用调用new。 智能指针实际上就是对原始指针的包装。 unique_ptr 最简单的智能指针,是一种作用域指针,意思是当指针超出该作用域时,会自动调用delete。它名为unique的原因是这个

单片机毕业设计基于单片机的智能门禁系统的设计与实现

文章目录 前言资料获取设计介绍功能介绍程序代码部分参考 设计清单具体实现截图参考文献设计获取 前言 💗博主介绍:✌全网粉丝10W+,CSDN特邀作者、博客专家、CSDN新星计划导师,一名热衷于单片机技术探索与分享的博主、专注于 精通51/STM32/MSP430/AVR等单片机设计 主要对象是咱们电子相关专业的大学生,希望您们都共创辉煌!✌💗 👇🏻 精彩专栏 推荐订

【C++】作用域指针、智能指针、共享指针、弱指针

十、智能指针、共享指针 从上篇文章 【C++】如何用C++创建对象,理解作用域、堆栈、内存分配-CSDN博客 中我们知道,你的对象是创建在栈上还是在堆上,最大的区别就是对象的作用域不一样。所以在C++中,一旦程序进入另外一个作用域,那其他作用域的对象就自动销毁了。这种机制有好有坏。我们可以利用这个机制,比如可以自动化我们的代码,像智能指针、作用域锁(scoped_lock)等都是利用了这种机制。

Clion不识别C代码或者无法跳转C语言项目怎么办?

如果是中文会显示: 此时只需要右击项目,或者你的源代码目录,将这个项目或者源码目录标记为项目源和头文件即可。 英文如下:

什么是LED智能会议一体机?COB超微小间距LED会议一体机大势所趋

LED智能会议一体机,作为现代会议室革新的核心装备,正逐步颠覆传统会议模式的界限。它不仅仅是一台集成了高清显示、触控互动、音视频处理及远程协作等功能于一体的智能设备,更是推动会议效率与体验双重飞跃的关键力量。随着技术的不断进步,特别是COB(Chip On Board)超微小间距LED技术的引入,LED智能会议一体机正迎来前所未有的发展机遇,成为大势所趋。 COB技术通过将LED芯片直接封装在基