数据安全前沿技术敏感数据智能识别

2023-10-13 14:30

本文主要是介绍数据安全前沿技术敏感数据智能识别,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

敏感数据智能识别

智能敏感数据识别技术主要应用在文本、图像等非结构化数据类型中。智能敏感识别包括三类智能 算法:基于相似度、非监督学习和监督学习。

基于相似度算法可准确检测以文档形式存储的非结构化数据,例如 Word 与 PowerPoint 文件、PDF 文档、财务、并购文档,以及其他敏感或专有信息。首先,手工或者通过感知算法(例如,SimHash)取文档指纹特征,以检测原始文档的已检索部分、草稿或不同版本的受保护文档。第二步进行敏感文 件的学习和训练,获得敏感内容的文档时,采用语义分析的技术进行分词,出来需要学习和训练的敏 感信息文档的指纹模型,然后利用同样的方法对被测的文档或内容进行指纹抓取,将得到的指纹与训练 的指纹进行比对,根据预设的相似度阈值去确认被检测文档是否为敏感信息文档。

基于非监督学习算法,人工无需打标签,进行特征设计与提取,比如敏感图像场景提取目标关键点、 文档数据根据语义取特征向量。首先选取 K-means、DBSCAN 等聚类算法其中之一作为训练算法, 然后将敏感数据待分类的数目赋为聚类“簇”的个数,将输入的样本数据进行聚类,聚类完成形成不同 “簇”的数据集合,人工对这些“簇”的部分样本进行分析并确定相应“簇”的类别,比如敏感型、非 敏感型。

基于监督学习算法需收集一定数量的训练数据(比如文档、图片),同时对数据进行人工打标签, 比如敏感 / 非敏感标签(二分类场景)。然后选择相应的监督学习算法,比如支持向量机(SVM)、决 策树、随机森林、神经网络等,再对训练数据进行模型训练与调参。训练完成,将输出的模型应用在新 的数据进行智能识别与预测,自动化输出数据类型⸺敏感 / 非敏感数据。

在实际应用中,Securiti.ai [17] 和 BigID [19]公司均宣称利用机器学习和聚类算法在大规模数据实现分 类,以自动化发现个人数据以及其他敏感数据。但算法的效率、识别精度以及可扩展性仍然是一系列富 有挑战性的关键问题。

数据脱敏风险评估

数据脱敏风险评估,是对脱敏的数据的隐私泄露风险进行分析和刻画。其技术主要可分为两类:基 于人工抽查的定性判定方法、和通用的评估技术。其中,基于人工抽查的定性判定方法,指的是按照标 准流程和表格进行专家检查和判定,然而,这种方法成本十分昂贵。

通用的风险评估技术与数据脱敏方法与模型无关,在学术上通常称为重标识风险(re-identification risk)的度量。加拿大学者 El Emam 建立较为通用的重标识风险评估理论与方法 ,根据攻击者能力,以 及攻击意图将攻击分为三类场景,并将其形象化命名为⸺检察官攻击 (Prosecutor attack)、记者攻

击 (Journalist attack)和营销者攻击 (Marketer attack)[21],相关描述由表 4-1 所示。

表 4-1 重标识攻击场景与举例

攻击场景描述潜在攻击者举例
检察官攻击攻击者知道某个特定人员在公开的数据集(背景知识), 且了解特定人员的身份属性信息(攻击能力),由于 好奇特定人员的其他敏感属性(攻击意图)发起针对 特定目标的攻击1、朋友 2、同学 3、邻居等某个人了解他的同学是某次受访的调 查对象,他在公开网站的去标识化数 据集去查找他的同学属于哪一行记录
记者攻击攻击者拥有私有的或者可访问公开的身份数据库(攻 击能力),但他并不知道数据库的人员是否在公开的 去标识数据集中,他通过多次炫耀式攻击证明某人可 以被重新标识,使得公开数据库的组织感到难堪或者 名誉扫地(攻击意图)1、公众人士 2、研究人员 3、竞争对手等研究人员将去标识化的医疗患者信息 数据集与公开的州选民的登记表进行 关联,恢复和确认大部分患者信息的 身份
营销者攻击攻击者拥有私有的或者可访问公开的身份数据库(攻 击能力),他将其与去标识化数据集进行关联,实现 对身份数据库的人进行扩展更多维度的画像(攻击意 图),无需证明重标识结果的正确性,仅需保证较高 概率的关联性

1、 大数据企业 2、 广告商

3、 掌握黑灰产数据 库的黑客

大数据企业从网络搜集用户各类数据 集,进行同一实体识别,进行维度扩 展和精确画像
重标识攻击场景下的风险评估,可从攻击的可能性维度进行评估,其定义的指标与计算由表 4-2给出。 其中,检察官攻击、记者攻击均用最大重标识概率、平均重标识概率、高重标识记录占比 3 个指标刻画; 营销者攻击在两种情况分别用两者其一的平均重标识概率刻画。这 8 个指标的数值范围均为 [0,1],1 表 示最高重标识风险,0 表示几乎最低重标识风险。在业务场景中,可根据实际情况,选择合的指标集

进行评估。

表 4-2 重标识攻击场景的可能性度量

攻击场景评估指标指标意义符号含义
检察官攻击

1×∑ f >If j  

1 τ 

R P a

j

n

jJ

1

= =

R

P b

min(f ) j

jJ

J

R

P c n

PRa刻画重标识概率大于τ 的数据集记录占总体的比例; PR 刻画数据集所有记录中最大的重标识概率;

b

R 刻画平均重标识概率

P c

n J

➀ ―数据集记录的数量;

➁ ―数据集的等价组的集合;

J

➂ ―数据集的等价组数量;

f ―数据集等价组为 jJ 的 数量;

j

➄τ ―阈值;

I(⋅)―当输入为真,输出为 1

否则为 0;

N ―身份数据集记录(可访 问或拥有的)的数量;

F ―身份数据集(可访问或 j

拥有的)等价组为 jJ 的数量

记者攻击

R ∑× f l>1

 τ 

1

J a n jJF j

j

1

R =

J b

min(F ) j

jJ

1 f

J

, ∑ j n jJ F

R =

J c max∑F

j

j

jJ

Ra刻画重标识概率大于τ 的数据集记录占总体的比例; R 刻画数据集所有记录中最大的重标识概率;

J J J

b

R 刻画平均重标识概率

c

   

营销者攻击

R =

M 1 N

R =

M 2

R, R2分别刻画在情况 1 和 2 下的平均重标识概率; M 1

M

情况 1:身份数据集和发布数据集的个人信息主体完全相同; 情况 2:发布数据集是身份数据集的个人信息主体的一部分

27

在工业应用中,EI Emam 等人将研究的理论进行应用与落地,创立一家面向医疗隐私数据的保护 的数据安全公司 Privacy Analytics,主要面向数据脱敏以及风险评估与检测,帮助数据处理企业实现 HIPAA合规,同时将数据共享价值最大化,比如数据处理企业可借助前述产品,将合规的数据出售给保 险、药企和科研结构等第三方。

我国《网络安全法》的第四十二条规定“网络运营者不得泄露、篡改、毁损其收集的个人信息;未 经被收集者同意,不得向他人供个人信息。但是,经过处理无法识别特定个人且不能复原的除外”, 也就是说涉及到个人信息数据共享有两条合法路径:一种是征求用户同意,但对于巨量的用户群体,这 就意味着巨大的成本和结果的不确定性;另一种是技术性方法,满足“特定门槛”(满足无法识别特定 个人且不能复原)的脱敏处理,这意味着数据脱敏(不可逆的脱敏方法)+ 脱敏效果的评估可满足法规 要求。绿盟科技出的数据脱敏与效果评估框架如图 4-1 所示,个人数据经过数据脱敏后,对脱敏结果 和使用技术进行风

险评估,最终得到

风险值,根据预置

场景:内部使用、

与第三方共享、对

外交易的、对外公

开发布的阈值进行 图 4-1 绿盟科技数据脱敏 -脱敏效果评估框架 比较,若不满足分

析原因,实施二次

脱敏,直到脱敏的

残余风险在可控范

围。如图 4-2 所示,

对身份证号和手机

号的数据集进行三

次“脱敏 -评估”循

环,直至风险的可

能性和危害性落入

可接收范围内。 图 4-2 数据脱敏 -脱敏效果评估方法在身份证号和手机号数据集的应用

参考资料

绿盟 2020 数据安全前沿技术研究报告

这篇关于数据安全前沿技术敏感数据智能识别的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/203867

相关文章

智能客服到个人助理,国内AI大模型如何改变我们的生活?

引言 随着人工智能(AI)技术的高速发展,AI大模型越来越多地出现在我们的日常生活和工作中。国内的AI大模型在过去几年里取得了显著的进展,不少独创的技术点和实际应用令人瞩目。 那么,国内的AI大模型有哪些独创的技术点?它们在实际应用中又有哪些出色表现呢?此外,普通人又该如何利用这些大模型提升工作和生活的质量和效率呢?本文将为你一一解析。 一、国内AI大模型的独创技术点 多模态学习 多

基于CTPN(tensorflow)+CRNN(pytorch)+CTC的不定长文本检测和识别

转发来源:https://swift.ctolib.com/ooooverflow-chinese-ocr.html chinese-ocr 基于CTPN(tensorflow)+CRNN(pytorch)+CTC的不定长文本检测和识别 环境部署 sh setup.sh 使用环境: python 3.6 + tensorflow 1.10 +pytorch 0.4.1 注:CPU环境

百度OCR识别结构结构化处理视频

https://edu.csdn.net/course/detail/10506

基于 Java 实现的智能客服聊天工具模拟场景

服务端代码 import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import java.io.PrintWriter;import java.net.ServerSocket;import java.net.Socket;public class Serv

Pycharm配置conda环境(解决新版本无法识别可执行文件问题)

引言: 很多小伙伴在下载最新版本的pycharm或者更新到最新版本后为项目配置conda环境的时候,发现文件夹目录中无法显示可执行文件(一般为python.exe),以下就是本人遇到该问题后试验和解决该问题的一些方法和思路。 一般遇到该问题的人群有两种,一种是刚入门对pycharm进行conda环境配置的小白(例如我),不熟悉相关环境配置的操作和过程,还有一种是入坑pycharm有段时间的老手

神经网络第四篇:推理处理之手写数字识别

到目前为止,我们已经介绍完了神经网络的基本结构,现在用一个图像识别示例对前面的知识作整体的总结。本专题知识点如下: MNIST数据集图像数据转图像神经网络的推理处理批处理  MNIST数据集          mnist数据图像 MNIST数据集由0到9的数字图像构成。像素取值在0到255之间。每个图像数据都相应地标有“7”、“2”、“1”等数字标签。MNIST数据集中,

江西电信联合实在智能举办RPA数字员工培训班,培养“人工智能+”电信人才

近日,江西电信与实在智能合作的2024年数字员工开发应用培训班圆满闭幕。包括省公司及11个分公司的核心业务部门,超过40名学员积极报名参与此次培训,江西电信企业信息化部门总监徐建军出席活动并致辞,风控支撑室主任黄剑主持此次培训活动。 在培训会开幕仪式上,徐建军强调,科创是电信企业发展的核心动力,学习RPA技术是实现数字化转型的关键,他阐述了RPA在提高效率、降低成本和优化资源方面的价值,并鼓励学

vscode python pip : 无法将“pip”项识别为 cmdlet、函数、脚本文件或可运行程序的名称

在vscode中控制台运行python文件出现:无法将"pip”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。 使用vscode开发python,需要安装python开发扩展: 本文已经安装,我们需要找的是python安装所在目录,本文实际路径如下: 如果在本文路径中没有此目录,请尝试在C盘中搜索 python,搜索到相关python目录后,点击Python 3.9进入目录,

【图像识别系统】昆虫识别Python+卷积神经网络算法+人工智能+深度学习+机器学习+TensorFlow+ResNet50

一、介绍 昆虫识别系统,使用Python作为主要开发语言。通过TensorFlow搭建ResNet50卷积神经网络算法(CNN)模型。通过对10种常见的昆虫图片数据集(‘蜜蜂’, ‘甲虫’, ‘蝴蝶’, ‘蝉’, ‘蜻蜓’, ‘蚱蜢’, ‘蛾’, ‘蝎子’, ‘蜗牛’, ‘蜘蛛’)进行训练,得到一个识别精度较高的H5格式模型文件,然后使用Django搭建Web网页端可视化操作界面,实现用户上传一

关于文章“python+百度语音识别+星火大模型+讯飞语音合成的语音助手”报错的修改

前言 关于我的文章:python+百度语音识别+星火大模型+讯飞语音合成的语音助手,运行不起来的问题 文章地址: https://blog.csdn.net/Phillip_xian/article/details/138195725?spm=1001.2014.3001.5501 1.报错问题 如果运行中报错,且报错位置在Xufi_Voice.py文件中的pcm_2_wav,如下图所示