信息论与大数据安全知识点

2024-06-20 06:04

本文主要是介绍信息论与大数据安全知识点,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 第一章 绪论
    • 大数据概述
    • 大数据安全与加密技术
  • 安全存储与访问控制技术
    • 访问控制概念
    • 早期的四种访问控制模型
      • 局限性总结
    • 大数据场景下的访问控制技术
  • 安全检索技术
    • 密文检索基础
  • 安全处理技术
    • 同态加密
  • 隐私保护技术

第一章 绪论

大数据概述

大数据的数据源可以分为 结构化数据 、 非结构化数据 、 半结构化数据

大数据生命周期分为 数据采集 、 数据传输 、 数据存储 、 数据分析与使用 四个阶段

物联网 作为大数据量的第一来源,大数据采集的第一步是 数据清洗

大数据安全与加密技术

从 大数据安全 角度考虑,优先使用 访问控制技术 与 加密技术
从 大数据隐私保护 角度考虑,优先使用 隐私保护技术

  • 基于大数据的威胁发现技术要求有:

    • 分析内容的范围更大
    • 分析内容的时间跨度更长
    • 对攻击威胁具有预测性
    • 对未知威胁的检测
  • 基于大数据的认证技术优点有:

    • 攻击者很难模拟用户的行为特征来通过认证,安全性更高
    • 减小用户负担
    • 更好的支持各系统认证机制的统一
    • 安全加密模型中存在 明文 、 密文 、 密钥 、 加密算法 等元素

加密技术按类型可以分为 对称加密 和 非对称加密

数字信封 使用 非对称加密 中的 公钥 进行加密 可以保证信息完整性

数字签名 使用 非对称加密 中的 私钥 进行加密 可以防止信息发送方的抵赖行为

安全存储与访问控制技术

访问控制概念

对资源对象的访问者授权、控制的方法及运行机制。

访问主体/访问者:能够发起对资源的访问请求的主动实体,通常为系统的用户或进程
访问客体/资源对象:能够被操作的实体,通常是各类系统和数据资源
授权:访问者可以对资源对象进行访问的方式,如读、写、删除
控制:对访问者使用方式的监测和限制,对是否许可用户访问资源对象作出决策。如允许、禁止等

早期的四种访问控制模型

早期的四种访问控制模型分别是:

  • 自主访问控制(DAC)
    采用这种方法时,受保护系统、数据或资源的所有者或管理员可以设置相关策略,规定可以访问的人员。
  • 强制访问控制(MAC)
    这种非自主模型则会根据信息放行来授予访问权限。中央机构根据不同的安全级别来管理访问权限,此模型在政府和军事环境中非常常见。
  • 基于角色的访问控制(RBAC)
    RBAC 根据定义的业务功能而非个人用户的身份来授予访问权限。这种方法的目标是为用户提供适当的访问权限,使其只能够访问对其在组织内的角色而言有必要的数据。这种方法是基于角色分配、授权和权限的复杂组合,使用非常广泛。
  • 基于属性的访问控制(ABAC)
    这种动态方法会基于一系列属性和环境条件(例如时间和位置)向用户和资源分配访问权限。
    自主访问控制的实现方式有两种,包括 能力表 和 访问控制列表
    强制访问控制最经典的有 BLP模型 和 Biba模型

基于角色访问控制 最基本的RBAC0模型定义了 用户 、角色 、会话和访问权限 。
在这里插入图片描述

基于角色的访问控制 用户和角色 之间是 多对多 的映射关系
基于角色的访问控制 角色和权限 之间是 多对多 的映射关系

局限性总结

早期访问控制模型和技术在大数据应用场景下主要存在三方面问题:
安全管理员的授权管理难度更大:
大数据规模和增长速度导致安全管理员工作量大;
大数据应用环境,使得安全管理员必须具备更多的领域知识来实施权限管理。
严格的访问控制策略难以适用:
访问需求无法预知;
访问需求动态变化。
外包存储环境(即数据所有者和数据存储服务提供者是不同的)下无法使用:
数据所有者不具备海量存储能力;
数据所有者不具备构建可信引用监控机的能力。

大数据场景下的访问控制技术

  • 大数据场景下的角色挖掘技术实现方式有两种:
    • 基于层次聚类的角色挖掘方法
    • 生成式角色挖掘方法

风险量化:是将访问行为对系统造成的风险进行数值评估,并且以组织过程资产文件作为量化标准
风险自适应的访问控制方案实施:以静态规则优先 、 风险控制之后控制的结果更多的结论是允许访问

基于单发送者广播加密的访问控制如图所示:红点代表解密文件,则U7将无法解密数据
在这里插入图片描述

安全检索技术

云存储是云计算衍生的概念,它将数据的 所有权 和 管理权 分离,导致用户数据将面临多方面威胁。

密文检索基础

密文检索主要涉及 数据所有者、数据检索者、服务器 3种角色

  • 密文检索流程大致分为以下4个步骤:
    • 构造索引
    • 生成陷门 陷门(我愿称之为后门🚪)是在某个系统或某个文件中设置的"机关",使得在提供特定的输入数据时,允许违反安全策略。例如,一个登录处理子系统允许处理一个特定的用户识别码,以绕过通常的口令检查。
  • 服务器使用陷门和索引进行运算,检索符合条件的密文
  • 数据检索者获得匹配的密文(需要时可在本地进行二次检索)

对称密文检索的特点:检索者和数据所有者为同一人。适合 单用户场景 ,高效。
非对称密文检索:适用于多用户场景,相对低效

根据数据类型的不同,密文检索技术可以分为 关键词检索 和 区间检索

PIR(隐私信息获取)指用户在不向远端服务器暴露查询意图的前提下对服务器的数据进行查询并获得指定数据的方法;
ORAM(不经意RAM或健忘RAM)在读写过程中向服务器隐藏访问模式等;
前者关注用户访问模式,后者关注数据机密性。

SPIR技术将保护的范围扩大到了服务器

  • 对称密文检索方案包括如下算法:
    • Setup(初始化)
    • Buildindex(建立索引)
    • GenTrapDoor(生成陷门)
    • Search(搜索)
      布隆过滤器(Bloom)算法类似一个HashSet, 用来判断某个元素是否在某个集合中。Bloom不需要存储元素的值, 而是对于每个元素用k个比特位来存储其标志,用来判断元素是否在集合中。它可以判断出某个元素肯定不在集合里或者可能在集合里,即它不会漏报,但可能会误报。

语义安全:表示为攻击者即使已知某个消息的密文,也得不出该消息的任何部分信息,即使是1比特的信息。
查询历史:指的是文档以及查询关键词列表
模糊检索:允许检索关键词出现拼写错误或包含通配符的情况

  • 非对称密文检索方案:

    • BDOP-PEKS拥有较低的通信量
    • KR-Peks方案检索效率最优
    • DS-PEKS检索加密效率最高
  • 密文区间检索的几种技术优缺点分别是:

    • 基于桶式索引的方案:安全程度难以证明,检索结果包含大量冗余数据
    • 基于加密的方案:安全性较高,但是需要和服务器进行多轮交互,效率相对较低
    • 基于谓词的加密方案:安全性较高但是操作为双线性映射,检索效率低,不适合高精度数据
    • 基于矩阵加密方案:检索效率较高,适合处理高精度数据
    • 基于等值检索方案:灵活性较大,容易将区间检索和关键词检索相结合
    • 保序加密方案:密文泄露了明文的排序特征安全性较低,适合安全性不高的场景

安全处理技术

  • 安全处理技术包括:
    • 同态加密技术
    • 可验证计算技术
    • 安全多方计算技术
    • 函数加密技术
    • 外包计算技术

同态加密

  • 同态加密方案通常由四个算法组成:
    • Keygen(密钥生成算法,产生公钥私钥)
    • Encrypt (加密算法)
    • Decrypt (解密算法)
    • Evaluate(同态加密计算)

比特承诺(Bit Commitment,BC)是指 数据发送者和数据接收者收发信息,数据接收者会无条件的相信发送者的 承诺数据 ,并在数据接收完整后验证信息,比特承诺有 隐藏性 和 绑定性 。

  • 发送者 Alice 向接收者 Bob 承诺一个比特b (如果是多个比特,即比特串t ,则称为比特串承诺),要求:
    • 在第 1 阶段即承诺阶段 Alice 向 Bob 承诺这 个比特b ,但是 Bob 无法知道b 的信息;
    • 在第 2 阶段即揭示阶段 Alice 向 Bob 证实她在第 1 阶段承诺的确实是b ,但是 Alice 无法欺骗 Bob(即不能在第 2 阶段篡改b 的值)。

零知识证明:指的是证明者能够在不向验证者提供任何有用的信息的情况下,使验证者相信某个论断是正确的。需要以 比特承诺(BC) 作为基础协议。

隐私保护技术

  • 隐私保护数据发布方案的构建包含四个参与方:
    • 个人用户
    • 数据采集/发布者
    • 数据使用者
    • 攻击者

在实际场景中,数据采集/发布者隐私保护方案可选择 在线模式 或 离线模式 。

  • 用户隐私保护需求可以分为:

    • 身份隐私
    • 属性隐私
    • 社交关系隐私
    • 位置轨迹隐私
  • 隐私保护技术分为:

    • 抑制 通过将数据置空的方式限制数据发布
    • 泛化 通过降低数据精度提供匿名的方法
    • 置换 不改变数据内容,但改变数据的属主
    • 扰动 数据发布时添加一定的噪声,对攻击者造成干扰
    • 裁剪 将数据分开发布

链接攻击:是指通过背景知识迅速确定被隐藏身份ID标识性信息的记录
同质攻击:是指根据数据联想将目标信息去匿名化

在社交网络图中节点通常指的是 个人 或 组织
节点连接的 边数 称为节点的 度数

节点匿名方案常见的有 基于节点度数的K匿名模型 和 基于子图的K匿名模型

  • 边匿名方案常见的有:
    • 基于超级节点的边匿名方案
      存在信息损失 结构损失描述信息损失
    • 基于扰动的边匿名方案
      LBS(Location-Based Service)是指服务提供商根据用户位置,提供相应的服务
      在LBS隐私保护方案中,典型的两类方案是 mix-zone在网络中的应用 和 pir在近邻查询中的应用

马尔科夫模型:是指描述了一类随机过程,该过程的输出状态随时间变化,这些状态不是相互独立的,适用于基于用户活动规律的攻击

高斯模型:指的是数据的分布基本符合正态分布。

贝叶斯模型:指的是有条件的概率模型,依靠不确定事件的相关发生概率,来推测事件的概率。

差分隐私:是将数据通过算法进行匿名化。即使攻击者拥有一定背景知识(先验知识),攻击者查询公开数据库,只能获得全局统计信息(可能存在一定误差),无法精确到某一个具体的记录(“自然人”的记录)。
将上面的段落按markdown格式总结

这篇关于信息论与大数据安全知识点的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1077309

相关文章

前端知识点之Javascript选择输入框confirm用法

《前端知识点之Javascript选择输入框confirm用法》:本文主要介绍JavaScript中的confirm方法的基本用法、功能特点、注意事项及常见用途,文中通过代码介绍的非常详细,对大家... 目录1. 基本用法2. 功能特点①阻塞行为:confirm 对话框会阻塞脚本的执行,直到用户作出选择。②

基本知识点

1、c++的输入加上ios::sync_with_stdio(false);  等价于 c的输入,读取速度会加快(但是在字符串的题里面和容易出现问题) 2、lower_bound()和upper_bound() iterator lower_bound( const key_type &key ): 返回一个迭代器,指向键值>= key的第一个元素。 iterator upper_bou

两个月冲刺软考——访问位与修改位的题型(淘汰哪一页);内聚的类型;关于码制的知识点;地址映射的相关内容

1.访问位与修改位的题型(淘汰哪一页) 访问位:为1时表示在内存期间被访问过,为0时表示未被访问;修改位:为1时表示该页面自从被装入内存后被修改过,为0时表示未修改过。 置换页面时,最先置换访问位和修改位为00的,其次是01(没被访问但被修改过)的,之后是10(被访问了但没被修改过),最后是11。 2.内聚的类型 功能内聚:完成一个单一功能,各个部分协同工作,缺一不可。 顺序内聚:

STL经典案例(四)——实验室预约综合管理系统(项目涉及知识点很全面,内容有点多,耐心看完会有收获的!)

项目干货满满,内容有点过多,看起来可能会有点卡。系统提示读完超过俩小时,建议分多篇发布,我觉得分篇就不完整了,失去了这个项目的灵魂 一、需求分析 高校实验室预约管理系统包括三种不同身份:管理员、实验室教师、学生 管理员:给学生和实验室教师创建账号并分发 实验室教师:审核学生的预约申请 学生:申请使用实验室 高校实验室包括:超景深实验室(可容纳10人)、大数据实验室(可容纳20人)、物联网实验

C++语法知识点合集:11.模板

文章目录 一、非类型模板参数1.非类型模板参数的基本形式2.指针作为非类型模板参数3.引用作为非类型模板参数4.非类型模板参数的限制和陷阱:5.几个问题 二、模板的特化1.概念2.函数模板特化3.类模板特化(1)全特化(2)偏特化(3)类模板特化应用示例 三、模板分离编译1.概念2.模板的分离编译 模版总结 一、非类型模板参数 模板参数分类类型形参与非类型形参 非类型模板

枚举相关知识点

1.是用户定义的数据类型,为一组相关的常量赋予有意义的名字。 2.enum常量本身带有类型信息,即Weekday.SUN类型是Weekday,编译器会自动检查出类型错误,在编译期间可检查错误。 3.enum定义的枚举类有什么特点。         a.定义的enum类型总是继承自java.lang.Enum,且不能被继承,因为enum被编译器编译为final修饰的类。         b.只能定义

【408数据结构】散列 (哈希)知识点集合复习考点题目

苏泽  “弃工从研”的路上很孤独,于是我记下了些许笔记相伴,希望能够帮助到大家    知识点 1. 散列查找 散列查找是一种高效的查找方法,它通过散列函数将关键字映射到数组的一个位置,从而实现快速查找。这种方法的时间复杂度平均为(

【反射知识点详解】

Java中的反射(Reflection)是一个非常强大的机制,它允许程序在运行时检查或修改类的行为。这种能力主要通过java.lang.reflect包中的类和接口来实现。 通过反射,Java程序可以动态地创建对象、调用方法、访问字段,以及获取类的各种信息(如构造器、方法、字段等)。 反射的用途 反射主要用于以下几种情况: 动态创建对象:通过类的Class对象动态地创建其实例。访问类的字段

2024年AMC10美国数学竞赛倒计时两个月:吃透1250道真题和知识点(持续)

根据通知,2024年AMC10美国数学竞赛的报名还有两周,正式比赛还有两个月就要开始了。计划参赛的孩子们要记好时间,认真备考,最后冲刺再提高成绩。 那么如何备考2024年AMC10美国数学竞赛呢?做真题,吃透真题和背后的知识点是备考AMC8、AMC10有效的方法之一。通过做真题,可以帮助孩子找到真实竞赛的感觉,而且更加贴近比赛的内容,可以通过真题查漏补缺,更有针对性的补齐知识的短板。

Python知识点:如何使用Python开发桌面应用(Tkinter、PyQt)

Python 提供了多个库来开发桌面应用程序,其中最常见的两个是 Tkinter 和 PyQt。这两者各有优点,选择取决于你的需求。以下我会介绍如何使用 Tkinter 和 PyQt 开发简单的桌面应用程序。 1. 使用 Tkinter 开发桌面应用 Tkinter 是 Python 的标准库,它非常轻量级且跨平台。它适合开发简单的桌面应用,入门较容易。 安装 Tkinter Tkinte