隐私计算关键技术:隐私集合求交(PSI)原理介绍

2023-11-22 04:50

本文主要是介绍隐私计算关键技术:隐私集合求交(PSI)原理介绍,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

参考连接:隐私计算关键技术:隐私集合求交(PSI)原理介绍 - 知乎

隐私集合求交(Private Set Intersection,PSI)

PSI是指,参与双方在不泄露任何额外信息的情况下,得到双方持有数据的交集。在这里,额外的信息指的是除了双方的数据交集以外的任何信息。

隐私集合求交在现实场景中非常有用,比如在纵向联邦学习中做数据对齐,或是在社交软件中,通过通讯录做好友发现。因此,一个安全、快速的隐私集合求交的算法是十分重要的。

我们可以用一种非常直观的方法来进行隐私集合求交,也就是朴素哈希的方法。参与双方A、B,使用同一个哈希函数H,计算他们数据的哈希值,再将哈希过的数据互相发送给对方,然后就能求得交集了。

这种方法看起来非常简单、快速,但是,它是不安全的,有可能会泄露额外的信息。如果参与双方需要求交集的数据本身,数据空间比较小,比如说手机号、身份证号等,那么,一个恶意的参与方,就可以通过哈希碰撞的方式,在有限的时间内,碰撞出对方传过来的哈希值,从而窃取到额外的信息。因此,我们需要设计出更加安全的隐私集合求交的方法。

现在已经有了很多种不同的方法来实现隐私集合求交,比如基于Diffie-Hellman密钥交换的方法、基于不经意传输的方法等等。而截至目前,最快速的隐私集合求交方法,是基于不经意传输的。下面,我们介绍如何使用不经意传输,来实现一个隐私集合求交算法。

不经意传输(Oblivious Transfer,OT)

不经意传输是一种密码学协议,实现了发送将将潜在的许多信息中的一个传递给接收方,但是对接收方所接收的信息保持未知。

一种比较实用的不经意传输方案,被称为1-2不经意传输。在1-2不经意传输中,发送方持有两个数据,接收方可以选择获取其中的一个,但是发送方并不知道接收方选择了哪一个数据。形式化描述如下:

发送方A持有数据和[公式],接收方B持有一个比特[公式][公式],则1-2不经意传输可以描述为:

其中,B只知道,不知道[公式],而A也不知道[公式]

我们也可以将1-2不经意传输扩展为1-n不经意传输,即接收方能从n个数据中选择获取一个,且对发送方保密。

不经意传输也有很多种实现方式,不过一般都需要实用公私钥加密的方式来实现,比如RSA、椭圆曲线加密等。 在本篇文章中,我们不介绍具体的不经意传输协议,读者们可以把不经意传输当作是一个黑盒子,我们接下来详细介绍如何实用不经意传输,来构造一个隐私集合求交的方法。

隐私比较

我们先从最简单的情况开始。假设参与双方A、B,都只有一个元素,这时隐私集合求交,就退化成了隐私比较, 即A、B比较持有的元素是否相等,同时不泄露自己持有的元素。

我们假设A持有数据x,B持有数据x。不失一般性,我们假设x与y的字节长度相等,长度为,即[公式]。 现在,A为数据x的每一位,都生成两个随机的二进制串(服从均匀分布),长度为[公式],即[公式], [公式], [公式]

现在,B作为接收方,A作为发送方,开始执行1-2不经意传输协议。B根据y的每一位,选择A持有的[公式]中的一个,即[公式][公式]。B将接收到的[公式]个二进制串进行异或,得到一个二进制串[公式],即[公式][公式], 其中[公式] 表示异或。

发送方A也可以跟B一样,根据x的每一位,选择一个二进制串[公式],将这[公式]个二进制串进行异或,得到一个二进制串[公式]。当然,A生成[公式]的过程不需要使用不经意传输,因为x与K都在A的手中。

之后,A将发送给B,B即可判断x与y是否相等。

这个隐私比较的方法,显然是安全的。B使用不经意传输获得的过程中,由于不经意传输的特性,A不会知道B的数据y;使用异或得到的[公式][公式],与一个随机的n位二进制串是无法区分的,所以A和B也无法通过[公式][公式]反推出x或y。A作为发送方,不经意传输保证了A无法得到B的数据y(除非[公式]);只要B是诚实的,即不能通过不断执行这个协议来碰撞A的数据,那么B也无法得到A的数据x(除非[公式])。

由隐私比较到不经意伪随机函数

观察隐私比较,我们可以发现,发送方A持有一组二进制串,我们可以将这些二进制串整体当作一个随机种子[公式],由A持有。从B的角度来看,隐私比较的过程,就是B输入数据y,得到一个随机二进制串[公式],这个二进制串由A持有的随机种子[公式]与输入y来决定,同时A无法得知B的输入y。这一过程,就可以看作是不经意伪随机函数(Oblivious Pseudorandom Function, OPRF)。

不经意伪随机函数是一种密码学协议[3],发送方可以选择一个随机种子,接收方可以选择一个输入[公式]并得到一个伪随机函数[公式]的输出,同时发送方不知道[公式]。那么,隐私比较中,接收方B就是执行了一个不经意伪随机函数[公式],发送方A可以执行一个普通的伪随机函数[公式],通过比较[公式][公式],即可实现隐私比较。

这样来看,我们就是使用不经意伪随机函数,来构建了一个隐私比较算法。接下来,我们要更进一步,看看如何使用不经意伪随机函数,来构建隐私集合求交。

使用不经意伪随机函数构建隐私集合求交

假设A持有一组输入X,B持有一组输入Y, 。通过不经意伪随机函数,我们可以构造出一个非常朴素的隐私集合求交算法:

  1. A构造个不经意伪随机函数的种子[公式][公式]
  2. B为Y中的每一个元素y,执行一个对应不经意伪随机函数,得到集合
  3. A为X中的每一个元素x,执行每一个不经意伪随机函数,得到集合
  4. A将集合发送给B,B求交集[公式],再将交集映射回Y,即可得到X与Y的交集

这种方法简单来讲,就是B将每一个Y中的每一个元素,都与A的X中的每一个元素,通过不经意伪随机函数进行隐私比较,进而得到X与Y的交集。

这种方法虽然直观,但是开销很大,因为集合的大小是[公式],当集合大小n增长时,传输量增长很快。

那么,我们有没有办法将集合大小限制在呢?答案是可以的。这需要使用到哈希表的思想。这里,我们使用布谷鸟哈希(Cuckoo hashing)来解决这个问题。

我们首先简单介绍一下布谷鸟哈希。假设我们想要使用布谷鸟哈希,将n条数据放入个桶中,则我们首先选择3个哈希函数[公式],以及b个空的桶[公式]。要放入一条数据[公式],首先查看3个桶[公式][公式][公式]是否有空的,如果有空的,则将[公式]放入空桶。如果没有空桶,则从这三个桶中随机选择一个桶[公式][公式],踢出原来在这个桶中的元素[公式],并将x放进这个桶中,然后再继续尝试插入被踢出的元素[公式]。递归地执行这一过程,直到元素被放入一个空桶中。如果经过一定轮次后,仍然找不到空桶放入元素,那么就将被踢出的元素放到一个特殊的桶中,这个桶被称为储藏桶。

现在回到隐私集合求交的构建中,让我们看看如何在隐私集合求交中使用布谷鸟哈希。首先,A、B双方共同选择三个哈希函数。然后,B将其持有的[公式]个元素Y,使用布谷鸟哈希,放入[公式]个桶与一个储藏桶中,储藏桶的大小为[公式]。对B来说,现在每个桶中最多只有一个元素,并且储藏桶的中,最多有[公式]个元素。现在B可以构造假数据,将这些桶和储藏桶都填满,使每个桶中都有一个元素,且储藏同中正好有[公式]个元素。

然后,A可以生成个随机种子[公式],用作[公式]个不经意伪随机函数的随机种子。B作为接收方,为其桶中的每一个元素[公式],计算不经意伪随机函数。如果[公式]被放在[公式]号桶中,则计算[公式],如果[公式]被放在了储藏桶中的第[公式]个位置,则计算[公式]

另一边,A作为发送方,可以任意地计算伪随机函数,那么,A可以为其输入X计算以下两个集合:

[公式]

A将集合和集合[公式]中的元素打乱,并将这两个集合发送给B。对于B来说,如果一个元素[公式]被放到储藏桶中,则B可以在集合[公式]中查找[公式]对应的不经意伪随机函数输出;否则,就在集合[公式]中查找。通过查找,就可以得到X与Y的交集。

通过计算,我们可以发现,集合的大小为[公式],集合[公式]的大小为[公式][公式]是一个常数,因此A需要传输的数据量为[公式],是[公式]的。通过结合布谷鸟哈希,我们减少了协议所需要传输的数据量,加快了协议的执行速度。

显然,使用不经意伪随机函数构造的隐私集合求交算法,是安全的。由于不经意伪随机函数的特性,发送方A无法得知接收方B的输入。同时,对于集合中的元素,其经过伪随机函数的输出,与一个随机的二进制串无法区分,因此B也无法从伪随机函数的输出中反推出输入。在B是诚实的条件下(不能无限次地执行不经意伪随机函数来进行碰撞),这个协议是安全的。

这篇关于隐私计算关键技术:隐私集合求交(PSI)原理介绍的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/407619

相关文章

性能测试介绍

性能测试是一种测试方法,旨在评估系统、应用程序或组件在现实场景中的性能表现和可靠性。它通常用于衡量系统在不同负载条件下的响应时间、吞吐量、资源利用率、稳定性和可扩展性等关键指标。 为什么要进行性能测试 通过性能测试,可以确定系统是否能够满足预期的性能要求,找出性能瓶颈和潜在的问题,并进行优化和调整。 发现性能瓶颈:性能测试可以帮助发现系统的性能瓶颈,即系统在高负载或高并发情况下可能出现的问题

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

hdu4407(容斥原理)

题意:给一串数字1,2,......n,两个操作:1、修改第k个数字,2、查询区间[l,r]中与n互质的数之和。 解题思路:咱一看,像线段树,但是如果用线段树做,那么每个区间一定要记录所有的素因子,这样会超内存。然后我就做不来了。后来看了题解,原来是用容斥原理来做的。还记得这道题目吗?求区间[1,r]中与p互质的数的个数,如果不会的话就先去做那题吧。现在这题是求区间[l,r]中与n互质的数的和

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

poj 1113 凸包+简单几何计算

题意: 给N个平面上的点,现在要在离点外L米处建城墙,使得城墙把所有点都包含进去且城墙的长度最短。 解析: 韬哥出的某次训练赛上A出的第一道计算几何,算是大水题吧。 用convexhull算法把凸包求出来,然后加加减减就A了。 计算见下图: 好久没玩画图了啊好开心。 代码: #include <iostream>#include <cstdio>#inclu

uva 1342 欧拉定理(计算几何模板)

题意: 给几个点,把这几个点用直线连起来,求这些直线把平面分成了几个。 解析: 欧拉定理: 顶点数 + 面数 - 边数= 2。 代码: #include <iostream>#include <cstdio>#include <cstdlib>#include <algorithm>#include <cstring>#include <cmath>#inc

uva 11178 计算集合模板题

题意: 求三角形行三个角三等分点射线交出的内三角形坐标。 代码: #include <iostream>#include <cstdio>#include <cstdlib>#include <algorithm>#include <cstring>#include <cmath>#include <stack>#include <vector>#include <

XTU 1237 计算几何

题面: Magic Triangle Problem Description: Huangriq is a respectful acmer in ACM team of XTU because he brought the best place in regional contest in history of XTU. Huangriq works in a big compa