Embedding压缩之基于二进制码的Hash Embedding

2023-12-12 22:37

本文主要是介绍Embedding压缩之基于二进制码的Hash Embedding,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

推荐系统中,ID类特征的表示学习(embedding learning)是深度学习模型成功的关键,因为这些embedding参数占据模型的大部分体积。这些模型标准的做法是为每一个ID特征分配一个unique embedding vectors,但这也导致存储embedding table需要消耗巨大的内存。

在上一篇文章中 Embedding压缩之hash embedding,介绍了几种常见的hash embedding方法来对embedding进行压缩,实现模型的瘦身。今天继续介绍一种阿里在CIKM 2021的论文中提出的方法:基于二进制码的hash embedding,该方法兼具了调整embedding存储的大小的灵活性和尽可能保留模型的效果

算法流程

Binary code based Hash Embedding的算法流程如下图,主要分为了3步:特征hash、embedding索引生成、embedding向量生成。

Binary Hash Embedding

特征Hash

ID类特征的来源是多种类型,比如字符串或者整型,实际中的做法分为两种:

  1. 提前创建映射表,即将不同的特征值映射到对应的unique id,这种做法的缺点是不灵活,难以应对特征值的动态扩展,并且需要保存映射表;
  2. 另一种做法则是使用特征Hash,可以直接将原始特征值映射到Integer,如上图[Binary Hash Embedding-Step1],称为Hash ID:

h i = H ( f i ) h_i=\mathcal{H}(f_i) hi=H(fi)

其中, H \mathcal{H} H为hash函数(如Murmur Hash), h i h_i hi为特征值 f i f_i fi的Hash ID。为了尽量降低 h i h_i hi之间的冲突, H \mathcal{H} H的输出通常是一个比较大的数值,比如64位的Integer。

embedding索引生成

如上图[Binary Hash Embedding-Step2],Embedding索引生成分为3步:Binarization、Code Block Strategy和Decimalization。

Binarization

在特征Hash之后,每一个特征值可以认为是拥有一个对应的唯一(没有冲突)的Hash ID。

在这一步,会将Hash ID转化为一个二进制码 b i ∈ { 0 , 1 } S b_i \in \{0,1\}^S bi{0,1}S,S为二进制码的长度,如上图[Binary Hash Embedding-Step2.1],比如13的二进制码是 110 1 2 1101_2 11012

因为10进制转2进制这个过程是不包含任何参数,并且计算逻辑是固定的,因此二进制码 b i b_i bi是可以与特征值 f i f_i fi一一对应的。

Code Block Strategy

前面提到基于二进制码的hash embedding在调整embedding存储大小上具备灵活性,这个灵活性在这一节就会得到体现。论文提出了一种策略 code block strategy:

  1. 将二进制码 b i b_i bi的每一个0-1值切分到不同的块(blocks),每一个block中有序的0-1码可以来表示 K = 2 n K=2^n K=2n 个不同的整数,其中n是每个block中0-1值的个数,如上图[Binary Hash Embedding-Step2.2]。
  2. 接着,再将每一个block的0-1码转换成10进制的整数,作为每一个block的embedding table W ∈ R K × D W \in \mathbb{R}^{K \times D} WRK×D的索引

比如,当n=1时,每个block的0-1值个数为2,embedding table的存储大小为 O ( 2 D ) O(2D) O(2D)。而当所有的0-1值放在同一个block的时候,此时就相当于full embedding。因此,embedding table的大小可以通过n来控制,这也正是这个策略的灵活性体现。

用表达式来看,定义 B i = [ B i , 0 ; B i , 1 ; . . . ; B i , m ; . . . ] B_i=[B_{i,0};B_{i,1};...;B_{i,m};...] Bi=[Bi,0;Bi,1;...;Bi,m;...]为code block strategy产出的block序列, ∣ B i ∣ |B_i| Bi是block的数量,那么第m个block B i , m ∈ { 0 , 1 } n B_{i,m} \in \{0,1\}^n Bi,m{0,1}n可以表示为下式:

其中,Alloc是一个分配函数,将每一个0-1值分配到不同的block。Order则是将每个block的0-1值变为有序的函数。

论文提出了两种code block strategy的形式:

  • Succession. 如下图[code block strategy-a],succession策略从左往右遍历,Alloc函数会会将每t个0-1值放入到同一个block。而Order函数则是保持 b i b_i bi中每一个0-1值的原有顺序。
  • Skip. 如下图[code block strategy-b],skip策略将间隔为t的0-1值放入同一个block。Order函数与succession策略相同。
  • 当最后剩余的0-1值不够t时,则会将剩下的所有0-1值放入到同一个block中。

code block strategy

通过code block strategy,对于每一个 b i b_i bi可以获得唯一的 B i B_i Bi。但其实如果Hash ID长度空间超过 2 S 2^S 2S,那么还是会产生冲突的。

Decimalization

每一个block的embedding索引 k i , m k_{i,m} ki,m则通过 B i , m B_{i,m} Bi,m的十进制得到,如上图[Binary Hash Embedding-Step2.3]:

k i , m = D e c i m a l i z e ( B i , m ) k_{i,m}=Decimalize(B_{i,m}) ki,m=Decimalize(Bi,m)

其实就是将block中的0-1二进制码转化为10进制,作为embedding索引。

embedding向量生成

Embedding Lookup. 如上述提到,每一个block B i , m B_{i,m} Bi,m可以得到一个embedding索引 k i , m k_{i,m} ki,m,那么就可以将 k i , m k_{i,m} ki,m映射到一个embedding向量

e i , m = ε ( W m , k i , m ) e_{i,m}=\varepsilon(W_m,k_{i,m}) ei,m=ε(Wm,ki,m)

W m W_m Wm是第m个block B i , m B_{i,m} Bi,m对应的embedding table, e i , m e_{i,m} ei,m则代表 B i , m B_{i,m} Bi,m的embedding,而 ε \varepsilon ε是embedding lookup函数。

Embedding Fusion. 通过上面的流程,可以得到 ∣ B i ∣ |B_i| Bi个embedding,最后需要将 ∣ B i ∣ |B_i| Bi个embedding进行组合得到特征值 f i f_i fi 最终的embedding x i x_i xi,组合形式一般包括Sum Pooling、LSTM、Concatenation。

实验结果

不同Hash Embedding效果

不同Hash Embedding的存储大小

不同code block strategy对比

总结

优势

  • 确定性。embedding索引的计算是一个确定性的无参数的过程,对于新的特征值是友好的。
  • 灵活性。embedding的存储大小是靠超参数n来调整的。
  • 唯一性。无论embedding缩减到什么程度,每一个特征值 f i f_i fi都有唯一的 B i B_i Bi(在Hash ID长度空间不超过 2 S 2^S 2S的前提下)
  • 压缩率高。假如Hash ID的长度空间为 2 24 2^{24} 224,那么full embedding的存储大小为 2 24 × D 2^{24} \times D 224×D。而如果选择策略为succession,且t=12,即block的数量为 24 / 12 = 2 24/12=2 24/12=2,每个block的0-1个数为12,那么基于二进制码的hash embedding存储大小为 2 × 2 12 × D 2 \times 2^{12} \times D 2×212×D,压缩率高达 1 / 2 11 1/2^{11} 1/211

对比

  • Full Embedding:Full Embedding与论文方法都很好区分不同的特征值,该论文方法能够很好减少embedding的存储;
  • Hash Embedding:是论文方法的一种简化形式,即code block strategy是Succession,且仅取前t个0-1值来计算embedding索引;
  • Multi-Hash Embedding:都可以创建多个embedding索引,但论文方法对这些索引的唯一性约束更好;
  • Q-R Trick:可以看作是论文方法的一种特例,code block strategy是Succession,前t个0-1码作为quotient,剩余的0-1码作为remainder。

最后,再总结下基于二进制码的Hash Embedding原理。

  1. 将特征值的Hash ID转化为二进制码;
  2. 然后将二进制码的0-1值切分到不同的block,每一个block对应一个embedding table;
  3. 而每一个block中的0-1二进制码转换回10进制作为embedding索引;
  4. 最后,将从每一个block得到的embedding进行组合作为最后的embedding表征。

代码实现

git

包括二进制码的Hash编码算子实现、二进制码的Hash Embedding的Python实现。

这篇关于Embedding压缩之基于二进制码的Hash Embedding的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/486190

相关文章

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

hdu1043(八数码问题,广搜 + hash(实现状态压缩) )

利用康拓展开将一个排列映射成一个自然数,然后就变成了普通的广搜题。 #include<iostream>#include<algorithm>#include<string>#include<stack>#include<queue>#include<map>#include<stdio.h>#include<stdlib.h>#include<ctype.h>#inclu

康拓展开(hash算法中会用到)

康拓展开是一个全排列到一个自然数的双射(也就是某个全排列与某个自然数一一对应) 公式: X=a[n]*(n-1)!+a[n-1]*(n-2)!+...+a[i]*(i-1)!+...+a[1]*0! 其中,a[i]为整数,并且0<=a[i]<i,1<=i<=n。(a[i]在不同应用中的含义不同); 典型应用: 计算当前排列在所有由小到大全排列中的顺序,也就是说求当前排列是第

hdu1496(用hash思想统计数目)

作为一个刚学hash的孩子,感觉这道题目很不错,灵活的运用的数组的下标。 解题步骤:如果用常规方法解,那么时间复杂度为O(n^4),肯定会超时,然后参考了网上的解题方法,将等式分成两个部分,a*x1^2+b*x2^2和c*x3^2+d*x4^2, 各自作为数组的下标,如果两部分相加为0,则满足等式; 代码如下: #include<iostream>#include<algorithm

hdu1565(状态压缩)

本人第一道ac的状态压缩dp,这题的数据非常水,很容易过 题意:在n*n的矩阵中选数字使得不存在任意两个数字相邻,求最大值 解题思路: 一、因为在1<<20中有很多状态是无效的,所以第一步是选择有效状态,存到cnt[]数组中 二、dp[i][j]表示到第i行的状态cnt[j]所能得到的最大值,状态转移方程dp[i][j] = max(dp[i][j],dp[i-1][k]) ,其中k满足c

usaco 1.2 Milking Cows(类hash表)

第一种思路被卡了时间 到第二种思路的时候就觉得第一种思路太坑爹了 代码又长又臭还超时!! 第一种思路:我不知道为什么最后一组数据会被卡 超时超了0.2s左右 大概想法是 快排加一个遍历 先将开始时间按升序排好 然后开始遍历比较 1 若 下一个开始beg[i] 小于 tem_end 则说明本组数据与上组数据是在连续的一个区间 取max( ed[i],tem_end ) 2 反之 这个

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言

uva 10029 HASH + DP

题意: 给一个字典,里面有好多单词。单词可以由增加、删除、变换,变成另一个单词,问能变换的最长单词长度。 解析: HASH+dp 代码: #include <iostream>#include <cstdio>#include <cstdlib>#include <algorithm>#include <cstring>#include <cmath>#inc

整数Hash散列总结

方法:    step1  :线性探测  step2 散列   当 h(k)位置已经存储有元素的时候,依次探查(h(k)+i) mod S, i=1,2,3…,直到找到空的存储单元为止。其中,S为 数组长度。 HDU 1496   a*x1^2+b*x2^2+c*x3^2+d*x4^2=0 。 x在 [-100,100] 解的个数  const int MaxN = 3000

POJ 1198 双广+Hash

此题采用双广可从bfs的O(16^8)降低到O(2*16^4); 坐标0-7,刚好3位存储, 需要24位存储四个坐标(x,y),也就是[0,2^24) 。 很好的一题。 import java.io.BufferedReader;import java.io.InputStream;import java.io.InputStreamReader;import