【论文笔记】TEM:结合GBDT叶节点嵌入的可解释推荐模型

2024-02-07 13:30

本文主要是介绍【论文笔记】TEM:结合GBDT叶节点嵌入的可解释推荐模型,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

 本文主要介绍了发表在WWW2018的论文《TEM: Tree-enhanced Embedding Model for Explainable Recommendation》,利用GBDT叶子节点进行嵌入表示来获得一个具有解释性的推荐模型

本文来源:RecLismCat https://zhuanlan.zhihu.com/p/96124874

3 TREE-ENHANCED EMBEDDING METHOD

首先提出TEM,它结合MF用于稀疏数据建模和GBDTs用于交叉特征学习的优点。还讨论了可解释性,分析了其复杂性。

3.1 Predictive Model

给定一个user u ,一个item i,和他们的特征向量

将它们作为输入,TEM预测user-Item偏好:

其中,前两项是与FM相似的特征偏差,第三项是TEM的核心部分。参数Θ用于建模交叉特征影响。

3.1.1 Constructing Cross Features

与在学习过程中不透明地捕捉交叉特征效应的嵌入式方法不同,我们最初的考虑是让交叉特征是显式的并且是可解释的。在工业中广泛使用的一种解决方案是手工制作交叉特性,然后将它们输入一个可解释的方法,该方法可以了解每个交叉特性的重要性,例如逻辑回归。例如,我们可以通过交叉特征变量age和traveler style的所有值来获得二阶交叉特征。但是,这种方法的难点在于它是不可伸缩的。为了对高阶特征交互进行建模,必须将多个特征变量交叉在一起,从而导致复杂性呈指数级增长。虽然通过谨慎的特征工程,如跨越重要的变量或值,可以在一定程度上控制复杂性,但开发有效的解决方案需要大量的领域知识,不容易适应领域。

为了避免这种劳动密集型的特性工程,我们利用GBDT(在2.2节中简要介绍)来自动识别有用的交叉特性。虽然GBDT并不是专门为提取交叉特征而设计的,但是考虑到一个叶节点代表一个交叉特征,并且树是通过优化对历史交互作用的预测来构建的,因此认为叶节点是有用的交叉特征是合理的。

形式上,我们定义GBDT为一系列决策树Q={Q1,Q2,...,Qs},其中,每一棵树将一个特征向量x映射到一个叶子节点上(有权重)。我们使用Ls定义第s棵树的叶子节点的数量。与原始的将激活的叶节点的权值累加作为预测的GBDT不同,我们将激活的叶节点作为交叉特征,并将其输入神经注意模型中进行更有效的学习。我们将交叉特征表示为一个多热向量q,它是多个单热向量(其中一个单热向量编码树的激活叶节点)的串联:

这里q是一个稀疏向量,其中值为1的元素表示激活的叶节点,q中的非零元素数量为S。

设q的大小为

  • 。例如,在图一中,有两个子树Q1(有五个叶子节点)和Q2(有三个叶子节点)。如果x分别以Q1和Q2的第二和第三叶节点结束,那么得到的多热向量q应该是[0,1,0,0,0,0,0,1]。令图1中的特征变量(x0

  • x5)和值(a0 ~ a5)的语义被列在表1中,那么q表示从x中提取的两个交叉特征。

3.1.2 Prediction with Cross Features

利用显式交叉特征,我们利用稀疏线性方法学习各交叉特征的重要性,选择最上面的交叉特征作为预测的解释。Facebook[22]之前的工作已经证明了这种解决方案的有效性,它将GBDT的叶节点输入到逻辑回归(logistic regression, LR)模型中。我们把这个解称为GBDT+LR。虽然GBDT+LR能够学习交叉特征的重要性,但它为所有用户- 项目对的预测分配了相同的交叉特征权重,这限制了建模的保真度。在实际应用中,具有相似人口统计特征的用户通常会选择相似的项目,但是它们是由不同的意图或原因驱动的。

例如,设(u, i, x)和(u’, i’, x’)是两个正的实例。假设x等于x’,那么这两个实例将具有与GBDT相同的交叉特征。由于每个交叉特征都有一个全局权重,与LR中的训练实例无关,预测的(u, i)和(u’, i’)将被视为同一顶交特性,不管实际的可能性原因中u选择i,u选择i’是不同的。为了确保可表达性,我们认为对不同的用户- 项目对交叉特征进行不同的评分是很重要的。在交叉特征上个性化权重,而不是使用全局加权机制。

神经推荐模型如Wide&Deep和NFM的最新进展可以允许交叉特征的重要性变得个性化。这是通过将user ID、item ID和交叉特征一起嵌入到共享的嵌入空间中,然后对嵌入向量执行非线性转换(例如,通过完全连接的层)来实现的。非线性隐含层强大的表示能力使得user ID、item ID和交叉特征之间的复杂交互能够被捕获。因此,当使用不同的用户- 项目对进行预测时,交叉特性的影响是不同的。然而,由于难以解释的非线性隐含层,这些方法无法解释交叉特征的个性化权重。因此,为了便于解释,我们必须放弃使用完全连接的隐藏层,尽管它们在现有方法中有助于模型的性能。

为了开发一种既有效又可解释的方法,我们介绍了TEM中的嵌入和注意力的两个基本成分。具体来说,我们首先将每个交叉特征与一个嵌入向量相关联,这样就可以捕获交叉特征之间的相关性。然后,我们设计了一种注意力机制,明确地对交叉特征上的个性化权重进行建模。最后,将用户ID、项目ID和交叉特征的嵌入集成在一起进行最终预测。虽然TEM是一种浅层模型,没有完全连通的隐层,但利用嵌入和注意使其具有很强的表示能力和有效性。接下来,我们将阐述TEM的两个关键组成部分。

**嵌入 **

给定由GBDT生成的交叉特征q,我们将每一个交叉特征j投影都嵌入项链

,其中k是嵌入尺寸。在这个操作之后,我们获得了一个嵌入向量集合

。由于q是一个只有少量非零元素的稀疏向量,我们只需要在预测中包含非零特征的嵌入,也就是说

,其中,

。我们使用Pu和qi来定义用户嵌入和物品嵌入。

与LR使用标量对特征进行加权相比,将交叉特征嵌入到向量空间有两个优点。首先,使用嵌入学习可以捕获特性之间的相关性,例如,经常同时出现的特性可能产生类似的嵌入,这可以缓解数据稀疏性问题。其次,它提供了一种将GBDT的输出与基于嵌入式的协同过滤无缝集成的方法,这比模型预测的后期融合更灵活(例如,在[49]中使用FM来增强GBDT)。

**注意力 **

受之前工作的启发[9,46],我们通过为每个交叉特征的嵌入分配一个关注的权重,明确地捕获了交叉特征在预测中的不同重要性。在这里,我们考虑两种方法来聚合交叉特征的嵌入,平均池化和最大池化,以获得一个统一的表示e(u, i,V)的交叉特征:

其中,wuil是一个可训练的参数,表示第 l 个交叉特征在构成统一表示时的注意力权值,重要的是,它是个性化的,因为它依赖于(u, i)。

虽然上述解决方案似乎是合理的和可解释的,但问题是,对于(u, i)对以前从未同时发生过的情况,无法估计注意力权重。另外,w的参数空间太大,总共有UIL权值(其中u、I和L分别表示user数量、item数和q的大小),这对于实际应用来说是不切实际的。为了解决泛化和可伸缩性问题,我们将建模wuil看作一个依赖于u、i和l的嵌入的函数,而不是从数据中自由地学习wuil。受最近成功使用多层感知器(MLP)来学习关注权重的启发,我们同样使用MLP来参数化wuil。我们将这个MLP叫做注意力网络,被定义为以下形式:

其中,W是权重矩阵,b是隐藏层的偏差,a控制隐藏层的大小。h将隐含层投射到输出的关注权值中。我们使用rectifier作为激活函数,并使用softmax对关注权值进行归一化。图3说明了我们注意力网络的架构,我们将a称为注意力大小。

最终预测

在建立了注意力嵌入后,我们得到了一个用于交叉特征的统一嵌入向量e(u, i,V)。为了结合CF建模,我们将e(u, i,V)与

连接起来,pu qi将MF重新组合起来,用以对用户ID和项目ID之间的交互进行建模。然后我们应用线性回归将连接的向量投射到最终的预测中。这就引出了TEM的预测模型:

其中,r1和r2是最终线性回归层的权重。

可以看出,我们的TEM是一个浅层的可加性模型。为了解释预测,我们可以很容易地评估每个组件的贡献。

3.2 Learning

类似于最近关于神经协同过滤[21]的工作,我们将项目推荐任务作为一个二元分类问题来解决。具体来说,将观察到的用户- 项目交互分配给目标值1,否则为0。我们优化pointwise log loss,这能够迫使预测分数更加接近目标值。

其中σ是激活函数,限制预测在(0,1)。为了清楚起见,这里省略了正则化项(我们在观察到过拟合时调整了L2正则化)。注意,优化其他目标函数在技术上也是可行的,比如点态回归损失[20,41,42]和排名损失[9,33,44]。在这项工作中,我们使用log loss作为TEM的一个演示。

由于TEM由两个级联模型组成,所以这两个模型都经过了优化相同的log损失的训练。我们首先训练GBDT,它贪婪地适合于整个训练数据[10]上的可加树。在得到GBDT的交叉特征后,我们使用minibatch Adagrad[16]对基于嵌入的预测模型进行了优化。每个小批包含随机的正实例和随机配对的负实例。与[21]的最优设置一样,我们将一个积极的实例与四个消极的实例进行配对,从经验上显示了良好的性能。

完)

这篇关于【论文笔记】TEM:结合GBDT叶节点嵌入的可解释推荐模型的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/687877

相关文章

如何用Java结合经纬度位置计算目标点的日出日落时间详解

《如何用Java结合经纬度位置计算目标点的日出日落时间详解》这篇文章主详细讲解了如何基于目标点的经纬度计算日出日落时间,提供了在线API和Java库两种计算方法,并通过实际案例展示了其应用,需要的朋友... 目录前言一、应用示例1、天安门升旗时间2、湖南省日出日落信息二、Java日出日落计算1、在线API2

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt

Spring Boot 中整合 MyBatis-Plus详细步骤(最新推荐)

《SpringBoot中整合MyBatis-Plus详细步骤(最新推荐)》本文详细介绍了如何在SpringBoot项目中整合MyBatis-Plus,包括整合步骤、基本CRUD操作、分页查询、批... 目录一、整合步骤1. 创建 Spring Boot 项目2. 配置项目依赖3. 配置数据源4. 创建实体类

Java子线程无法获取Attributes的解决方法(最新推荐)

《Java子线程无法获取Attributes的解决方法(最新推荐)》在Java多线程编程中,子线程无法直接获取主线程设置的Attributes是一个常见问题,本文探讨了这一问题的原因,并提供了两种解决... 目录一、问题原因二、解决方案1. 直接传递数据2. 使用ThreadLocal(适用于线程独立数据)

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

不懂推荐算法也能设计推荐系统

本文以商业化应用推荐为例,告诉我们不懂推荐算法的产品,也能从产品侧出发, 设计出一款不错的推荐系统。 相信很多新手产品,看到算法二字,多是懵圈的。 什么排序算法、最短路径等都是相对传统的算法(注:传统是指科班出身的产品都会接触过)。但对于推荐算法,多数产品对着网上搜到的资源,都会无从下手。特别当某些推荐算法 和 “AI”扯上关系后,更是加大了理解的难度。 但,不了解推荐算法,就无法做推荐系

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

wolfSSL参数设置或配置项解释

1. wolfCrypt Only 解释:wolfCrypt是一个开源的、轻量级的、可移植的加密库,支持多种加密算法和协议。选择“wolfCrypt Only”意味着系统或应用将仅使用wolfCrypt库进行加密操作,而不依赖其他加密库。 2. DTLS Support 解释:DTLS(Datagram Transport Layer Security)是一种基于UDP的安全协议,提供类似于

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G