【推荐算法系列五】DeepFM 模型

2024-02-28 05:44

本文主要是介绍【推荐算法系列五】DeepFM 模型,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 参考资料
    • Sparse Features
    • Dense Embeddings
    • FM Layer
    • Hidden Layer
    • Output Units
  • 优缺点
    • DeepFM 的优点
    • DeepFM 自身的缺点。

参考资料

DeepFM 中关于 整个发展过程, FM, PNN, wide&deep 的描述很给力。
所以FM在其中的含义就是low-order, deep 就是所谓的 high-order 么?

DeepFM 是一种基于深度学习和 FM 模型的混合模型,它包含两个部分,一部分是 FM 模型,用来捕捉特征之间的交互效应;另一部分是一个深度神经网络,用来学习更高阶的特征交互和特征表达。

由于 DeepFM 算法有效地结合了 FM 和神经网络算法的优点,能够同时对低阶组合特征和高阶组合特征进行提取,因此被广泛使用。

在 DeepFM 中,FM 部分用来处理低阶特征交互,包括一阶特征和二阶特征交互。FM 模型能够捕捉到特征之间的线性关系和二次关系,对于数据稀疏的情况,FM 模型以几乎线性的时间和空间复杂度快速地学习特征交互,这对于处理高维离散特征非常有优势。

而 DNN 部分用来处理高阶特征交互,包括三阶特征和更高阶的特征交互。DNN 对输入的 Embedding 向量进行深度处理,从而能够挖掘到更为复杂的高阶交互模式。同时,DNN 可以对未知的特征进行插值和泛化,因此在数据不完整的情况下也能够保持较好的预测准确率。

在这里插入图片描述
在这个模型中从下往上看,一共分成五个部分,分别是 Sparse Features、Dense Embeddings、FM Layer、Hidden Layer 以及 Output Units。

Sparse Features

这一层的主要作用是对特征进行处理。在做特征处理时,需要对每一个离散型的数据来做 One-Hot 编码。经过 One-Hot 编码后,一个特征会用很多列来表示,这时整个特征就会变得非常稀疏。因此就需要去记录 One-Hot 之前的特征(即图中的 Field),我们可以暂且理解为原始输入的特征。这样做就是为了在存储矩阵时,可以把一个大的稀疏矩阵转换成两个小的矩阵和一个字典进行存储。

Dense Embeddings

DeepFM 模型中的 Dense Embeddings 层(稠密嵌入层)用于将稀疏高维的数据压缩成稠密的实数向量表示。

我们在上一步(也就是通过 Sparse Features 层的处理后)得到的是一个高维度的稀疏向量,这个高维度的稀疏向量实际上在计算时无法得到特征之间的相互关系。那么我们就可以通过 Dense Embeddings 层,将稀疏的 01 向量做一个 Embedding,将其转化成低维稠密的向量。

根据上面的结构图可以看到,实际上每一个高维稀疏向量都有自己所对应的 Embedding 向量,不同的向量之间的 Embedding 实际上是相互独立的,我们把每一个稠密向量进行横向的拼接,使其变成一个长度很长的稠密向量,然后再拼接上原始的数值特征,统一作为 Deep 与 FM 的输入。

一般来说在 DeepFM 模型中,Sparse Features 层和 Dense Embeddings 层是紧密结合的。我们所做的就是提取稀疏特征,再划分 Field 做 Dense Embeddings,将这些原始的特征转化为低维稠密的向量,方便 input 到之后的模型中。而这些 input 共同构成了一个特征嵌入的整体,旨在为数据提供更好的特征表达能力和更强的预测性能。

FM Layer

DeepFM 中的 FM 层由线性部分和交叉部分两部分组成。
线性部分指输入特征的线性组合,可以类比于 LR 模型的线性部分。它可以得到输入特征的权重,从而学习输入特征的重要程度。

交叉部分是指捕获二阶交互特征的部分,它会将所有特征向量的每个元素分别相乘,得到所有可能的二阶交互项,然后,对这些二阶交互项进行加权求和,得到交叉部分的输出。

值得注意的是,FM 层的线性和交叉部分可以共享特征向量的 Embedding 参数,有助于节省模型的参数量,提高模型训练效率。

在这里插入图片描述

Hidden Layer

Hidden Layer 是一个简单的前馈神经网络,由于原始特征向量中大多数都是高维度的稀疏向量、连续的特征和类别特征混合。为了能够更好地发挥 DNN 模型的特性,设计了一套子网络来将原始的系数特征转换成稠密的特征向量,也就是下面这张图中的部分。

Output Units

Output Units 实际上就是将 FM 的预训练向量 V 作为网络权重,初始化替换为 FM 和 DNN 进行联合训练,从而得到一个端到端的模型。在这一层中,会对 FM Layer 的结果与 Hidden Layer 的结果进行累加,这样做的好处是将低阶与高阶的特征交互融合,然后将得到的结果进行一个 sigmoid 操作,得到预测的概率输出。

优缺点

DeepFM 的优点

  • 考虑了高阶交叉特征:DeepFM 可以对各种交叉特征进行编码,包括高阶交叉特征,从而提高了模型的表达能力。
  • 既考虑了线性特征又考虑了非线性特征:DeepFM 同时考虑了线性模型和因子分解机模型,可以对线性特征和非线性特征进行学习和推断。
  • 适用于稀疏特征:DeepFM 可以处理具有稀疏结构的特征,例如在推荐系统中常见的用户 - 物品交互。
  • 可以通过高效的 Embedding 实现对离散特征的编码:DeepFM 基于 Embedding 层实现了对离散特征的编码,这种方法可以高效地处理海量的离散特征。

DeepFM 自身的缺点。

  • 模型训练较慢:DeepFM 中的深度模块导致了训练过程的时间和计算复杂度的增加。
  • 特征选取和处理的要求较高:DeepFM 需要对原始数据进行一定的预处理,同时对于不同的数据集,需要结合实际场景设计合适的特征。
  • 对于连续特征的处理较为有限:DeepFM 采用了 Embedding 层来处理离散特征,虽然它也支持连续特征,但是处理连续特征的方法较为简单并且直接。

这篇关于【推荐算法系列五】DeepFM 模型的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/754523

相关文章

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

不懂推荐算法也能设计推荐系统

本文以商业化应用推荐为例,告诉我们不懂推荐算法的产品,也能从产品侧出发, 设计出一款不错的推荐系统。 相信很多新手产品,看到算法二字,多是懵圈的。 什么排序算法、最短路径等都是相对传统的算法(注:传统是指科班出身的产品都会接触过)。但对于推荐算法,多数产品对着网上搜到的资源,都会无从下手。特别当某些推荐算法 和 “AI”扯上关系后,更是加大了理解的难度。 但,不了解推荐算法,就无法做推荐系

康拓展开(hash算法中会用到)

康拓展开是一个全排列到一个自然数的双射(也就是某个全排列与某个自然数一一对应) 公式: X=a[n]*(n-1)!+a[n-1]*(n-2)!+...+a[i]*(i-1)!+...+a[1]*0! 其中,a[i]为整数,并且0<=a[i]<i,1<=i<=n。(a[i]在不同应用中的含义不同); 典型应用: 计算当前排列在所有由小到大全排列中的顺序,也就是说求当前排列是第

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

csu 1446 Problem J Modified LCS (扩展欧几里得算法的简单应用)

这是一道扩展欧几里得算法的简单应用题,这题是在湖南多校训练赛中队友ac的一道题,在比赛之后请教了队友,然后自己把它a掉 这也是自己独自做扩展欧几里得算法的题目 题意:把题意转变下就变成了:求d1*x - d2*y = f2 - f1的解,很明显用exgcd来解 下面介绍一下exgcd的一些知识点:求ax + by = c的解 一、首先求ax + by = gcd(a,b)的解 这个

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

【数据结构】——原来排序算法搞懂这些就行,轻松拿捏

前言:快速排序的实现最重要的是找基准值,下面让我们来了解如何实现找基准值 基准值的注释:在快排的过程中,每一次我们要取一个元素作为枢纽值,以这个数字来将序列划分为两部分。 在此我们采用三数取中法,也就是取左端、中间、右端三个数,然后进行排序,将中间数作为枢纽值。 快速排序实现主框架: //快速排序 void QuickSort(int* arr, int left, int rig

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了