诺亚方舟实验室提出数值特征自动离散框架AutoDis用于CTR预估

2023-10-18 12:40

文章标签 用于框架自动特征数值实验室离散提出 ctr 预估诺亚方舟 autodis

本文主要是介绍诺亚方舟实验室提出数值特征自动离散框架AutoDis用于CTR预估，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

AutoDis: Automatic Discretization for Embedding Numerical Features in CTR Prediction

Huifeng Guo, Bo Chen, Ruiming Tang, Zhenguo Li, Xiuqiang He

Noah’s Ark Lab

https://arxiv.org/pdf/2012.08986v1.pdf

推荐系统中，学习特征交互在CTR预估中非常重要。很多深层CTR模型遵循embedding 和特征交互的范式。

大多数模型集中在特征交互模块，设计网络结构来更好的对特征交互进行建模。embedding模块，作为数据和特征交互模块的桥梁，被忽略了。

数值特征进行embedding常用的方法是归一化和离散化。前者在多个特征之间共享一个embedding，后者通过多种离散化方法，将数值特征转换为类别特征。

但是，第一种方法表达能力有限，第二种也是性能有限，因为离散化不能随着CTR模型的最终目标而优化。

为了解决数值特征的表达能力的问题，这篇文章提出一种自动离散化框架，AutoDis，它可以自动将数值特征离散化，并且以端到端的形式跟CTR模型一起优化。

具体而言，作者们为每一个数值域引入一个元embedding集合，可以对跨域的特征之间的关系进行建模，提出一种自动微分离散化和聚合方法，可以捕捉数值特征和元embedding之间的关联性。

两个公开数据集和一个工业界数据集上的实验表明，AutoDis相对STOA方法效果更优。

数值型特征不太容易利用embedding方法

这篇文章提出的AutoDis具有以下两个特性

这篇文章的主要贡献如下

目前大多数深层CTR模型基本都包含了下面两个模块

特征交互主要分为以下几类

现有的数值特征处理方法主要有以下几种

其中最常用的是离散化方法，主要分为以下几种

离散化方法存在下面三个问题

上述三个问题图示如下

AutoDis可以作为深层CTR模型的组成部分融入进去

AutoDis 框架图示如下

部分聚合函数以及优缺点如下

作者们提出一种新的聚合函数

在数据预处理阶段，作者们对于数值型特征利用了minmax归一化方法。

数据集信息统计如下

几种方法的效果对比如下

不同模型与autoDis结合的效果对比如下

embedding可视化效果对比如下

不同的特征值元embedding softmax分布图示如下

数值特征个数以及顺序对autodis的影响图示如下

不同模型的复杂度对比如下

不同的聚合策略效果对比如下

元embedding的个数对模型效果影响如下

我是分割线

您可能感兴趣

乔治亚理工提出基于GAN的强化学习算法用于推荐系统

民宿平台airbnb是如何动态定价的

密歇根州立大学联合领英提出基于AutoML的Embedding框架AutoDim

密歇根州立大学联合字节提出AutoEmb用于流式推荐

深度学习在CTR预估中的应用

伊利诺伊大学联合中科院提出动态图协同过滤算法DGCF(已开源)

加州大学提出对偶注意力RNN用于时间序列预估

宾大微软联合提出深层强化学习框架用于新闻推荐

中科大等提出深度注意力网络DAM用于捆绑推荐

浙大中科院微软等提出分层注意力网络SHAN用于序列推荐系统

加州大学提出时间间隔自注意力模型用于序列推荐(已开源)

普渡大学提出轻量级特征交互算法deeplight大幅加速ctr预估在线服务(已开源)

这篇关于诺亚方舟实验室提出数值特征自动离散框架AutoDis用于CTR预估的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/232626。 23002807@qq.com

相关文章

SpringBoot+Docker+Graylog 如何让错误自动报警

SpringBoot+Docker+Graylog 如何让错误自动报警

《SpringBoot+Docker+Graylog如何让错误自动报警》SpringBoot默认使用SLF4J与Logback,支持多日志级别和配置方式,可输出到控制台、文件及远程服务器,集成ELK... 目录01 Spring Boot 默认日志框架解析02 Spring Boot 日志级别详解03 Sp

阅读更多...

Spring 框架之Springfox使用详解

Spring 框架之Springfox使用详解

《Spring框架之Springfox使用详解》Springfox是Spring框架的API文档工具,集成Swagger规范,自动生成文档并支持多语言/版本,模块化设计便于扩展,但存在版本兼容性、性... 目录核心功能工作原理模块化设计使用示例注意事项优缺点优点缺点总结适用场景建议总结Springfox 是

阅读更多...

浏览器插件cursor实现自动注册、续杯的详细过程

浏览器插件cursor实现自动注册、续杯的详细过程

《浏览器插件cursor实现自动注册、续杯的详细过程》Cursor简易注册助手脚本通过自动化邮箱填写和验证码获取流程,大大简化了Cursor的注册过程,它不仅提高了注册效率,还通过友好的用户界面和详细... 目录前言功能概述使用方法安装脚本使用流程邮箱输入页面验证码页面实战演示技术实现核心功能实现1. 随机

阅读更多...

Python的端到端测试框架SeleniumBase使用解读

Python的端到端测试框架SeleniumBase使用解读

《Python的端到端测试框架SeleniumBase使用解读》：本文主要介绍Python的端到端测试框架SeleniumBase使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全... 目录SeleniumBase详细介绍及用法指南什么是 SeleniumBase？SeleniumBase

阅读更多...

HTML5 中的＜button＞标签用法和特征

HTML5 中的＜button＞标签用法和特征

《HTML5中的＜button＞标签用法和特征》在HTML5中，button标签用于定义一个可点击的按钮，它是创建交互式网页的重要元素之一，本文将深入解析HTML5中的button标签，详细介绍其属... 目录引言<button> 标签的基本用法<button> 标签的属性typevaluedisabled

阅读更多...

HTML5实现的移动端购物车自动结算功能示例代码

HTML5实现的移动端购物车自动结算功能示例代码

《HTML5实现的移动端购物车自动结算功能示例代码》本文介绍HTML5实现移动端购物车自动结算,通过WebStorage、事件监听、DOM操作等技术,确保实时更新与数据同步,优化性能及无障碍性,提升用... 目录1. 移动端购物车自动结算概述2. 数据存储与状态保存机制2.1 浏览器端的数据存储方式2.1.

阅读更多...

一文详解MySQL如何设置自动备份任务

一文详解MySQL如何设置自动备份任务

《一文详解MySQL如何设置自动备份任务》设置自动备份任务可以确保你的数据库定期备份,防止数据丢失,下面我们就来详细介绍一下如何使用Bash脚本和Cron任务在Linux系统上设置MySQL数据库的自... 目录1. 编写备份脚本1.1 创建并编辑备份脚本1.2 给予脚本执行权限2. 设置 Cron 任务2

阅读更多...

MyBatis Plus 中 update_time 字段自动填充失效的原因分析及解决方案(最新整理)

MyBatis Plus 中 update_time 字段自动填充失效的原因分析及解决方案(最新整理)

《MyBatisPlus中update_time字段自动填充失效的原因分析及解决方案(最新整理)》在使用MyBatisPlus时,通常我们会在数据库表中设置create_time和update... 目录前言一、问题现象二、原因分析三、总结：常见原因与解决方法对照表四、推荐写法前言在使用 MyBATis

阅读更多...

Python使用smtplib库开发一个邮件自动发送工具

Python使用smtplib库开发一个邮件自动发送工具

《Python使用smtplib库开发一个邮件自动发送工具》在现代软件开发中,自动化邮件发送是一个非常实用的功能,无论是系统通知、营销邮件、还是日常工作报告,Python的smtplib库都能帮助我们... 目录代码实现与知识点解析1. 导入必要的库2. 配置邮件服务器参数3. 创建邮件发送类4. 实现邮件

阅读更多...

Python使用pynput模拟实现键盘自动输入工具

Python使用pynput模拟实现键盘自动输入工具

《Python使用pynput模拟实现键盘自动输入工具》在日常办公和软件开发中,我们经常需要处理大量重复的文本输入工作,所以本文就来和大家介绍一款使用Python的PyQt5库结合pynput键盘控制... 目录概述：当自动化遇上可视化功能全景图核心功能矩阵技术栈深度效果展示使用教程四步操作指南核心代码解析

阅读更多...