程序化广告交易中的点击率预估

2024-02-02 14:48

本文主要是介绍程序化广告交易中的点击率预估,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

程序化广告交易中的点击率预估

指标

  广告点击率预估是程序化广告交易框架的非常重要的组件,点击率预估主要有两个层次的指标:

     1. 排序指标。排序指标是最基本的指标,它决定了我们有没有能力把最合适的广告找出来去呈现给最合适的用户。这个是变现的基础,从技术上,我们用AUC来度量。

     2. 数值指标。数值指标是进一步的指标,是竞价环节进一步优化的基础,一般DSP比较看中这个指标。如果我们对CTR普遍低估,我们出价会相对保守,从而使得预算花不出去或是花得太慢;如果我们对CTR普遍高估,我们的出价会相对激进,从而导致CPC太高。从技术上,我们有Facebook的NE(Normalized Entropy)还可以用OE(Observation Over Expectation)。

                              

框架

  工业界用得比较多的是基于LR的点击率预估策略,我觉得这其中一个重要的原因是可解释性,当出现bad case时越简单的模型越好debug,越可解释,也就越可以有针对性地对这种bad case做改善。但虽然如此,我见到的做广告的算法工程师,很少有利用LR的这种好处做模型改善的,遗憾….. 最近DNN很热,百度宣布DNN做CTR预估相比LR产生了20%的benefit,我不知道比较的benchmark,但就机理上来讲如果说DNN比原本传统的人工feature engineering的LR高20%,我一点也不奇怪。但如果跟现在增加了FM和GBDT的自动高阶特征生成的LR相比,我觉得DNN未必有什么优势。毕竟看透了,DNN用线性组合+非线性函数(tanh/sigmoid etc.)来做高阶特征生成,GBDT + FM用树和FM来做高阶特征生成,最后一层都是非线性变换。从场景上来讲,可能在拟生物的应用上(如视、听觉)上DNN这种高阶特征生成更好,在广告这种情境下,我更倾向于GBDT + FM的方法。

  整个CTR预估模块的框架,包含了exploit/explore的逻辑。

        

  单纯点击率预估算法的框图如下;

           

Step-by-step

1. 数据探索(data exploration)

  主要是基础特征(raw feature/fundamental feature)的粗筛和规整。

  展示广告的场景可以表述为”在某场景下,通过某媒体向某用户展示某广告”,因此基础特征就在这四个范围内寻找:

   场景 – 当时场景,如何时何地,使用何种设备,使用什么浏览器等

   广告 – 包括广告主特征,广告自身的特征如campaign、创意、类型,是否重定向等

   媒体 – 包括媒体(网页、app等)的特征、广告位的特征等

   用户 – 包括用户画像,用户浏览历史等

  单特征选择的方法有下面几种:

    1. 简单统计方法,统计特征取值的覆盖面和平衡度,对dominant取值现象很显著的特征,要选择性地舍弃该特征或者是归并某些取值集到一个新的值,从而达到平衡的目的。

    2. 特征选择指标,特征选择主要有两个目的,一是去除冗余的特征,也就是特征之间可能是互相冗余的;二是去无用,有些特征对CTR预估这个任务贡献度很小或没有,对于这类特征选择,要小小地做,宁不足而不过分,因为单特征对任务贡献度小,很有可能后面再组合特征生成时与其他特征组合生成很有效的组合特征,所以做得不能太过。

      a) 去冗余。主要是特征间的相关性,如Pearson相关性,或者指数回归(从泰勒定理的角度它可以模拟高阶的多项式特征)。

      b) 去无用。主要是信息增益比。

2. 特征组合

  两派方法:

    FM系列  - 对于categorical feature,一般把他们encode成one hot的形式,特征组合适合用FM。

   Tree系列 - 对于numerical feature和ordinal feature, 特征组合可以使用决策树类的,一般用random forest或GBDT。其中GBDT的效果应该更好,因为boosting方法会不断增强对错判样本的区分能力。

 

  对于广告点击率预估,同时拥有这三类特征。所以一个简单的方法就是级联地使用这两个方法,更好地进行特征组合。

         

3. LR

  a. OWL-QN

      这个是batch训练的方法,主要用于处理L1正则下的LR最优化。

  b. Online learning(FTRL and Facebook enhancement)

      在线学习,及时反馈点击信息,不断演化LR模型,从而为新广告更快收敛。

4. 预测CTR可信吗?

  任何一个特征向量输入到这个CTR预测算法,算法都会像模像样地给你输出一个预测CTR。但这个CTR真的可信吗?我们知道机器学习是典型data driven的,当训练数据中某种情况的数据不足时,这种情况下的预测值很有可能被其他数据拉偏。所以,肯定会有预测值不可信的情况,那我们怎么判断当前的预测CTR的可信度呢?

  Google在提出FTRL算法的同时伴随提出了一个预测CTR可信度的方法,想法很简单:训练数据越多则可信度越高。下图公式中指训练集中第i维feature非零的训练向量的个数。normalization到[0, 1]的方法很多,需要根据总业务数据量以及先验CTR来最终确定。

                                         

5. 修修补补

  后面的事情就是在前述的框架的基础上,根据bad case修修补补了。比如说,现在认为在不同的点击率区段,影响点击率的特征的权重是一致的,但实际发现是不一样的,就可以按照点击率的区间划分,做分区间模型(据说阿里用的MLR就是这个东东)。这些都不出上面的框架,是在分析数据之后做的细化,逃不脱“分段逼近”这个大圈。

这篇关于程序化广告交易中的点击率预估的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/671058

相关文章

量化交易面试:什么是连贯风险度量?

连贯风险度量(Coherent Risk Measures)是金融风险管理中的一个重要概念,旨在提供一种合理且一致的方式来评估和量化风险。连贯风险度量的提出是为了克服传统风险度量方法(如VaR,风险价值)的一些局限性。以下是对连贯风险度量的详细解释: 基本概念: 连贯风险度量是指满足特定公理的风险度量方法,这些公理确保了风险评估的一致性和合理性。 这些公理包括:非负性、次可加性、同质性和单调

软文发稿相比其他广告形式有哪些持续性优势?

软文发稿在品牌宣发中具有显著的持续性优势,特别是在与其他广告形式的比较中更能体现这些特点。凭借其潜移默化的影响力、增强品牌权威性和公信力、持续性的曝光优势、精准触达目标受众的能力、强互动性与引导性,以及较高的性价比,已经成为品牌推广不可或缺的手段 一 长期存在与持续曝光 长时间的内容可见性     软文发表后,通常会长时间存在于各种平台上,无论是官网、博客、行业网站还是社交媒体帖子。读

SSM+Ajax实现广告系统

文章目录 1.案例需求2.编程思路3.案例源码(这里只给出新增部分的Handler和ajax部分,需要详情的可以私信我)4.小结 1.案例需求 使用SSM+Ajax实现广告系统,包括登录、查询所有、搜索、新增、删除、修改等功能,具体实现的效果图如下: 2.编程思路 登录: 前端处理 使用jQuery的$.ajax方法,在用户点击提交按钮时(阻止表单的默认提交行为),向服

散户炒股票为什么进步慢,学习程序化交易思维

炒股自动化:申请官方API接口,散户也可以 python炒股自动化(0),申请券商API接口 python炒股自动化(1),量化交易接口区别 Python炒股自动化(2):获取股票实时数据和历史数据 Python炒股自动化(3):分析取回的实时数据和历史数据 Python炒股自动化(4):通过接口向交易所发送订单 Python炒股自动化(5):通过接口查询订单,查询账户资产 散户炒股的常见难题

个股场外期权怎么交易?场外期权交易流程是怎样的?

今天带你了解个股场外期权怎么交易?场外期权交易流程是怎样的?个股场外期权是一种非标准化的期权合约,通常在场外市场(OTC市场)由金融机构和投资者之间进行交易。 场外个股期权主要功能 风险管理: 帮助投资者对冲持有个股的价格波动风险。比如,投资者担心持有的股票价格下跌,可以通过买入场外认沽期权来锁定最低卖出价。 投机获利: 投资者可以利用场外期权进行投机,利用杠杆效应,投入较少资金博取标的

期权交易中最基本的操作!新手先从期权买入开仓开始!

今天带你了解期权交易中最基本的操作!新手先从期权买入开仓开始!交易期权的第一步是选择一个可信赖的期权交易平台,可以是大型券商提供的交易平台或专业的期权交易所。 新手先从期权买入开仓开始 买入开仓(即建立权利仓),卖出开仓(即建立义务仓)。买入开仓最大亏损不超过开仓时支付的权利金,最大收益,理论上无限;卖出开仓则相反,最大收益不超过开仓时收取的权利金,最大亏损理论上无限。 买入开仓亏损有限,收

50ETF期权对于投资者有哪些作用?具体怎么交易50ETF期权

今天带你了解50ETF期权对于投资者有哪些作用?具体怎么交易50ETF期权?50ETF期权提供了一种灵活且成本效率高的方式来增加收益、管理风险或进行市场投机。 50ETF期权为投资者提供了多样化的投资策略和风险管理工具。 50ETF期权对投资者的主要作用 对冲风险:投资者可以通过购买看涨或看跌期权来对冲持有的ETF份额或其他相关资产的价格波动风险。 投机:投资者可以利用相对较小的资本投入来

区块链ARC如何能让节点能够大规模处理交易数据

​​发表时间:2024年8月7日 TAAL技术主管Michael Böckli表示,TAAL公司一直在对ARC进行测试,并准备在今年年底全面发布。因TAAL在区块链交易处理方面具备深厚的专业知识,BSV区块链委托TAAL进行ARC开源参考落地方案的开发。 ARC是一个多层交易处理系统,能够追踪交易在BSV区块链上的整个生命周期。 除了遵循BSV区块链的开源指南和要求开发ARC的开源版

期权的组合交易策略有哪些?为你介绍期权价差组合策略

今天带你了解期权的组合交易策略有哪些?为你介绍期权价差组合策略。期权的组合策略相对来说是比较复杂的,投资者需要在操作速度和合约选择上有更多的经验,但是这种方法是降低成本和风险的最好方法。 期权价差组合 价差组合就是认购期权价差和认沽期权价差组合在一起,认购期权价差组合就是买入平值或者虚值的认购期权,卖出更高执行价的认购期权。认沽期权价差组合是指买入平值或者虚值认沽期权,卖出更低执行价的认沽期权

AliExpress基于Flink的广告实时数仓建设

点击上方蓝色字体,选择“设为星标” 回复"面试"获取更多惊喜 大数据面试提升私教训练营上线 Hi,我是王知无,一个大数据领域的原创作者。  放心关注我,获取更多行业的一手消息。 摘要:实时数仓以提供低延时数据指标为目的供业务实时决策,本文主要介绍基于Flink的广告实时数仓建设,主要包括以下内容: 1. 建设背景 2. 技术架构 3. 数仓架构 4. 实时OLAP 5. 实时保障 6. 未