优势特征蒸馏:阿里PFD

2024-03-12 22:28
文章标签 优势 阿里 特征 蒸馏 pfd

本文主要是介绍优势特征蒸馏:阿里PFD,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Privileged Features Distillation at Taobao Recommendations

背景

ctr&cvr预估任务中有很多非常有区分性的特征没法使用,比如用户点击之后的互动时长、点击之后的一些页面动作信息,因为只有离线训练的时候能拿到,线上预估的时候是拿不到的,为了保持线上和线下的一致性,这些“优势特征”(Privileged Features)就会被忍痛割爱舍弃掉。那么如何有效利用这些优势特征呢?

解决方案

通过蒸馏的方式,teacher模型的特征输入包含了优势特征,teacher模型和student模型结构一样,只是特征输入不同,teacher模型将学习到的信息蒸馏迁移到student模型。student的输入中没有优势特征,这样线上infer的时候,student模型可以正常工作。

方案详情

与常规的蒸馏模型不同,PFD(Privileged Features Distillation)中teacher和student模型结构上是一致的,只是输入不同。常规的MD(Model Distillation)是teacher模型结构非常复杂,student模型结构简单。
对比如下:
在这里插入图片描述
特征输入 X \mathbf X X,优势特征 X ∗ \mathbf X^* X,student的模型参数 W s \mathbf W_s Ws,teacher的模型参数 W t \mathbf W_t Wt,student模型是原来的主模型,这里加了一个蒸馏loss L d L_d Ld,蒸馏loss用来衡量是teacher模型输出和student模型输出的差异情况的。
如果teacher模型先训练好,然后再来训练student模型,loss如下
在这里插入图片描述

但是teacher模型先训练好可能会比较费时,可以同步训练teacher模型和student模型,loss如下

在这里插入图片描述

我们希望teacher和student的预测输出足够接近,可以使用均方误差如下:
L d = 1 N ∑ i = 1 N ( f ( X ∗ ; W t ) − f ( X ; W s ) ) 2 L_d = \frac {1} {N} \sum_{i=1}^N (f(\mathbf X^*;\mathbf W_t) - f(\mathbf X;\mathbf W_s))^2 Ld=N1i=1N(f(X;Wt)f(X;Ws))2

也可以使用KL 散度,将teacher和student的输出都当做一个分布,KL散度用来衡量分布差异效果较好。

特征输入示意图如下
在这里插入图片描述
粗排阶段优势特征蒸馏
蒸馏方式:交叉特征效果非常好,但是一般没法用在粗排上面,作为优势特征输入到teacher模型

精排阶段优势特征蒸馏
蒸馏方式:用户点击之后的行为特征,比如点击后的停留时长、有没有咨询客服、有没有浏览评论等信息,这些特征作为优势特征输入到teacher模型。

实验

进一步可以将MD和PFD结合起来,可以让teacher模型结构更加复杂,容量更大。
在这里插入图片描述
效果更好
在这里插入图片描述
超参数 λ \lambda λ的调节
在这里插入图片描述
同步(Synchronous)训练时teacher和student的参数共享效果更好,耗时也更低,学习的更充分。
在这里插入图片描述

这篇关于优势特征蒸馏:阿里PFD的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/802781

相关文章

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

阿里云服务器ces

允许公网通过 HTTP、HTTPS 等服务访问实例 https://help.aliyun.com/document_detail/25475.html?spm=5176.2020520101.0.0.3ca96b0b3KGTPq#allowHttp

LLM系列 | 38:解读阿里开源语音多模态模型Qwen2-Audio

引言 模型概述 模型架构 训练方法 性能评估 实战演示 总结 引言 金山挂月窥禅径,沙鸟听经恋法门。 小伙伴们好,我是微信公众号《小窗幽记机器学习》的小编:卖铁观音的小男孩,今天这篇小作文主要是介绍阿里巴巴的语音多模态大模型Qwen2-Audio。近日,阿里巴巴Qwen团队发布了最新的大规模音频-语言模型Qwen2-Audio及其技术报告。该模型在音频理解和多模态交互

《计算机视觉工程师养成计划》 ·数字图像处理·数字图像处理特征·概述~

1 定义         从哲学角度看:特征是从事物当中抽象出来用于区别其他类别事物的属性集合,图像特征则是从图像中抽取出来用于区别其他类别图像的属性集合。         从获取方式看:图像特征是通过对图像进行测量或借助算法计算得到的一组表达特性集合的向量。 2 认识         有些特征是视觉直观感受到的自然特征,例如亮度、边缘轮廓、纹理、色彩等。         有些特征需要通

HalconDotNet中的图像特征与提取详解

文章目录 简介一、边缘特征提取二、角点特征提取三、区域特征提取四、纹理特征提取五、形状特征提取 简介   图像特征提取是图像处理中的一个重要步骤,用于从图像中提取有意义的特征,以便进行进一步的分析和处理。HalconDotNet提供了多种图像特征提取方法,每种方法都有其特定的应用场景和优缺点。 一、边缘特征提取   边缘特征提取是图像处理中最基本的特征提取方法之一,通过检

超越IP-Adapter!阿里提出UniPortrait,可通过文本定制生成高保真的单人或多人图像。

阿里提出UniPortrait,能根据用户提供的文本描述,快速生成既忠实于原图又能灵活调整的个性化人像,用户甚至可以通过简单的句子来描述多个不同的人物,而不需要一一指定每个人的位置。这种设计大大简化了用户的操作,提升了个性化生成的效率和效果。 UniPortrait以统一的方式定制单 ID 和多 ID 图像,提供高保真身份保存、广泛的面部可编辑性、自由格式的文本描述,并且无需预先确定的布局。

全倒装COB超微小间距LED显示屏的工艺技术,相比SMD小间距有何优势

全倒装COB(Chip On Board)超微小间距LED显示屏,在工艺技术上的革新,相较于传统的SMD(Surface Mount Device)小间距LED显示屏,展现出了多方面的显著优势。 首先,全倒装技术极大地提升了LED芯片的散热性能。通过将芯片直接焊接在基板上,减少了热阻,使得热量能够更快速地传导至基板并散发出去,有效避免了因高温导致的光衰和色彩偏移问题,从而保证了显示屏的长期稳定性

对接话费充值API接口的开发步骤以及各种优势

对接话费充值API接口通常涉及以下步骤: 1.选择API提供商: 研究并选择一个可靠的话费充值API提供商。考虑因素包括覆盖范围、费率、交易限额、客户支持和用户评价。 2.注册和获取API密钥: 在选定的API提供商平台上注册账户,并获取API密钥或访问令牌,这是调用API时进行身份验证的必要信息。 3.阅读API文档: 仔细阅读API文档,了解如何构建请求、需要哪些参数、API的