属性归因和对齐在商品企划中的应用

2024-06-21 07:38

本文主要是介绍属性归因和对齐在商品企划中的应用,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述

公众号 系统之神与我同在

业务背景:

在电商运营中,分析哪些变量会对顾客是否购买产生影响是十分重要的。然而我们对顾客进行商品描述和对工厂进行商品描述时所采用的语言是完全不同的,顾客看到的是关键词“仙女、超仙、气质”等等,而我们对工厂的要求就要具体到衣服的面料,工艺等等。也就是说,生产语言和营销语言之间存在描述的鸿沟!
在这里插入图片描述
PART1:属性归因
相关研究:

对于属性归因的相关研究有下:

·GAM广义加性模型——优点:具有很强的可解释性,缺点:对复杂任务的拟合能力较弱。
·LIME——优点:模型无关,简单模型解释复杂模型,缺点:拟合准确率不高 ,二次误差,时间复杂度高。
·Lstm+attention+adversarial——优点:考虑了混淆变量的影响。
·Lstm+attention+Res——优点:考虑了混淆变量的影响。
形式化因果关系:

问题描述:属性归因要解决的问题则是,如何找到商品中哪些属性影响了买家的决策。

在实际业务场景下,我们将变量分为如下三种:

·类文本变量cpv(类目-属性-属性值)简称T:解释变量。
·混淆变量(简称C),包括:品牌,人气,库存,淘宝卖家交易数据, 店铺人气,店铺·评分,店铺销量、商品好评率,价格等。
·目标变量ipv(item page view)简称Y:被解释变量。

我们使用网站用户的搜索数据进行训练,来预测ipv,目标是降低混淆变量的干扰,预测准确。

衡量准确性的指标为加权准确率(Weighted Mean Absolute Percentage Error):

在这里插入图片描述
为了达到该目标,目前推出了三个版本的模型:

V1:Transformer+Attention+Residualization
在这里插入图片描述
该模型分为两部分:使用cpv预测ipv和使用混淆变量预测ipv,然后将两部分进行加和。其中loss=loss(ipv)+loss(ipv’)

模型的acc和loss如下:
在这里插入图片描述
V1的缺陷:

加性模型会受到变量自身方差的影响,会出现两个描述基本相同的商品,最终ipv相差很大的情况。
在这里插入图片描述
基于V1的缺陷,对目标函数进行如下修正:

ipv由两部分组成:

1.商品被用户看到的概率(曝光率)
2.用户看到商品后,点击商品的概率(点击率)

基于数据观察,提出假设:ipv由曝光率*点击率决定,cpv 中一部分决定了曝光率,混淆变量一部分在曝光后影响点击,cpv 中一部分直接影响流量,混淆变量中一部分直接影响流量。

[公式]

其中,X为混淆变量,Gate表示门控机制,E代表cpv的encoding,f是FNN层。

V2:Transformer+Attention+Residualization+GateNN
在这里插入图片描述
模型V2的acc和loss如下:
在这里插入图片描述
V3: Transformer+Attention+Res+GateNN+mutil_learning

V3中加入了多目标学习,约束模型的学习方向。并且加入另外两个策略:

1.额外信息:query命中cpv的次数,query命中越多的cpv,相对越重要。
2.采用指数衰减的学习率,通过query count在训练初期纠正模型训练的方向。

在这里插入图片描述
V2和V3在不同变量的重要性得分对比如下:
在这里插入图片描述
在这里插入图片描述
V3的acc和loss如下:
在这里插入图片描述
V3模型的结果:
在这里插入图片描述
PART2:属性对齐
相关研究:

目前许多属性对齐是基于神经机器翻译的词对齐来实现的。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
研究的热点:如何在Transformer上改进解释效果?

痛点:缺少平⾏语料和弱监督信号,如何从数据本身挖掘?

属性分类-冷启动数据准备:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
商品属性分类:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

商品属性对⻬—数据集构造:

数据来源于宝贝详情+标题NER,将数据分为两部分:生产属性集source和营销属性集target。
在这里插入图片描述
属性对齐模型有如下三个版本:

属性对齐模型 – V1版:Vanilla bi-LSTM Encoder + Decoder
在这里插入图片描述
问题:
在这里插入图片描述
对问题的分析:

·RNN的编码方式耦合了输入顺序
·本质:CPV不严格是序列关系
·Over/under translation problem
·需要追踪之前的注意力分布做模型约束

改进:

·编码器替换为Transformer
·平均池化作为全局语义向量
·考虑到解释性,折中使用单层
·引入Coverage机制作为多目标loss
·分类标签修正,增加差异性

属性对齐模型 – V2版:Transformer Encoder + Decoder
在这里插入图片描述
属性对齐模型 – V3版:V2 + Coverage constraint
在这里插入图片描述
矩阵分解+后处理:

1.矩阵分解:对营销属性x,取score Top2生产属性y,组成pair对(x, y)作为候选。以叶子类目为单位,聚合所有pair对。
2.排序规则:
在这里插入图片描述
3.对⻬结果导出:

CPV对⻬表1:⽣产 → 营销

CPV对⻬表2:营销 → ⽣产
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
后续改进:1.针对丰富度、差异性不⾜的类⽬优化,2.pipeline形式的误差累积。

PART3:场景应⽤
应用:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
多场景赋能:
在这里插入图片描述

这篇关于属性归因和对齐在商品企划中的应用的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1080601

相关文章

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

csu 1446 Problem J Modified LCS (扩展欧几里得算法的简单应用)

这是一道扩展欧几里得算法的简单应用题,这题是在湖南多校训练赛中队友ac的一道题,在比赛之后请教了队友,然后自己把它a掉 这也是自己独自做扩展欧几里得算法的题目 题意:把题意转变下就变成了:求d1*x - d2*y = f2 - f1的解,很明显用exgcd来解 下面介绍一下exgcd的一些知识点:求ax + by = c的解 一、首先求ax + by = gcd(a,b)的解 这个

hdu1394(线段树点更新的应用)

题意:求一个序列经过一定的操作得到的序列的最小逆序数 这题会用到逆序数的一个性质,在0到n-1这些数字组成的乱序排列,将第一个数字A移到最后一位,得到的逆序数为res-a+(n-a-1) 知道上面的知识点后,可以用暴力来解 代码如下: #include<iostream>#include<algorithm>#include<cstring>#include<stack>#in

zoj3820(树的直径的应用)

题意:在一颗树上找两个点,使得所有点到选择与其更近的一个点的距离的最大值最小。 思路:如果是选择一个点的话,那么点就是直径的中点。现在考虑两个点的情况,先求树的直径,再把直径最中间的边去掉,再求剩下的两个子树中直径的中点。 代码如下: #include <stdio.h>#include <string.h>#include <algorithm>#include <map>#

【区块链 + 人才服务】可信教育区块链治理系统 | FISCO BCOS应用案例

伴随着区块链技术的不断完善,其在教育信息化中的应用也在持续发展。利用区块链数据共识、不可篡改的特性, 将与教育相关的数据要素在区块链上进行存证确权,在确保数据可信的前提下,促进教育的公平、透明、开放,为教育教学质量提升赋能,实现教育数据的安全共享、高等教育体系的智慧治理。 可信教育区块链治理系统的顶层治理架构由教育部、高校、企业、学生等多方角色共同参与建设、维护,支撑教育资源共享、教学质量评估、

AI行业应用(不定期更新)

ChatPDF 可以让你上传一个 PDF 文件,然后针对这个 PDF 进行小结和提问。你可以把各种各样你要研究的分析报告交给它,快速获取到想要知道的信息。https://www.chatpdf.com/

滚雪球学Java(87):Java事务处理:JDBC的ACID属性与实战技巧!真有两下子!

咦咦咦,各位小可爱,我是你们的好伙伴——bug菌,今天又来给大家普及Java SE啦,别躲起来啊,听我讲干货还不快点赞,赞多了我就有动力讲得更嗨啦!所以呀,养成先点赞后阅读的好习惯,别被干货淹没了哦~ 🏆本文收录于「滚雪球学Java」专栏,专业攻坚指数级提升,助你一臂之力,带你早日登顶🚀,欢迎大家关注&&收藏!持续更新中,up!up!up!! 环境说明:Windows 10

【区块链 + 人才服务】区块链集成开发平台 | FISCO BCOS应用案例

随着区块链技术的快速发展,越来越多的企业开始将其应用于实际业务中。然而,区块链技术的专业性使得其集成开发成为一项挑战。针对此,广东中创智慧科技有限公司基于国产开源联盟链 FISCO BCOS 推出了区块链集成开发平台。该平台基于区块链技术,提供一套全面的区块链开发工具和开发环境,支持开发者快速开发和部署区块链应用。此外,该平台还可以提供一套全面的区块链开发教程和文档,帮助开发者快速上手区块链开发。

【C++高阶】C++类型转换全攻略:深入理解并高效应用

📝个人主页🌹:Eternity._ ⏩收录专栏⏪:C++ “ 登神长阶 ” 🤡往期回顾🤡:C++ 智能指针 🌹🌹期待您的关注 🌹🌹 ❀C++的类型转换 📒1. C语言中的类型转换📚2. C++强制类型转换⛰️static_cast🌞reinterpret_cast⭐const_cast🍁dynamic_cast 📜3. C++强制类型转换的原因📝