网易严选画像建设实践

2023-10-09 00:49

本文主要是介绍网易严选画像建设实践,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

导读:在数字化转型的浪潮下,企业越来越重视自身数据资产的沉淀和应用。画像作为一种重要的数据资产形式,受到了越来越多的关注。网易严选作为一家自营电商,业务链路长、场景多,所涉及的核心业务实体也多,如用户、商品、供应商、渠道等等。通过画像去洞察这些业务实体对企业精细化运营有着重要的帮助。基于此背景严选打造了具备行业特色的标签和画像中台。本文的主题为网易严选画像建设实践,主要介绍严选标签和画像中台的工具和方法论。

01

关于标签和画像

1. 什么是标签和画像

标签:

标签是对业务实体某个维度特征的刻画和描述,是一种面向业务的数据组织形式。例如,我们在大众点评上看到某家店是“必吃店”,这就是一种标签,又或者某部电影在豆瓣上的评分,这也是一种标签。

画像:

画像是对业务实体多个维度特征的刻画和描述,是多个标签的集合。例如,在游戏中每个角色都有自己的力量、智力和敏捷属性,这就是角色的画像,这个画像由力量、智力、敏捷这三个标签集合而成。

2. 标签和画像的价值

标签:

  • 提供信息:标签的本质还是数据,数据的价值在于提供信息,进而提升决策的科学性和准确性。企业的运营主要围绕业务对象和业务活动,所谓的精细化运营,无非是通过信息,来区分对待业务对象和业务活动,而标签可以很好地承载信息,是精细化运营的重要工具。

  • 面向业务:标签是面向业务的一种数据组织形式,可以让业务直接用起来,帮助业务从“看数据”变成“用数据”,真正意义上起到数据驱动业务。

画像:

画像作为标签的集合,可以综合提供多维度的正交信息,帮助我们更准确、形象地洞察实体。

02

为什么要建设标签和画像中台

严选建设标签和画像中台主要是两个目的:解决共性需求(用户价值)和加速数据资产化及价值落地(商业价值)

1. 解决共性需求

目前行业中的标签和画像主要都是用户标签和用户画像,其应用场景主要是精准营销和消费者洞察。

严选的业务场景较多,如消费者洞察、供应商寻源、爆品打造等,涉及到的核心业务实体比较多,如用户、商品、供应商、渠道等等。

这些业务实体都存在建标签、用标签和看画像的需求。比如在营销活动的时候需要基于用户标签去圈用户、看用户画像,在为商品寻找优质供应商的时候需要基于供应商标签去圈供应商、看供应商画像等等。

2. 加速数据资产化及价值落地

前文有提到,标签作为面向业务的数据组织形式,可以更直接、有效地创造数据价值。通过建设标签和画像中台可以更快速地构建标签,更全面地管理标签以及更便捷地使用标签。

03

标签和画像中台工具

1. 产品简介

严选标签和画像中台定位为提供从数据管理、标签萃取、洞察分析的全流程数据驱动能力,下图为严选标签和画像中台的产品大图:

2. 功能特性

严选标签和画像中台主要分为数据管理、标签萃取、洞察分析三个功能模块:

① 数据管理

数据管模块目的是统一管理业务实体及其全域数据,为标签萃取提供数据源,核心是以下两个功能:

  • 业务实体的管理:包括实体的命名、主键标识等

  • 多种数据源的导入和管理:支持hive、kudu、es、hbase四种数据存储引擎,不同的标签数据存储引擎主要是为了满足不同的场景

下图为不同存储引擎的适用场景:

严选标签数据源包括一方和二方数据,数据经过统一的加工处理后存储在数仓DM层的标签数据表中。

  • 一方数据:来自于严选域内各个业务过程的数据,包括但不限于行为日志、统计指标、预测模型等。

  • 二方数据:来自于网易集团层的共建数据,包括但不限于网易传媒的广告数据、网易云音乐的用户行为数据等。

② 标签萃取

标签萃取模块目的是将数据快速、灵活地萃取为标签。

为了满足更灵活的标签需求,我们将标签划分为基础标签和复合标签。前者可以是任意数据类型,使用起来可以自定义规则和参数,后者是布尔值类型,规则和参数已经定义好,两者的实现过程及存储方式都有所不同(限于篇幅此处对技术方案不做介绍)。例如,【年龄】是一个基础标签,【年龄介于20~30】是一个复合标签。

基础标签的萃取方法:

  • 关联表字段:通过直接关联数据表中的字段创建标签,这也是标签最主要、直接的萃取方式

  • SQL自定义:基于已有的标签构建计算字段作为标签,例如已有【销售额】【成本】两个标签,可以构建出【利润】标签(利润=销售额-成本)

复合标签的萃取方法:

  • 可视化建模:通过可视化界面自由组合海量标签创建新的标签,实现0成本标签自助生产,快速满足业务需求。例如,我们要构建一个【有孩子、近7天有高消费且未待业的家长】,可以按照下图的规则建模:

  • 手动、接口打标:除了规则建模以外,还会有些来线下/三方的数据以及一些事件驱动类的打标需求(例如,供应商在完成审核入驻后需要立刻给该供应商打上标),这些情况下需要业务同学手动打标或者业务系统通过接口来打标。

③ 洞察分析

洞察分析模块目的是通过标签圈选实体,通过画像洞察实体。

实体圈选:

实体圈选分为标签圈选、手动上传、分组加工三种方式:

  • 标签圈选:通过海量标签的组合来圈选实体

  • 手动上传:上传包含实体ID的文件作为一个分组

  • 分组加工:基于已有的分组做高级计算(交并差计算、分组提取)

画像分析:

画像可分为个体画像和分组画像,个体画像就是个体的标签结果集合,较为简单,此处略过,本节主要介绍画像的具体功能。

多种分析类型:

  • 画像的分析类型可分为:单标签属性分布、多标签交叉分析

  • 单标签属性分布:某个标签的各个属性值的分布,如人群的性别分布

  • 多标签交叉分析:以某个标签为维度分析另一个标签,如不同类目商品的销售额分布

分组对比及TGI分析:

  • 分组对比是画像常用的一种分析方法。在选取目标组和对照组后,通过对比我们可以看到两个分组的差异性。

  • TGI作为度量差异性的重要指标可以让我们更直观地看到目标组的显著特征(TGI=[目标分组中具有某一特征的实体所占比例/对照组中具有相同特征的实体所占比例]*标准数100)

画像模板和自定义画像信息:

画像模板是一些固化下来的常用画像分析思路,便于快速浏览画像;而自定义画像信息则为了满足画像分析的个性化需求。

04

标签和画像中台方法论

在有了工具之后就是着手去搭建并应用标签和画像了,本节主要介绍标签体系建设和画像应用的方法论以及严选实践的一些具体案例。

1. 标签体系建设

从0-1搭建标签体系有两种方式,分别是自下而上和自上而下,在实操过程中往往这两种方式结合运用。

① 自下而上

自下而上的标签体系建设方式分为产技主导和业务主导,产技主导主要负责标签体系冷启动的问题,业务主导主要负责标签体系的自增长

产技主导:

在标签体系从0-1的起步阶段,可能很多业务同学不清楚什么是标签,标签能用来做什么,对他的工作有什么帮助。那么这个时候可以由产技同学主导,选择1-2个核心场景切入,明确这个场景中的角色、流程、需求、痛点,思考在这个场景下如何通过标签去辅助业务,以及如何量化标签的价值、预估标签可以产生的价值。

在和业务同学沟通确认后,推动这个场景落地。业务同学在有了实操体验后自然会对标签有一定的认识,会举一反三联想到其他哪些场景也能用到标签(这一步业务同学一定比产技同学反应快得多),进而逐步切入到其他场景,渐渐地从产技主导过渡到业务主导。

案例:例如,在从0-1搭建供应商标签体系的时候,可以先主动调研供应商相关的核心业务场景,如供应商寻源,然后明确供应商寻源的具体业务规则,进而推导出哪些标签

会有帮助,如“供应商评级”、“采购降本比例”等等标签,最后推动标签落地。

业务主导:

业务主导指业务方有某个具体的运营策略,需要由标签来辅助完成,这类标签的建设和落地会容易的很多。

案例:例如,营销的同学要挽回高价值的流失人群,那么就需要有用户价值、用户流失概率等签,有了这些标签我们就能圈出这部分用户,再结合这部分用户的画像,就可以输出一些的营销策略。

② 自上而下

业务运转机制服务于商业目标,业务运转机制中两条主线就是业务流程和业务对象的生命周期,我们可以通过这两条线结合具体的商业目标和运营策略来自上而下构建标签体系。

按照业务流程拆解:

首先要明确企业的业务流程,例如零售企业的基本业务流程可以分为:设计研发-生产-营销-仓储-配送-售后,然后基于商业目标推导每个环节的运营策略。

案例:例如,当我们要降低供应链成本的时候,对应到仓储环节就是要降低库存持有成本,然后我们会有一系列的运营策略来管理库存,比如销量的预测、库存的监控、动销情况等等。基于这些具体的策略我们可以推导需要哪些标签,比如在预测商品销量时,我们需要商品的季节标签、历史销量标签等等。

按照业务对象的生命周期拆解:

业务对象的生命周期和业务流程穿插在一起,且可以从多个维度去拆解。以用户为例,我们可以按照AARRR、AIPL等生命周期模型拆解。同样的,我们基于商业目标拆解到每个生命周期的具体运营策略,进而推导出需要哪些标签。

案例:例如,对于流失期的用户,具体的运营策略是一系列的召回措施,那么就会用到用户最近一次购买时间、商品兴趣偏好、优惠圈敏感度等等标签。有了这些标签后,我们可以把运营策略做进一步的精细化,例如,有明显品类偏好的用户通过品类的上新/促销活动来召回,对优惠圈敏感度高的用户可以通过优惠券召回。

2. 画像应用

画像是一个火了很久的概念,画像功能看起来很酷炫,但是大家普遍会觉得这个东西没有实际用处,所以画像到底要怎么用呢?

画像应用的核心在于,通过对比发现显著特征并转化成具体的运营策略。常见的画像分析方法有以下几种:

① 分组内特征对比

分组内特征对比指分析单个分组内各个特征的分布情况,这也是目前用到最多的画像分析方法,比如分析某个人群的性别分布、城市分布、偏好商品的分布。

案例:例如我们可以圈选出加购但是还未购买某爆款猫粮的用户并分析该人群的常驻城市分布,然后我们可以基于城市分布去调整这款猫粮的库存分布,通过调拨让猫粮离这些用户更近,这样就可以提升供应链的响应速度

但是,这种方法往往只能了解到一些大致情况,很多时候并不能直接产出运营策略。

② 分组间特征对比

分组间特征对比指对比多个分组(一般是2个)的特征情况,这是目前最有用的画像分析方法。分组间特征对比的核心在于TGI,通过TGI发现显著特征。这里我们通过商品画像和用户画像的2个案例来说明:

商品画像:我们通过对比“销量前10%的商品”和“全量的商品”发现用户更倾向于购买零售价在0-20、20-40,风格为居家生活、日式的商品。因此在后续商品研发和爆品打造的时候可以主攻这个方向,以及在做首单转化的时候也可以针对这类商品做更大力度的优惠。

用户画像:我们通过对比“严选的超级会员人群”和“严选全量用户人群”发现严选的超会人群具备以下显著特征:性别女、常驻上海市、有车、偏好海淘服饰类等。基于这些显著特征我们可以输出以下两条运营策略:

  • 拉新:在线上、线下的广告投放时更加倾向于具备女性、上海市、有车等特征的用户。

  • 促活和留存:对于已经开通超级会员的用户,可以给予更多的海淘服饰类的超会折扣或者每月可以免费领取汽车用品等等权益。

③ 分组跨时间维度特征对比

单分组跨时间维度特征对比指对比同一个分组在不同时间的特征情况。例如,我们要测试一下某个营销工具的效果情况,我们可以对比使用营销工具前和使用后的某个人群的ARPU(单用户平均收入)、近30日消费次数等特征的变化,发现使用营销工具后这个人群的ARPU值和近30日消费次数都有更好的表现,证明这个营销工具是有一定效果的(实际情况中还要排除一些其他因素)。

05

总结

本文首先介绍了标签和画像是对业务实体维度特征的刻画和描述,标签和画像的价值在于提供信息、面向业务。然后介绍了严选为什么要建设标签和画像中台:解决共性需求、加速数据资产化和价值落地。进一步介绍了严选标签和画像中台工具的具体能力:数据管理、标签萃取和洞察分析。最后介绍了标签体系建设 ( 自下而上和自上而下 ) 和画像应用 ( 多种特征对比方式 ) 的方法论,并结合了严选的实践案例。

当然,在实际的落地过程中还有很多其他困难要克服,例如如何更全面地收集数据、如何保障标签的准确性、如何保障数据及服务链路的稳定性等等。

这篇关于网易严选画像建设实践的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/169146

相关文章

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

Prometheus与Grafana在DevOps中的应用与最佳实践

Prometheus 与 Grafana 在 DevOps 中的应用与最佳实践 随着 DevOps 文化和实践的普及,监控和可视化工具已成为 DevOps 工具链中不可或缺的部分。Prometheus 和 Grafana 是其中最受欢迎的开源监控解决方案之一,它们的结合能够为系统和应用程序提供全面的监控、告警和可视化展示。本篇文章将详细探讨 Prometheus 和 Grafana 在 DevO

springboot整合swagger2之最佳实践

来源:https://blog.lqdev.cn/2018/07/21/springboot/chapter-ten/ Swagger是一款RESTful接口的文档在线自动生成、功能测试功能框架。 一个规范和完整的框架,用于生成、描述、调用和可视化RESTful风格的Web服务,加上swagger-ui,可以有很好的呈现。 SpringBoot集成 pom <!--swagge

vue2实践:el-table实现由用户自己控制行数的动态表格

需求 项目中需要提供一个动态表单,如图: 当我点击添加时,便添加一行;点击右边的删除时,便删除这一行。 至少要有一行数据,但是没有上限。 思路 这种每一行的数据固定,但是不定行数的,很容易想到使用el-table来实现,它可以循环读取:data所绑定的数组,来生成行数据,不同的是: 1、table里面的每一个cell,需要放置一个input来支持用户编辑。 2、最后一列放置两个b

【HarmonyOS】-TaskPool和Worker的对比实践

ArkTS提供了TaskPool与Worker两种多线程并发方案,下面我们将从其工作原理、使用效果对比两种方案的差异,进而选择适用于ArkTS图片编辑场景的并发方案。 TaskPool与Worker工作原理 TaskPool与Worker两种多线程并发能力均是基于 Actor并发模型实现的。Worker主、子线程通过收发消息进行通信;TaskPool基于Worker做了更多场景化的功能封装,例

vue2实践:第一个非正规的自定义组件-动态表单对话框

前言 vue一个很重要的概念就是组件,作为一个没有经历过前几代前端开发的我来说,不太能理解它所带来的“进步”,但是,将它与后端c++、java类比,我感觉,组件就像是这些语言中的类和对象的概念,通过封装好的组件(类),可以通过挂载的方式,非常方便的调用其提供的功能,而不必重新写一遍实现逻辑。 我们常用的element UI就是由饿了么所提供的组件库,但是在项目开发中,我们可能还需要额外地定义一

《C++中的移动构造函数与移动赋值运算符:解锁高效编程的最佳实践》

在 C++的编程世界中,移动构造函数和移动赋值运算符是提升程序性能和效率的重要工具。理解并正确运用它们,可以让我们的代码更加高效、简洁和优雅。 一、引言 随着现代软件系统的日益复杂和对性能要求的不断提高,C++程序员需要不断探索新的技术和方法来优化代码。移动构造函数和移动赋值运算符的出现,为解决资源管理和性能优化问题提供了有力的手段。它们允许我们在不进行不必要的复制操作的情况下,高效地转移资源

【信创建设】信息系统信创建设整体技方案(word原件完整版)

信创,即“信息技术应用创新”。我国自主信息产业聚焦信息技术应用创新,旨在通过对IT硬件、软件等各个环节的重构,基于我国自有IT底层架构和标准,形成自有开放生态,从根本上解决本质安全问题,实现信息技术可掌控、可研究、可发展、可生产。信创发展是一项国家战略,也是当今形势下国家经济发展的新功能。信创产业发展已经成为各行各业数字化转型、提升产业链发展的关键。 软件全套资料部分文档清单: 工作安排任

模具要不要建设3D打印中心

随着3D打印技术的日益成熟与广泛应用,模具企业迎来了自建3D打印中心的热潮。这一举措不仅为企业带来了前所未有的发展机遇,同时也伴随着一系列需要克服的挑战,如何看待企业引进增材制造,小编为您全面分析。 机遇篇: 加速产品创新:3D打印技术如同一把钥匙,为模具企业解锁了快速迭代产品设计的可能。企业能够迅速将创意转化为实体模型,缩短产品从设计到市场的周期,抢占市场先机。 强化定制化服务:面