(8)工业界推荐系统-小红书推荐场景及内部实践【冷启动问题2】

本文主要是介绍(8)工业界推荐系统-小红书推荐场景及内部实践【冷启动问题2】,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

系列文章传送门

(1)工业界推荐系统-小红书推荐场景及内部实践【业务指标、链路、ItemCF】
(2)工业界推荐系统-小红书推荐场景及内部实践【UserCF、离线特征处理】
(3)工业界推荐系统-小红书推荐场景及内部实践【矩阵补充、双塔模型】
(4)工业界推荐系统-小红书推荐场景及内部实践【正负样本选择】
(5)工业界推荐系统-小红书推荐场景及内部实践【线上召回和模型更新】
(6)工业界推荐系统-小红书推荐场景及内部实践【其他召回通道】
(7)工业界推荐系统-小红书推荐场景及内部实践【冷启动问题1】

该系列文章根据小红书搜推算法工程师、团队负责人王树森B站上主讲的《工业界的推荐系统》之小红书业务场景及内部实践整理而得。感谢大佬分享工业界前沿的推荐系统实战技术!

这篇文章讲解工业界推荐系统实践中对于冷启动问题的处理技巧,包括:冷启动评价指标、召回通道、聚类召回、Lookalike人群扩展、流量调控以及冷启动中的AB测试等。

Lookalike 人群扩散

Look-Alike起源于互联网广告

在这里插入图片描述
在这里插入图片描述

Look-Alike用于新笔记召回

Look-Alike人群扩散召回

  • 点击、点赞、收藏、转发——用户对笔记可能感兴趣。
  • 把有交互的用户作为新笔记的种子用户。
  • 用 look-alike 在相似用户中扩散。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

流量调控

冷启动的优化点

  • 优化全链路(包括召回和排序)。
  • 流量调控(流量怎么在新物品、老物品中分配)。

扶持新笔记的目的

  • 目的1:促进发布,增大内容池。
    • 新笔记获得的曝光越多,作者创作积极性越高。
    • 反映在发布渗透率、人均发布量。
  • 目的2:挖掘优质笔记。
    • 做探索,让每篇新笔记都能获得足够曝光。
    • 挖掘的能力反映在高热笔记占比。

工业界的做法

  • 假设推荐系统只分发年龄 <30 天的笔记。
  • 假设采用自然分发,新笔记(年龄 <24 小时)的曝光占比为 1/30。
  • 扶持新笔记,让新笔记的曝光占比远大于 1/30。

流量调控技术的发展

  1. 在推荐结果中强插新笔记。
  2. 对新笔记的排序分数做提权(boost)。
  3. 通过提权,对新笔记做保量。
  4. 差异化保量。

新笔记提权

  • 目标:让新笔记有更多机会曝光。

    • 如果做自然分发,24小时新笔记占比为 1/30。
    • 做人为干涉,让新笔记占比大幅提升。
  • 干涉粗排、重排环节,给新笔记提权。

  • 优点:容易实现,投入产出比好。

  • 缺点:

    • 曝光量对提权系数很敏感。
    • 很难精确控制曝光量,容易过度曝光和不充分曝光。

新笔记保量

在这里插入图片描述
在这里插入图片描述

保量的难点

  • 保量成功率远低于 100%。
    • 很多笔记在24小时达不到100次曝光。
    • 召回、排序存在不足。
    • 提权系数调得不好。
  • 线上环境变化会导致保量失败
    • 线上环境变化:新增召回通道、升级排序模型、 改变重排打散规则…
    • 线上环境变化后,需要调整提权系数。
  • 思考题
    • 给所有新笔记一个很大的提权系数(比如 4 倍), 直到达成 100 次曝光为止。
    • 这样的保量成功率很高。
    • 为什么不用这种方法呢?
  • 给新笔记分数 boost 越多,对新笔记越有利?
    • 好处:分数提升越多,曝光次数越多。
    • 坏处:把笔记推荐给不太合适的受众。
      • 点击率、点赞率等指标会偏低。
      • 长期会受推荐系统打压,难以成长为热门笔记。

差异化保量

  • 保量:不论新笔记质量高低,都做扶持,在前 24 小 时给 100 次曝光。

  • 差异化保量:不同笔记有不同保量目标,普通笔记 保 100 次曝光,内容优质的笔记保 100~500 次曝光。

    • 基础保量:24 小时 100 次曝光。
    • 内容质量:用模型评价内容质量高低,给予额外保量目标,上限是加 200 次曝光。
    • 作者质量:根据作者历史上的笔记质量,给予额外 保量目标,上限是加 200 次曝光。
    • 一篇笔记最少有 100 次保量,最多有 500 次保量。

AB test

  • 作者侧指标:
    • 发布渗透率、人均发布量。
  • 用户侧指标:
    • 对新笔记的点击率、交互率。
    • 大盘指标:消费时长、日活、月活。

用户侧实验

缺点:

  • 限定:保量 100 次曝光。
  • 假设:新笔记曝光越多,用户使用APP时长越低。
  • 新策略:把新笔记排序时的权重增大两倍。
  • 结果(只看消费指标):
    • AB测试的diff是负数(策略组不如对照组)。
    • 如果推全,diff会缩小(比如 −2%à−1%)。

在这里插入图片描述

作者侧实验

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

这篇关于(8)工业界推荐系统-小红书推荐场景及内部实践【冷启动问题2】的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/841175

相关文章

tomcat多实例部署的项目实践

《tomcat多实例部署的项目实践》Tomcat多实例是指在一台设备上运行多个Tomcat服务,这些Tomcat相互独立,本文主要介绍了tomcat多实例部署的项目实践,具有一定的参考价值,感兴趣的可... 目录1.创建项目目录,测试文China编程件2js.创建实例的安装目录3.准备实例的配置文件4.编辑实例的

SpringBoot启动报错的11个高频问题排查与解决终极指南

《SpringBoot启动报错的11个高频问题排查与解决终极指南》这篇文章主要为大家详细介绍了SpringBoot启动报错的11个高频问题的排查与解决,文中的示例代码讲解详细,感兴趣的小伙伴可以了解一... 目录1. 依赖冲突:NoSuchMethodError 的终极解法2. Bean注入失败:No qu

Python 中的异步与同步深度解析(实践记录)

《Python中的异步与同步深度解析(实践记录)》在Python编程世界里,异步和同步的概念是理解程序执行流程和性能优化的关键,这篇文章将带你深入了解它们的差异,以及阻塞和非阻塞的特性,同时通过实际... 目录python中的异步与同步:深度解析与实践异步与同步的定义异步同步阻塞与非阻塞的概念阻塞非阻塞同步

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

MySQL新增字段后Java实体未更新的潜在问题与解决方案

《MySQL新增字段后Java实体未更新的潜在问题与解决方案》在Java+MySQL的开发中,我们通常使用ORM框架来映射数据库表与Java对象,但有时候,数据库表结构变更(如新增字段)后,开发人员可... 目录引言1. 问题背景:数据库与 Java 实体不同步1.1 常见场景1.2 示例代码2. 不同操作

springboot集成Deepseek4j的项目实践

《springboot集成Deepseek4j的项目实践》本文主要介绍了springboot集成Deepseek4j的项目实践,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价... 目录Deepseek4j快速开始Maven 依js赖基础配置基础使用示例1. 流式返回示例2. 进阶

如何解决mysql出现Incorrect string value for column ‘表项‘ at row 1错误问题

《如何解决mysql出现Incorrectstringvalueforcolumn‘表项‘atrow1错误问题》:本文主要介绍如何解决mysql出现Incorrectstringv... 目录mysql出现Incorrect string value for column ‘表项‘ at row 1错误报错

如何解决Spring MVC中响应乱码问题

《如何解决SpringMVC中响应乱码问题》:本文主要介绍如何解决SpringMVC中响应乱码问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Spring MVC最新响应中乱码解决方式以前的解决办法这是比较通用的一种方法总结Spring MVC最新响应中乱码解

Linux系统之主机网络配置方式

《Linux系统之主机网络配置方式》:本文主要介绍Linux系统之主机网络配置方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、查看主机的网络参数1、查看主机名2、查看IP地址3、查看网关4、查看DNS二、配置网卡1、修改网卡配置文件2、nmcli工具【通用

Linux系统之dns域名解析全过程

《Linux系统之dns域名解析全过程》:本文主要介绍Linux系统之dns域名解析全过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、dns域名解析介绍1、DNS核心概念1.1 区域 zone1.2 记录 record二、DNS服务的配置1、正向解析的配置