(8)工业界推荐系统-小红书推荐场景及内部实践【冷启动问题2】

本文主要是介绍(8)工业界推荐系统-小红书推荐场景及内部实践【冷启动问题2】,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

系列文章传送门

(1)工业界推荐系统-小红书推荐场景及内部实践【业务指标、链路、ItemCF】
(2)工业界推荐系统-小红书推荐场景及内部实践【UserCF、离线特征处理】
(3)工业界推荐系统-小红书推荐场景及内部实践【矩阵补充、双塔模型】
(4)工业界推荐系统-小红书推荐场景及内部实践【正负样本选择】
(5)工业界推荐系统-小红书推荐场景及内部实践【线上召回和模型更新】
(6)工业界推荐系统-小红书推荐场景及内部实践【其他召回通道】
(7)工业界推荐系统-小红书推荐场景及内部实践【冷启动问题1】

该系列文章根据小红书搜推算法工程师、团队负责人王树森B站上主讲的《工业界的推荐系统》之小红书业务场景及内部实践整理而得。感谢大佬分享工业界前沿的推荐系统实战技术!

这篇文章讲解工业界推荐系统实践中对于冷启动问题的处理技巧,包括:冷启动评价指标、召回通道、聚类召回、Lookalike人群扩展、流量调控以及冷启动中的AB测试等。

Lookalike 人群扩散

Look-Alike起源于互联网广告

在这里插入图片描述
在这里插入图片描述

Look-Alike用于新笔记召回

Look-Alike人群扩散召回

  • 点击、点赞、收藏、转发——用户对笔记可能感兴趣。
  • 把有交互的用户作为新笔记的种子用户。
  • 用 look-alike 在相似用户中扩散。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

流量调控

冷启动的优化点

  • 优化全链路(包括召回和排序)。
  • 流量调控(流量怎么在新物品、老物品中分配)。

扶持新笔记的目的

  • 目的1:促进发布,增大内容池。
    • 新笔记获得的曝光越多,作者创作积极性越高。
    • 反映在发布渗透率、人均发布量。
  • 目的2:挖掘优质笔记。
    • 做探索,让每篇新笔记都能获得足够曝光。
    • 挖掘的能力反映在高热笔记占比。

工业界的做法

  • 假设推荐系统只分发年龄 <30 天的笔记。
  • 假设采用自然分发,新笔记(年龄 <24 小时)的曝光占比为 1/30。
  • 扶持新笔记,让新笔记的曝光占比远大于 1/30。

流量调控技术的发展

  1. 在推荐结果中强插新笔记。
  2. 对新笔记的排序分数做提权(boost)。
  3. 通过提权,对新笔记做保量。
  4. 差异化保量。

新笔记提权

  • 目标:让新笔记有更多机会曝光。

    • 如果做自然分发,24小时新笔记占比为 1/30。
    • 做人为干涉,让新笔记占比大幅提升。
  • 干涉粗排、重排环节,给新笔记提权。

  • 优点:容易实现,投入产出比好。

  • 缺点:

    • 曝光量对提权系数很敏感。
    • 很难精确控制曝光量,容易过度曝光和不充分曝光。

新笔记保量

在这里插入图片描述
在这里插入图片描述

保量的难点

  • 保量成功率远低于 100%。
    • 很多笔记在24小时达不到100次曝光。
    • 召回、排序存在不足。
    • 提权系数调得不好。
  • 线上环境变化会导致保量失败
    • 线上环境变化:新增召回通道、升级排序模型、 改变重排打散规则…
    • 线上环境变化后,需要调整提权系数。
  • 思考题
    • 给所有新笔记一个很大的提权系数(比如 4 倍), 直到达成 100 次曝光为止。
    • 这样的保量成功率很高。
    • 为什么不用这种方法呢?
  • 给新笔记分数 boost 越多,对新笔记越有利?
    • 好处:分数提升越多,曝光次数越多。
    • 坏处:把笔记推荐给不太合适的受众。
      • 点击率、点赞率等指标会偏低。
      • 长期会受推荐系统打压,难以成长为热门笔记。

差异化保量

  • 保量:不论新笔记质量高低,都做扶持,在前 24 小 时给 100 次曝光。

  • 差异化保量:不同笔记有不同保量目标,普通笔记 保 100 次曝光,内容优质的笔记保 100~500 次曝光。

    • 基础保量:24 小时 100 次曝光。
    • 内容质量:用模型评价内容质量高低,给予额外保量目标,上限是加 200 次曝光。
    • 作者质量:根据作者历史上的笔记质量,给予额外 保量目标,上限是加 200 次曝光。
    • 一篇笔记最少有 100 次保量,最多有 500 次保量。

AB test

  • 作者侧指标:
    • 发布渗透率、人均发布量。
  • 用户侧指标:
    • 对新笔记的点击率、交互率。
    • 大盘指标:消费时长、日活、月活。

用户侧实验

缺点:

  • 限定:保量 100 次曝光。
  • 假设:新笔记曝光越多,用户使用APP时长越低。
  • 新策略:把新笔记排序时的权重增大两倍。
  • 结果(只看消费指标):
    • AB测试的diff是负数(策略组不如对照组)。
    • 如果推全,diff会缩小(比如 −2%à−1%)。

在这里插入图片描述

作者侧实验

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

这篇关于(8)工业界推荐系统-小红书推荐场景及内部实践【冷启动问题2】的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/841175

相关文章

不懂推荐算法也能设计推荐系统

本文以商业化应用推荐为例,告诉我们不懂推荐算法的产品,也能从产品侧出发, 设计出一款不错的推荐系统。 相信很多新手产品,看到算法二字,多是懵圈的。 什么排序算法、最短路径等都是相对传统的算法(注:传统是指科班出身的产品都会接触过)。但对于推荐算法,多数产品对着网上搜到的资源,都会无从下手。特别当某些推荐算法 和 “AI”扯上关系后,更是加大了理解的难度。 但,不了解推荐算法,就无法做推荐系

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

好题——hdu2522(小数问题:求1/n的第一个循环节)

好喜欢这题,第一次做小数问题,一开始真心没思路,然后参考了网上的一些资料。 知识点***********************************无限不循环小数即无理数,不能写作两整数之比*****************************(一开始没想到,小学没学好) 此题1/n肯定是一个有限循环小数,了解这些后就能做此题了。 按照除法的机制,用一个函数表示出来就可以了,代码如下

hdu1043(八数码问题,广搜 + hash(实现状态压缩) )

利用康拓展开将一个排列映射成一个自然数,然后就变成了普通的广搜题。 #include<iostream>#include<algorithm>#include<string>#include<stack>#include<queue>#include<map>#include<stdio.h>#include<stdlib.h>#include<ctype.h>#inclu

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

嵌入式QT开发:构建高效智能的嵌入式系统

摘要: 本文深入探讨了嵌入式 QT 相关的各个方面。从 QT 框架的基础架构和核心概念出发,详细阐述了其在嵌入式环境中的优势与特点。文中分析了嵌入式 QT 的开发环境搭建过程,包括交叉编译工具链的配置等关键步骤。进一步探讨了嵌入式 QT 的界面设计与开发,涵盖了从基本控件的使用到复杂界面布局的构建。同时也深入研究了信号与槽机制在嵌入式系统中的应用,以及嵌入式 QT 与硬件设备的交互,包括输入输出设

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟&nbsp;开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚&nbsp;第一站:海量资源,应有尽有 走进“智听