推荐系统学习笔记(四)--基于向量的召回

2024-05-28 20:20

本文主要是介绍推荐系统学习笔记(四)--基于向量的召回,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

离散特征处理

离散特征:性别,国籍,英文单词,物品id,用户id

处理:

建立字典:eg:china = 1

向量化:eg:one-hot /embedding(低维稠密向量)

one-hot--适合低维度

例如:

性别:男,女

字典:男 = 1,女 = 2

one-hot:

        未知[0 , 0]

        男 [1 , 0]

        女 [0 , 1]

one-hot局限:

例1: nlp中,对单词编码,维度上万

例2:推荐系统中,对物品id编码,上亿笔记

类别数量很大时,不用one-hot

embedding(嵌入)

例子:国籍embeddding

参数数量:向量维度 * 类别数量

embedding : 4 * 200 = 800

embedding层:参数以矩阵形式保存,大小为:向量维度 * 类别数量

输入:序号,eg:美国序号为2

输出:向量,eg:美国对应参数矩阵第二列

神经网络关键在于embedding层,对它的优化是一个关键点

one-hot和embedding关系

embedding = one-hot * 参数矩阵

矩阵补充(目前不常用)

训练:

用户embedding层,矩阵A,每个用户对应一列

物品embedding层,矩阵B,每个物品对应一列

内积就是第u个用户对第i个商品兴趣的预估值

训练的目的:学习矩阵A和B

数据集:(用户id a,物品id b,真实兴趣分数 y)------>三元组

优化问题:min\sum (y-<a,b>)^2

行:用户,列:物品,灰色位置表示未曝光,绿色位置代表分数

为什么叫矩阵补充?

大多数都是灰色的,我们并不知道这些用户对这些物品的兴趣,用绿色的部分训练,得到矩阵AB,将灰色部分补全,补全之后就可以给用户做推荐了

工业界不用

缺点:

1.没有利用物品和用户的属性,仅仅使用了id做embedding

2.负样本选取方式不对:

        正样本:曝光后点击

        负样本:曝光后未点击(这是一个“想当然”的设计,其实不对,工业界不采用,后面会详细讲如何构造负样本)

3.训练的方法不好,内积不如余弦相似度,平方损失(回归)不如交叉熵损失(分类)判断正负样本

线上服务

模型存储

训练得到的矩阵AB可能会很大,A--用户,B---物品

矩阵A:

        存到key-value表,key是用户id,value是A的一列。

矩阵B:

        比较复杂

线上服务

1.利用用户id,查找kv表,得到向量a

2.最近邻查找:查找最有可能的k个物品

        物品的embedding向量bi,计算内积<a,bi>,返回最大的k个物品

缺点:时间复杂度正比于物品数量,暴力枚举导致无法实时运转。

如何加速

近似最近邻查找

定义标准:余弦相似度最大(常用) or 内积最大 or 欧氏距离小。

如果系统不支持计算余弦相似度:

将向量归一化(二范数等于1),此时计算出的内积就等于余弦相似度。

方法:

1.数据预处理:分成多个区域,每个区域用一个长度为1的单位向量表示,建立索引,向量作为key,点列表作为value,给定一个向量,就可以返回区域内所有点。

如何划分:余弦相似度---扇形,欧氏距离---多边形

2.线上快速找回:用户向量a,与所有单位索引向量对比,计算相似度,找到最相似的,通过索引,找到所有点,再计算所有点的相似度

这篇关于推荐系统学习笔记(四)--基于向量的召回的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1011589

相关文章

Linux系统之主机网络配置方式

《Linux系统之主机网络配置方式》:本文主要介绍Linux系统之主机网络配置方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、查看主机的网络参数1、查看主机名2、查看IP地址3、查看网关4、查看DNS二、配置网卡1、修改网卡配置文件2、nmcli工具【通用

Linux系统之dns域名解析全过程

《Linux系统之dns域名解析全过程》:本文主要介绍Linux系统之dns域名解析全过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、dns域名解析介绍1、DNS核心概念1.1 区域 zone1.2 记录 record二、DNS服务的配置1、正向解析的配置

查看Oracle数据库中UNDO表空间的使用情况(最新推荐)

《查看Oracle数据库中UNDO表空间的使用情况(最新推荐)》Oracle数据库中查看UNDO表空间使用情况的4种方法:DBA_TABLESPACES和DBA_DATA_FILES提供基本信息,V$... 目录1. 通过 DBjavascriptA_TABLESPACES 和 DBA_DATA_FILES

Linux系统中配置静态IP地址的详细步骤

《Linux系统中配置静态IP地址的详细步骤》本文详细介绍了在Linux系统中配置静态IP地址的五个步骤,包括打开终端、编辑网络配置文件、配置IP地址、保存并重启网络服务,这对于系统管理员和新手都极具... 目录步骤一:打开终端步骤二:编辑网络配置文件步骤三:配置静态IP地址步骤四:保存并关闭文件步骤五:重

最新Spring Security实战教程之表单登录定制到处理逻辑的深度改造(最新推荐)

《最新SpringSecurity实战教程之表单登录定制到处理逻辑的深度改造(最新推荐)》本章节介绍了如何通过SpringSecurity实现从配置自定义登录页面、表单登录处理逻辑的配置,并简单模拟... 目录前言改造准备开始登录页改造自定义用户名密码登陆成功失败跳转问题自定义登出前后端分离适配方案结语前言

OpenManus本地部署实战亲测有效完全免费(最新推荐)

《OpenManus本地部署实战亲测有效完全免费(最新推荐)》文章介绍了如何在本地部署OpenManus大语言模型,包括环境搭建、LLM编程接口配置和测试步骤,本文给大家讲解的非常详细,感兴趣的朋友一... 目录1.概况2.环境搭建2.1安装miniconda或者anaconda2.2 LLM编程接口配置2

Java进阶学习之如何开启远程调式

《Java进阶学习之如何开启远程调式》Java开发中的远程调试是一项至关重要的技能,特别是在处理生产环境的问题或者协作开发时,:本文主要介绍Java进阶学习之如何开启远程调式的相关资料,需要的朋友... 目录概述Java远程调试的开启与底层原理开启Java远程调试底层原理JVM参数总结&nbsMbKKXJx

Windows系统下如何查找JDK的安装路径

《Windows系统下如何查找JDK的安装路径》:本文主要介绍Windows系统下如何查找JDK的安装路径,文中介绍了三种方法,分别是通过命令行检查、使用verbose选项查找jre目录、以及查看... 目录一、确认是否安装了JDK二、查找路径三、另外一种方式如果很久之前安装了JDK,或者在别人的电脑上,想

Linux系统之authconfig命令的使用解读

《Linux系统之authconfig命令的使用解读》authconfig是一个用于配置Linux系统身份验证和账户管理设置的命令行工具,主要用于RedHat系列的Linux发行版,它提供了一系列选项... 目录linux authconfig命令的使用基本语法常用选项示例总结Linux authconfi

Redis 内存淘汰策略深度解析(最新推荐)

《Redis内存淘汰策略深度解析(最新推荐)》本文详细探讨了Redis的内存淘汰策略、实现原理、适用场景及最佳实践,介绍了八种内存淘汰策略,包括noeviction、LRU、LFU、TTL、Rand... 目录一、 内存淘汰策略概述二、内存淘汰策略详解2.1 ​noeviction(不淘汰)​2.2 ​LR