【咕咕送书 | 第八期】羡慕同学进了大厂核心部门,看懂这本书你也能行!

本文主要是介绍【咕咕送书 | 第八期】羡慕同学进了大厂核心部门,看懂这本书你也能行!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!


在这里插入图片描述

🎬 鸽芷咕:个人主页

 🔥 个人专栏:《linux深造日志》《粉丝福利》

⛺️生活的理想,就是为了理想的生活!

⛳️ 写在前面参与规则

  • 参与方式:关注博主、点赞收藏评论,任意评论(每人最多评论三次)

  • ⛳️本次送书1~3取决于阅读量,阅读量越多,送的越多

  • 📆 活动时间至:2023-1-23 10:00:00 | 随机抽取由博主动态公布抽奖结果

如有特别需要的同学可添加博主微信进入粉丝福利群发放福利哦!

🔥 注:活动结束后,会私信中奖粉丝的,各位注意查看私信哦!

⛳️ 文章末尾扫码加入粉丝群,不定期发放粉丝福利,各种专业书籍免费赠送

文章目录

  • ⛳️ 写在前面参与规则
  • 引言
  • 一、做推荐算法在大厂有多吃香?
  • 二、推荐系统是怎么工作的
  • 三、推荐算法这样学就对了
  • 四、图书介绍
    • 图书目录
  • 五、粉丝购买优惠
  • 六、粉丝福利

引言

最近听说一位做推荐算法的同学通过面试,顺利入职某大厂核心盈利部门,真是太羡慕他了。为什么会推荐算法就能在大厂这么吃香? 因为大厂要依靠推荐系统来变现。例如,电商企业要向用户推荐最需要的商品;视频流媒体平台要向用户推送最喜欢的内容;社交新闻媒体平台要让用户看到最感兴趣的信息……因此,推荐系统和企业的收入直接相关,推荐算法做得好,企业就可以更好地理解用户需求,从而精准地推荐商品,增加销售额,提高用户忠诚度。那对于技术人来说,做好推荐系统都有哪些挑战?

一、做推荐算法在大厂有多吃香?

推荐算法是一项综合性很强的技术,它需要运用多种技术手段去解决实际问题,包括机器学习、数据挖掘、自然语言处理等。技术人可能会困惑,这么多知识要学习,要学到什么程度?怎样才能学好推荐算法?有一位在大厂做推荐算法的资深技术人专门写了一本书来解答上面的疑问,这本书就是 《互联网大厂推荐算法实战》 。从书名就可以看出来,这本书讲的都是大厂的实战经验,想学推荐算法,看这本书就对了。![图片

二、推荐系统是怎么工作的

推荐系统的主要原理是通过对用户的历史行为数据(如点击、购买、评分、评论等)进行分析和挖掘,提取用户的兴趣和喜好,并将其映射到物品空间中,从而预测用户对未来物品的偏好程度,最终生成个性化推荐结果。在推荐系统中有两个最基本的角色:一个是用户(User),推荐系统要服务的对象,同时也是推荐系统的重要贡献者;另一个是物料(Item),统称为被推荐的信息和内容,例如具体商品、视频、音乐、新闻等。推荐系统会执行四个步骤,从数百万量级的物料中挑选出最优的几十个物料,最终呈现在用户面前。下面按顺序介绍这四个步骤。

· 召回: 主要依赖“离线计算+在线缓存”模式,从百万规模候选集中快速筛选。这一步可以牺牲一部分精度,换取时间。

· 粗排: 召回会以数量来弥补质量的不足,在送往下一步之前,粗排要进行一次筛选,保留最具潜力的 10% 物料。

· 精排: 精排模型会让用户信息与物料信息充分交叉,从而精选出最符合用户品味的几十个物料。

· 重排: 调整精排结果的顺序,将相似内容打散,使得用户可以看到丰富多样的推荐结果。

推荐系统的四个步骤为我们揭秘大厂推荐算法的那位资深技术人,是毕业于清华大学电气工程专业的赵传霖博士,他目前在快手担任算法专家,拥有 10 多年互联网算法从业经验,主要研究方向为推荐系统、计算广告、个性化搜索。赵博士还是知乎“机器学习”话题优秀答主,曾经 4 次获得知乎创作排行榜“知势榜·影响力榜”(科技互联网领域)第一名。有感于市面上讲推荐算法的图书要么内容老旧,要么只讲算法理论,脱离实际太远,于是赵博士决定创作 《互联网大厂推荐算法实战》 ,分享一线实战经验,帮助大家理解推荐算法并灵活组合应用,从“术”上升到“道”的层面。现在我们就跟着赵博士深入到大厂一线来学习推荐算法吧。

在这里插入图片描述

三、推荐算法这样学就对了

推荐算法应该怎么学?是不管三七二十一狠钻现在最流行的算法,然后就指望一年知识用十年?这显然是不现实的,因为新算法和新模型在未来会层出不穷,不可能每个算法都要靠大力出奇迹的方式去学习。所以赵传霖博士在书中明确反对孤立、机械地学习算法,而是提倡 “透过现象看本质” ,要充分理解算法的思想。要想在实际工作中灵活运用,就要悟透算法之道。本书将重心放在了帮助读者梳理算法的发展脉 ,指导读者由“术”入“道”,达到“举一反三”的目的。全书内容可分为三个部分,我们来了解一下各部分的内容。首先是基础知识部分。介绍了推荐系统的基础知识、推荐系统中的特征工程、推荐系统中的 Embedding 技术。图片然后介绍推荐系统的各组成模块所使用的算法技术,包括召回、粗排、精排、重排四个模块。还对推荐算法实践中经常遇到的难题给出了应对之道。这部分内容极具价值,因为书中对多任务推荐、多场景推荐、新用户冷启动**、新物料冷启动、评估模型效果等实际应用场景进行细致的分析,定位并解决问题,是作者对大厂经验的直接分享。最后一部分是写给推荐算法工程师的,涵盖工作中的注意事项、学习方法,以及一些面试求职方面的宝贵建议。毕竟赵博士面试过许多求职者,可谓“阅人无数”,有他为读者把关,进大厂的希望那是相当大的。通过以上三个部分的学习,读者可以对推荐算法知识融汇贯通,对各种实践场景了然于胸,工作时能做到举重若轻,各种难题纷纷迎刃而解。

在这里插入图片描述

四、图书介绍

赵博士的理念是 “授人以鱼,不如授人以渔” ,他希望通过自己的分享,能让读者透彻理解推荐算法,并且在工作中灵活运用解决实际问题,少走弯路。本书最大的特点是 “实战”,书中讲述的都是互联网大厂主流的推荐算法。对于“经典但过时”的协调过滤、矩阵分解算法则干脆不讲,因为大厂都不玩这些了,而且也不是面试时考察的重点,所以没有去浪费笔墨。图片
本书兼顾理论与实践,除了讲解最基本的算法原理,还聚集于算法工程师的工作实际,关注他们日常遇到的实际难题。例如下面所列问题。

· 新用户与新物料怎么冷启动?

· 如何打开模型的黑盒,以排查问题或找到下一步升级改进的方向?

· 线下 AUC 涨了,但是线上 AB 实验的指标却不涨!这到底是什么原因造成的?

学习技术不仅要“talk”,也要有“code”。 赵博士认为算法工程师也属于广义上的程序员,源代码是最清晰直接的说明文档。所以书中针对核心算法都给出了相应的源码。

书中对于核心代码还给出了说明注释,帮助读者彻底理解算法的重要细节。至此,大厂是怎么玩推荐系统的,可说是一目了然,读者诸君切莫辜负了赵博士,定要多加学习思考,勤于练习。

还在羡慕做推荐算法的同学拿到大厂的 offer 吗?与其临渊羡鱼,不如退而结网,有 《互联网大厂推荐算法实战》 的加持,也许你很快也能进大厂和同学做同事。![图片

图书目录

1章 推荐系统简介 1
1.1 推荐系统的意义 2
1.2 推荐系统是如何运行的 3
1.3 推荐系统架构 5
1.3.1 功能架构 5
1.3.2 数据架构 8
1.4 推广搜的区别与联系 10
1.4.1 三驾马车的相同点 10
1.4.2 推荐与搜索 11
1.4.3 推搜与广告 12
1.5 小结 122章 推荐系统中的特征工程 14
2.1 批判“特征工程过时”的错误论调 15
2.2 特征提取 16
2.2.1 物料画像 16
2.2.2 用户画像 18
2.2.3 交叉特征 21
2.2.4 偏差特征 22
2.3 数值特征的处理 25
2.3.1 处理缺失值 25
2.3.2 标准化 25
2.3.3 数据平滑与消偏 26
2.3.4 分桶离散化 27
2.4 类别特征的处理 28
2.4.1 类别特征更受欢迎 28
2.4.2 类别特征享受VIP服务 29
2.4.3 映射 30
2.4.4 特征哈希 31
2.5 小结 32
第3章 推荐系统中的Embedding 33
3.1 无中生有:推荐算法中的Embedding 33
3.1.1 传统推荐算法:博闻强识 33
3.1.2 推荐算法的刚需:扩展性 35
3.1.3 深度学习的核心思想:无中生有的Embedding 36
3.1.4 Embedding的实现细节 37
3.2 共享Embedding还是独占Embedding 42
3.2.1 共享Embedding 42
3.2.2 独占Embedding 43
3.3 Parameter Server:推荐算法的训练加速器 46
3.3.1 传统分布式计算的不足 46
3.3.2 基于PS的分布式训练范式 47
3.3.3 PS中的并行策略 49
3.3.4 基于ps-lite实现分布式算法 51
3.3.5 更先进的PS 57
3.4 小结 60
第4章 精排 61
4.1 推荐算法的5个维度 61
4.2 交叉结构 62
4.2.1 FTRL:传统时代的记忆大师 62
4.2.2 FM:半只脚迈入DNN的门槛 69
4.2.3 Wide & Deep:兼顾记忆与扩展 71
4.2.4 DeepFM:融合二阶交叉 74
4.2.5 DCN:不再执着于DNN 76
4.2.6 AutoInt:变形金刚做交叉 79
4.3 用户行为序列建模 86
4.3.1 行为序列信息的构成 86
4.3.2 简单Pooling 86
4.3.3 用户建模要“千物千面” 87
4.3.4 建模序列内的依赖关系 89
4.3.5 多多益善:建模长序列 91
4.4 小结 96
第5章 召回 97
5.1 传统召回算法 97
5.1.1 基于物料属性的倒排索引 98
5.1.2 基于统计的协同过滤算法 99
5.1.3 矩阵分解算法 99
5.1.4 如何合并多路召回 100
5.2 向量化召回统一建模框架 101
5.2.1 如何定义正样本 102
5.2.2 重点关注负样本 103
5.2.3 解耦生成Embedding 105
5.2.4 如何定义优化目标 106
5.3 借助Word2Vec 111
5.3.1 *简单的Item2Vec 112
5.3.2 Airbnb召回算法 116
5.3.3 阿里巴巴的EGES召回 118
5.4 “瑞士军刀”FM的召回功能 120
5.4.1 打压热门物料 121
5.4.2 增广Embedding 122
5.5 大厂主力:双塔模型 124
5.5.1 不同场景下的正样本 124
5.5.2 简化负采样 124
5.5.3 双塔结构特点 126
5.5.4 Sampled Softmax Loss的技巧 127
5.5.5 双塔模型实现举例 129
5.6 邻里互助:GCN召回 131
5.6.1 GCN基础 131
5.6.2 PinSage:大规模图卷积的*案例 134
5.6.3 异构图上的GCN 142
5.7 小结 143
第6章 粗排与重排 145
6.1 粗排 146
6.1.1 模型:双塔仍然是主力 146
6.1.2 目标:拜精排为师 154
6.1.3 数据:纠正曝光偏差 158
6.1.4 模型:轻量级全连接 159
6.2 重排 161
6.2.1 基于启发式规则 162
6.2.2 基于行列式点过程 165
6.2.3 基于上下文感知的排序学习 174
6.3 小结 180
第7章 多任务与多场景 181
7.1 多任务推荐 181
7.1.1 多任务建模的误区 182
7.1.2 并发建模 182
7.1.3 串行建模 193
7.1.4 多个损失的融合 202
7.1.5 多个打分的融合 206
7.2 多场景推荐 209
7.2.1 特征位置 210
7.2.2 模型结构 211
7.2.3 模型参数 215
7.3 小结 217
第8章 冷启动 219
8.1 Bandit算法 219
8.1.1 多臂老虎机问题 220
8.1.2 Epsilon Greedy 221
8.1.3 UCB 222
8.1.4 概率匹配 223
8.1.5 Bayesian Bandit 223
8.1.6 上下文Bandit 225
8.2 元学习 228
8.2.1 什么是元学习 228
8.2.2 什么是MAML 230
8.2.3 MAML针对推荐场景的改造 233
8.2.4 Meta-Embedding 236
8.3 对比学习 242
8.3.1 对比学习简介 242
8.3.2 对比学习在推荐系统中的作用与使用方式 244
8.3.3 辨析对比学习与向量化召回 246
8.3.4 纠偏长尾物料的实践 247
8.3.5 纠偏小众用户的实践 249
8.4 其他算法 251
8.4.1 迁移学习 251
8.4.2 预测物料消费指标 252
8.4.3 以群体代替个体 253
8.4.4 借鉴多场景推荐 254
8.5 小结 255
第9章 评估与调试 256
9.1 离线评估 256
9.1.1 评估排序算法 257
9.1.2 评估召回算法 261
9.1.3 人工评测 266
9.1.4 持续评估 267
9.2 在线评估:A/B实验 267
9.2.1 线上:流量划分 268
9.2.2 线下:统计分析 273
9.3 打开模型的黑盒 276
9.3.1 外部观察 276
9.3.2 内部剖析 277
9.4 线下涨了,线上没效果 280
9.4.1 特征穿越 280
9.4.2 老汤模型 282
9.4.3 冰山:系统的内在缺陷 284
9.4.4 链路一致性问题 285
9.5 小结 28610章 推荐算法工程师的自我修养 287
10.1 工作 287
10.1.1 重视代码的规范性 287
10.1.2 重视离线评测 288
10.1.3 重视使用工具 289
10.2 学习 290
10.2.1 坚持问题导向 290
10.2.2 重在举一反三 291
10.2.3 敢于怀疑 292
10.2.4 落实代码细节 293
10.3 面试 293
10.3.1 社招 294
10.3.2 校招 296
10.4 小结 297

五、粉丝购买优惠

这里博主给大家5折限时福利购买链接:联网大厂推荐算法实战

  • 原价80多的只需要40多哦!
  • 同时博主也会评论区抽奖赠送几本的

六、粉丝福利

  • 参与方式:关注博主、点赞收藏评论,任意评论(每人最多评论三次)

  • ⛳️本次送书1~3取决于阅读量,阅读量越多,送的越多

  • 📆 活动时间至:2023-1-23 10:00:00 | 随机抽取由博主动态公布抽奖结果

如有特别需要的同学可添加博主微信进入粉丝福利群发放福利哦!

🔥 注:活动结束后,会私信中奖粉丝的,各位注意查看私信哦!

⛳️ 文章末尾扫码加入粉丝群,不定期发放粉丝福利,各种专业书籍免费赠送

这篇关于【咕咕送书 | 第八期】羡慕同学进了大厂核心部门,看懂这本书你也能行!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/626910

相关文章

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

PostgreSQL核心功能特性与使用领域及场景分析

PostgreSQL有什么优点? 开源和免费 PostgreSQL是一个开源的数据库管理系统,可以免费使用和修改。这降低了企业的成本,并为开发者提供了一个活跃的社区和丰富的资源。 高度兼容 PostgreSQL支持多种操作系统(如Linux、Windows、macOS等)和编程语言(如C、C++、Java、Python、Ruby等),并提供了多种接口(如JDBC、ODBC、ADO.NET等

深入解析秒杀业务中的核心问题 —— 从并发控制到事务管理

深入解析秒杀业务中的核心问题 —— 从并发控制到事务管理 秒杀系统是应对高并发、高压力下的典型业务场景,涉及到并发控制、库存管理、事务管理等多个关键技术点。本文将深入剖析秒杀商品业务中常见的几个核心问题,包括 AOP 事务管理、同步锁机制、乐观锁、CAS 操作,以及用户限购策略。通过这些技术的结合,确保秒杀系统在高并发场景下的稳定性和一致性。 1. AOP 代理对象与事务管理 在秒杀商品

文章解读与仿真程序复现思路——电力自动化设备EI\CSCD\北大核心《考虑燃料电池和电解槽虚拟惯量支撑的电力系统优化调度方法》

本专栏栏目提供文章与程序复现思路,具体已有的论文与论文源程序可翻阅本博主免费的专栏栏目《论文与完整程序》 论文与完整源程序_电网论文源程序的博客-CSDN博客https://blog.csdn.net/liang674027206/category_12531414.html 电网论文源程序-CSDN博客电网论文源程序擅长文章解读,论文与完整源程序,等方面的知识,电网论文源程序关注python

JAVA初级掌握的J2SE知识(二)和Java核心的API

/** 这篇文章送给所有学习java的同学,请大家检验一下自己,不要自满,你们正在学习java的路上,你们要加油,蜕变是个痛苦的过程,忍受过后,才会蜕变! */ Java的核心API是非常庞大的,这给开发者来说带来了很大的方便,经常人有评论,java让程序员变傻。 但是一些内容我认为是必须掌握的,否则不可以熟练运用java,也不会使用就很难办了。 1、java.lang包下的80%以上的类

JVM、JRE和 JDK:理解Java开发的三大核心组件

Java是一门跨平台的编程语言,它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中,JVM(Java虚拟机)、JRE(Java运行时环境)和JDK(Java开发工具包)是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别,帮助你更好地理解Java的运行机制。 1. JVM:Java虚拟机(Java Virtual Machine) 什么是JVM? JVM,即

大厂算法例题解之网易2018秋招笔试真题 (未完)

1、字符串碎片 【题目描述】一个由小写字母组成的字符串可以看成一些同一字母的最大碎片组成的。例如,“aaabbaaac” 是由下面碎片组成的:‘aaa’,‘bb’,‘c’。牛牛现在给定一个字符串,请你帮助计算这个字符串的所有碎片的 平均长度是多少。 输入描述: 输入包括一个字符串 s,字符串 s 的长度 length(1 ≤ length ≤ 50),s 只含小写字母(‘a’-‘z’) 输出描述

自我提升社团成立啦,欢迎各位同学加入~

欢迎加入 大家好,我是马丁,我们的自我提升社团成立啦,欢迎有新的朋友加入!! 我们的社团主要目标是帮助每个人实现自我成长、自我提升,不论他是什么年龄、什么经验、什么专业,只要有一个好学和想进步的心,都可以加入。 为了提升帮助每个人实现自我成长,目前社团选择的是做一个智能客服系统,我们希望通过搭建一个企业级的智能客服系统来帮助每个人实现自我成长。后续,还会开发更多系统~ 目前群里大多是Jav

大厂面试:小米嵌入式面试题大全及参考答案(130+道 12万长文)

Flink 架构介绍 Flink 是一个分布式流处理和批处理框架,具有高吞吐、低延迟、高可靠等特点。其架构主要由以下几个部分组成: 客户端(Client):负责将作业提交到集群,并与作业管理器进行交互,获取作业的状态信息。客户端可以是命令行工具、IDE 插件或者自定义的应用程序。作业管理器(JobManager):负责接收客户端提交的作业,协调资源分配,调度任务执行,并监控作业的执

Java语言的四大核心特性:让开发更高效、更灵活

目录 1. 面向对象编程(OOP) 2. 跨平台特性:Write Once, Run Anywhere 3. 多线程支持:并发编程的强大工具 4. 编译与解释并存:性能与灵活性的平衡 结语:Java的核心特性赋能开发 Java作为全球最流行的编程语言之一,凭借其强大的语言特性和广泛的应用场景,深受开发者的青睐。本文将探讨Java的四大核心特性:面向对象编程(OOP)、跨平台特性