上亿用户画像、数十亿短视频特征、千亿排序模型参数,快手推荐系统率先基于持久内存应用异构存储

本文主要是介绍上亿用户画像、数十亿短视频特征、千亿排序模型参数,快手推荐系统率先基于持久内存应用异构存储,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

作为2亿日活、日均千万级短视频上传、强调社区普惠的短视频APP,快手推荐系统所需解决的技术挑战是世界级的。近日,快手在国内率先应用持久内存重新设计了基于异构存储结构的推荐系统。在快手推荐系统高吞吐量大数据量请求的场景下,使用持久内存可以降低存储成本,减少故障恢复时间,提高系统可靠性。故障恢复时间从小时级别降低到分钟级,也为改善大规模深度机器学习系统在改进千亿级别数据量的处理能力上开辟了新的探索方向。

业界超大规模实时在线短视频推荐系统

如何在承载高峰期每秒数十万并发调用量的同时,从上百亿级别的短视频库中,通过千亿参数级别的深度模型将内容展现给用户?快手推荐团队设计了基于异构设备的先进推荐系统。

目前快手推荐系统采用的是计算与存储分离的架构模式(如下图所示)。推荐系统中的存储型服务主要是用来存储和实时更新上亿规模的用户画像、数十亿规模的短视频特征、以及千亿规模的排序模型参数。计算型服务主要进行的是视频召回检索、推荐模型预估和推荐策略计算。

【快手推荐系统采用计算和存储分离的架构】

 

2018年到2019年上半年,快手推荐架构团队的主要工作集中在利用异构混合计算的方式,提升推荐系统中模型预估和召回检索等计算密集型业务的性能。通过利用异构计算的改造,产生了数倍的性能提升,鼓舞了快手推荐架构团队向异构系统设计中更难的存储问题进发。

一直以来,快手推荐团队致力于推荐系统架构调整,力求在日益增长的用户量冲击下,使推荐系统高可用的前提下,实时、高效、精准地向用户推荐优质内容。

新机遇:软硬结合极致优化,探索异构存储

持久内存是介于DRAM和SSD间的新存储层级,不仅能提供接近DRAM的延迟,同时还提供持久化和更大容量的存储空间,这为推荐系统中不同场景的可行性分析和架构设计提供了思路。

相比于传统的内存加硬盘的两级存储,新存储设备的推出,现代服务器可以利用的存储层级越来越多,利用多层级存储的软件系统设计也变得越来越复杂。每种存储设备有不同的性能特性和容量大小限制,越快的设备的单位容量成本越高。例如使用内存插槽的英特尔® 傲腾™ 数据中心级持久内存,依据读写粒度的不同,读带宽大约为内存的1/3 ~ 1/9,写带宽大约为内存的1/10 ~ 1/30,但写入数据具有持久性,且容量远大于传统内存。如何结合不同层级的存储设计在大规模推荐场景下性价比最优的存储系统成为一个巨大机遇和挑战。

【新一代服务器的存储层级结构】

 

基于多层级异构存储设备,快手推荐团队针对推荐系统中的不同场景进行了可行性分析和架构设计的调研。针对持久内存的特性,对分布式索引和参数服务器中的KV存储进行了重新设计。

【基于持久性内存的KV系统设计示意图】

 

该设计主要通过为KV存储增加MemPool组件,针对不同访问类型来决定系统是访问DRAM缓存,还是直接读取持久内存。比如说,在推荐模型预估的参数服务器这个场景中,由于模型中神经网络大小与Embedding Table相比很小,所以神经网络也会被MemPool直接分配进入DRAM来提高预估的性能。

除此之外,推荐团队还对KV系统进行了调优:

  • 对于数据读取场景采用NUMA节点绑定的方式使得持久内存访问不跨NUMA节点,从而获得更好的读写性能;
  • 采用ZeroCopy技术对内存和持久内存进行访问;
  • 使用无锁技术,减少临界区中对持久内存的访问来提高性能。

经过上述的技术改进,我们将基于持久内存的索引系统用真实的线上请求数据进行模拟压测。测试结果如下:

【基于持久性内存索引系统的压力测试结果】

 

基于异构存储的索引系统几乎达到纯DRAM的索引系统相同的性能指标,但成本降低30%。同时异构存储的索引系统能够提供分钟级别的故障恢复速度,比之前小时级别的恢复提升了百倍恢复速度。

快手推荐打造业界顶级、战斗力强悍的技术团队

通过工程、算法结合,数据驱动的手段,让快手推荐系统更高效、更精准、更稳定地为快手数亿用户服务,记录每一个人的生活点滴,并让每一个人的记录都能引起共鸣。推荐架构团队的成员都来自国内知名大学、甚至国际知名大学,如CMU、清华、北大、中科大等著名院校的毕业生。团队每个成员都追求技术极致,具备一流的分布式高并发服务的开发能力,比如在线分布式索引支持每天千亿级别的视频请求、机器学习平台支持千亿级别的推荐模型在线学习和在线预估、在线服务为数亿用户提供99.99%的可用性。

这篇关于上亿用户画像、数十亿短视频特征、千亿排序模型参数,快手推荐系统率先基于持久内存应用异构存储的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/285248

相关文章

流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台,是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力,在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系统EasyCVR平台内置了强大的视频解码、转码、压缩等技术,能够处理多种视频流格式,并以多种格式(RTMP、RTSP、HTTP-FLV、WebS

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

不懂推荐算法也能设计推荐系统

本文以商业化应用推荐为例,告诉我们不懂推荐算法的产品,也能从产品侧出发, 设计出一款不错的推荐系统。 相信很多新手产品,看到算法二字,多是懵圈的。 什么排序算法、最短路径等都是相对传统的算法(注:传统是指科班出身的产品都会接触过)。但对于推荐算法,多数产品对着网上搜到的资源,都会无从下手。特别当某些推荐算法 和 “AI”扯上关系后,更是加大了理解的难度。 但,不了解推荐算法,就无法做推荐系

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

HDFS—存储优化(纠删码)

纠删码原理 HDFS 默认情况下,一个文件有3个副本,这样提高了数据的可靠性,但也带来了2倍的冗余开销。 Hadoop3.x 引入了纠删码,采用计算的方式,可以节省约50%左右的存储空间。 此种方式节约了空间,但是会增加 cpu 的计算。 纠删码策略是给具体一个路径设置。所有往此路径下存储的文件,都会执行此策略。 默认只开启对 RS-6-3-1024k

NameNode内存生产配置

Hadoop2.x 系列,配置 NameNode 内存 NameNode 内存默认 2000m ,如果服务器内存 4G , NameNode 内存可以配置 3g 。在 hadoop-env.sh 文件中配置如下。 HADOOP_NAMENODE_OPTS=-Xmx3072m Hadoop3.x 系列,配置 Nam

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于