(第7篇)八斗学习课堂笔记-【01、02】推荐系统

2023-10-10 03:59

本文主要是介绍(第7篇)八斗学习课堂笔记-【01、02】推荐系统,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

第一步:召回阶段:用token检索item,(比如8个item)

第二步:过滤阶段:把劣质的item过滤掉,(剩余5个item)

第三步:排序,把好的item排前面

第四步:截断,取TopN

 

其中,第一步和第二步属于粗排阶段,侧重于召回;第三、第四步属于精排阶段,侧重于准确。

建库:

 

 

==================================================================

 

【02】MR实践复习

1、架构

2、mapreduce(复习)

2.1 MR基本概念

(1)通常一个集群中,有这几个角色:master、slave、client

(2)数据副本 —— 数据高可用、容灾

(3)mapreduce —— 分而治之思想

(4)一个split和一个map是一对一的关系

(5)开发java相当于开发函数,开发python等脚本,相当于规定好标准输入和输出

(6)hadoop 1.0 -> hadoop 2.0

  • hadoop1.0:

主:jobtracker、namenode

从:tasktracker、datanode

TaskTracker通过slot数目(可配置参数)限定Task的并发度

进程:worker

  • hadoop 2.0:

主:ResourceMgr(RM资源调度)、ApplicationManager(AM任务调度)

从:NodeManager(NM)

进程:容器(Container)

* 先排序再溢写

单机调试:

cat input | mapper | sort | reducer > output

节点上,分发目标path:

 /usr/local/src/hadoop-2.6.5/tmp/nm-local-dir/usercache/root/appcache/application_1543137200099_0011/container_1543137200099_0011_01_000001

杀死任务:

yarn application -kill application_1543137200099_0011

 

2.2 实践代码

(1)wordcount

(2)全排序

(a) 单reducer:依赖框架自身的sort功能

方式①:通过加一个很大的base_count,保证key对齐,依赖字典序完成全局排序

第一个代码:mr_allsort_1reduce_python(base count)

	  -jobconf "mapred.reduce.tasks=1"

方式②:通过配置完成全排序,不需要设置base_count

第二个代码:mr_allsort_1reduce_python_2 (通过配置完成)依赖于框架自身的sort功能

	  # 指定按 key 做 partition
       -partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner 
      # 利用该配置可以完成二次排序
       -jobconf  org.apache.hadoop.mapred.lib.KeyFieldBasedComparator \
      # 利用该配置可以完成key排序  
      # 1 代表第一列
       -jobconf stream.num.map.output.key.fields=1 \
      # 设置map分隔符的位置,该位置前的为key,之后的为value
      # "-k1,1" 表示从第1个字段开始,到第一个字段结束,即第一个字段
      -jobconf mapred.text.key.partitioner.options="-k1,1" \
       # 设置key中需要比较的字段或字节范围
       # 选择哪一部分做partition,n是指数字
      -jobconf mapred.text.key.comparator.options="-k1,1n" \
      -jobconf mapred.reduce.tasks=1

(b) 多reducer

mr_allsort_python(多桶)

适合大数据

	-jobconf mapred.reduce.tasks=2 \
     # 二次排序的时候需要指定哪个是key,2代表前面两个字段区域作为key
	-jobconf stream.num.map.output.key.fields=2 \
     # 指定第一个字段是key,指定partition阶段的key值,用于分发	  
    -jobconf num.key.fields.for.partition=1 \ 
    -partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner
 
//    mapred.text.key.partitioner.options,
//    这个参数可以认为是 num.key.fields.for.partition的升级版
//    它可以指定不仅限于key中的前几个字段用做partition,
//    而是可以单独指定 key中某个字段或者某几个字段一起做partition。

(3)白名单——分发

    -file:把本地的文件分发到各个节点
    -cachefile:把hdfs的压缩文件分发到各个节点
    -archivefile:把hdfs的压缩目录分发到各个节点
 
#  操作
 tar cvzf w.tar.gz white_list_1  white_list_2

(4)压缩

# 指定map的输出是否压缩,有助于减小数据量,减小io压力
# 通过该方法可以控制map个数,形成压缩文件之后不会再进行split
mapred.compress.map.output
# 指定map的输出压缩算法
mapred.map.output.compression.codec

(5)join

例如:相同的key,value拼成一起

-jobconf stream.num.map.output.key.fields=2 \
-jobconf num.key.fields.for.partition=1

 

3、一个简易demo,检索系统

名单信息:

# python main.py 9999

通过网页打开9999端口,并输入userid

一起学习一起讨论的可以加我V一起分享:我的名字叫甘世玉, v:姓名全拼1026

我这边有一些大数据的课程可以分享给你

 

这篇关于(第7篇)八斗学习课堂笔记-【01、02】推荐系统的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/177804

相关文章

高效管理你的Linux系统: Debian操作系统常用命令指南

《高效管理你的Linux系统:Debian操作系统常用命令指南》在Debian操作系统中,了解和掌握常用命令对于提高工作效率和系统管理至关重要,本文将详细介绍Debian的常用命令,帮助读者更好地使... Debian是一个流行的linux发行版,它以其稳定性、强大的软件包管理和丰富的社区资源而闻名。在使用

Ubuntu系统怎么安装Warp? 新一代AI 终端神器安装使用方法

《Ubuntu系统怎么安装Warp?新一代AI终端神器安装使用方法》Warp是一款使用Rust开发的现代化AI终端工具,该怎么再Ubuntu系统中安装使用呢?下面我们就来看看详细教程... Warp Terminal 是一款使用 Rust 开发的现代化「AI 终端」工具。最初它只支持 MACOS,但在 20

windows系统下shutdown重启关机命令超详细教程

《windows系统下shutdown重启关机命令超详细教程》shutdown命令是一个强大的工具,允许你通过命令行快速完成关机、重启或注销操作,本文将为你详细解析shutdown命令的使用方法,并提... 目录一、shutdown 命令简介二、shutdown 命令的基本用法三、远程关机与重启四、实际应用

Debian如何查看系统版本? 7种轻松查看Debian版本信息的实用方法

《Debian如何查看系统版本?7种轻松查看Debian版本信息的实用方法》Debian是一个广泛使用的Linux发行版,用户有时需要查看其版本信息以进行系统管理、故障排除或兼容性检查,在Debia... 作为最受欢迎的 linux 发行版之一,Debian 的版本信息在日常使用和系统维护中起着至关重要的作

什么是cron? Linux系统下Cron定时任务使用指南

《什么是cron?Linux系统下Cron定时任务使用指南》在日常的Linux系统管理和维护中,定时执行任务是非常常见的需求,你可能需要每天执行备份任务、清理系统日志或运行特定的脚本,而不想每天... 在管理 linux 服务器的过程中,总有一些任务需要我们定期或重复执行。就比如备份任务,通常会选在服务器资

TP-LINK/水星和hasivo交换机怎么选? 三款网管交换机系统功能对比

《TP-LINK/水星和hasivo交换机怎么选?三款网管交换机系统功能对比》今天选了三款都是”8+1″的2.5G网管交换机,分别是TP-LINK水星和hasivo交换机,该怎么选呢?这些交换机功... TP-LINK、水星和hasivo这三台交换机都是”8+1″的2.5G网管交换机,我手里的China编程has

Spring Boot 中整合 MyBatis-Plus详细步骤(最新推荐)

《SpringBoot中整合MyBatis-Plus详细步骤(最新推荐)》本文详细介绍了如何在SpringBoot项目中整合MyBatis-Plus,包括整合步骤、基本CRUD操作、分页查询、批... 目录一、整合步骤1. 创建 Spring Boot 项目2. 配置项目依赖3. 配置数据源4. 创建实体类

Java子线程无法获取Attributes的解决方法(最新推荐)

《Java子线程无法获取Attributes的解决方法(最新推荐)》在Java多线程编程中,子线程无法直接获取主线程设置的Attributes是一个常见问题,本文探讨了这一问题的原因,并提供了两种解决... 目录一、问题原因二、解决方案1. 直接传递数据2. 使用ThreadLocal(适用于线程独立数据)

基于Qt实现系统主题感知功能

《基于Qt实现系统主题感知功能》在现代桌面应用程序开发中,系统主题感知是一项重要的功能,它使得应用程序能够根据用户的系统主题设置(如深色模式或浅色模式)自动调整其外观,Qt作为一个跨平台的C++图形用... 目录【正文开始】一、使用效果二、系统主题感知助手类(SystemThemeHelper)三、实现细节

CentOS系统使用yum命令报错问题及解决

《CentOS系统使用yum命令报错问题及解决》文章主要讲述了在CentOS系统中使用yum命令时遇到的错误,并提供了个人解决方法,希望对大家有所帮助,并鼓励大家支持脚本之家... 目录Centos系统使用yum命令报错找到文件替换源文件为总结CentOS系统使用yum命令报错http://www.cppc