(第7篇)八斗学习课堂笔记-【01、02】推荐系统

2023-10-10 03:59

本文主要是介绍(第7篇)八斗学习课堂笔记-【01、02】推荐系统,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

第一步:召回阶段:用token检索item,(比如8个item)

第二步:过滤阶段:把劣质的item过滤掉,(剩余5个item)

第三步:排序,把好的item排前面

第四步:截断,取TopN

 

其中,第一步和第二步属于粗排阶段,侧重于召回;第三、第四步属于精排阶段,侧重于准确。

建库:

 

 

==================================================================

 

【02】MR实践复习

1、架构

2、mapreduce(复习)

2.1 MR基本概念

(1)通常一个集群中,有这几个角色:master、slave、client

(2)数据副本 —— 数据高可用、容灾

(3)mapreduce —— 分而治之思想

(4)一个split和一个map是一对一的关系

(5)开发java相当于开发函数,开发python等脚本,相当于规定好标准输入和输出

(6)hadoop 1.0 -> hadoop 2.0

  • hadoop1.0:

主:jobtracker、namenode

从:tasktracker、datanode

TaskTracker通过slot数目(可配置参数)限定Task的并发度

进程:worker

  • hadoop 2.0:

主:ResourceMgr(RM资源调度)、ApplicationManager(AM任务调度)

从:NodeManager(NM)

进程:容器(Container)

* 先排序再溢写

单机调试:

cat input | mapper | sort | reducer > output

节点上,分发目标path:

 /usr/local/src/hadoop-2.6.5/tmp/nm-local-dir/usercache/root/appcache/application_1543137200099_0011/container_1543137200099_0011_01_000001

杀死任务:

yarn application -kill application_1543137200099_0011

 

2.2 实践代码

(1)wordcount

(2)全排序

(a) 单reducer:依赖框架自身的sort功能

方式①:通过加一个很大的base_count,保证key对齐,依赖字典序完成全局排序

第一个代码:mr_allsort_1reduce_python(base count)

	  -jobconf "mapred.reduce.tasks=1"

方式②:通过配置完成全排序,不需要设置base_count

第二个代码:mr_allsort_1reduce_python_2 (通过配置完成)依赖于框架自身的sort功能

	  # 指定按 key 做 partition
       -partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner 
      # 利用该配置可以完成二次排序
       -jobconf  org.apache.hadoop.mapred.lib.KeyFieldBasedComparator \
      # 利用该配置可以完成key排序  
      # 1 代表第一列
       -jobconf stream.num.map.output.key.fields=1 \
      # 设置map分隔符的位置,该位置前的为key,之后的为value
      # "-k1,1" 表示从第1个字段开始,到第一个字段结束,即第一个字段
      -jobconf mapred.text.key.partitioner.options="-k1,1" \
       # 设置key中需要比较的字段或字节范围
       # 选择哪一部分做partition,n是指数字
      -jobconf mapred.text.key.comparator.options="-k1,1n" \
      -jobconf mapred.reduce.tasks=1

(b) 多reducer

mr_allsort_python(多桶)

适合大数据

	-jobconf mapred.reduce.tasks=2 \
     # 二次排序的时候需要指定哪个是key,2代表前面两个字段区域作为key
	-jobconf stream.num.map.output.key.fields=2 \
     # 指定第一个字段是key,指定partition阶段的key值,用于分发	  
    -jobconf num.key.fields.for.partition=1 \ 
    -partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner
 
//    mapred.text.key.partitioner.options,
//    这个参数可以认为是 num.key.fields.for.partition的升级版
//    它可以指定不仅限于key中的前几个字段用做partition,
//    而是可以单独指定 key中某个字段或者某几个字段一起做partition。

(3)白名单——分发

    -file:把本地的文件分发到各个节点
    -cachefile:把hdfs的压缩文件分发到各个节点
    -archivefile:把hdfs的压缩目录分发到各个节点
 
#  操作
 tar cvzf w.tar.gz white_list_1  white_list_2

(4)压缩

# 指定map的输出是否压缩,有助于减小数据量,减小io压力
# 通过该方法可以控制map个数,形成压缩文件之后不会再进行split
mapred.compress.map.output
# 指定map的输出压缩算法
mapred.map.output.compression.codec

(5)join

例如:相同的key,value拼成一起

-jobconf stream.num.map.output.key.fields=2 \
-jobconf num.key.fields.for.partition=1

 

3、一个简易demo,检索系统

名单信息:

# python main.py 9999

通过网页打开9999端口,并输入userid

一起学习一起讨论的可以加我V一起分享:我的名字叫甘世玉, v:姓名全拼1026

我这边有一些大数据的课程可以分享给你

 

这篇关于(第7篇)八斗学习课堂笔记-【01、02】推荐系统的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/177804

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

不懂推荐算法也能设计推荐系统

本文以商业化应用推荐为例,告诉我们不懂推荐算法的产品,也能从产品侧出发, 设计出一款不错的推荐系统。 相信很多新手产品,看到算法二字,多是懵圈的。 什么排序算法、最短路径等都是相对传统的算法(注:传统是指科班出身的产品都会接触过)。但对于推荐算法,多数产品对着网上搜到的资源,都会无从下手。特别当某些推荐算法 和 “AI”扯上关系后,更是加大了理解的难度。 但,不了解推荐算法,就无法做推荐系

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

嵌入式QT开发:构建高效智能的嵌入式系统

摘要: 本文深入探讨了嵌入式 QT 相关的各个方面。从 QT 框架的基础架构和核心概念出发,详细阐述了其在嵌入式环境中的优势与特点。文中分析了嵌入式 QT 的开发环境搭建过程,包括交叉编译工具链的配置等关键步骤。进一步探讨了嵌入式 QT 的界面设计与开发,涵盖了从基本控件的使用到复杂界面布局的构建。同时也深入研究了信号与槽机制在嵌入式系统中的应用,以及嵌入式 QT 与硬件设备的交互,包括输入输出设

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟&nbsp;开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚&nbsp;第一站:海量资源,应有尽有 走进“智听