ROC曲线和AUC,推荐系统中常用AUC作为排序模型的评估指标

2024-06-13 17:20

本文主要是介绍ROC曲线和AUC,推荐系统中常用AUC作为排序模型的评估指标,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 1、ROC曲线
  • 2、AUC计算及代码

1、ROC曲线

  • 在不同的应用任务中,我们可根据任务需求来采用不同的截断点。如果我们更重视“查准率”,则可选择排序中靠前的位置进行截断;如果更重视“查全率”,则可选择靠后的位置进行截断。 ROC 曲线就是从这个角度出发来研究学习器泛化性能的有力工具。
  • 计算TPR和FPR:
    在这里插入图片描述
  • ROC 曲线的横轴是假正例率 FPR,纵轴是真正例率 TPR

事实上,机器学习模型的一个特点是:在模型性能固定的前提下,如果模型将更多的正例预测为正例,那么也必然会将更多的反例预测为正例。即 TPR越大,则 FPR 也会越大。

  • ROC曲线的绘制流程:

(1)给定 m+个正例和m-个反例,通过分类器得到每个样本的预测概率,对其从高到低进行排序
(2)将分类阈值设为最大,即把所有样例均预测为反例。此时真正例率和假正例率均为0,则 ROC 曲线的起点为 (0,0)
(3)将分类阈值依次设为每个样例的预测值,即依次将每个样例划分为正例。通过该阈值计算(FPR,TPR)坐标,并使用线段连接这些坐标。
(4)将分类阈值设为最小,即把所有样例均预测为正例。此时真正例率和假正例率均为1,则 ROC 曲线的终点为 (1,1)

  • 若一个学习器的 ROC 曲线被另一个学习器的曲线完全“包住”,则可断言后者的性能优于前者; 若两个学习器的 ROC 曲线发生交叉,则难以一般性地断言两者孰优孰劣此时如果一定要进行比较,则较为合理的判据是比较 ROC 曲线下的面积即 AUC (Area Under ROC Curve)

2、AUC计算及代码

  • AUC的意义可以理解为:

解释1:随机采样一对样本(一个正样本,一个负样本),模型将正样本预测为正例的概率大于将负样本预测为正例的概率,即将正样本排在负样本之前的概率。
解释2:模型给一堆样本(正负类别标签已知)预测打分,然后将他们从大到小排序,正样本能够正确排在负样本前面的概率就是AUC,例如下图所示的AUC为 7 9 \frac{7}{9} 97
在这里插入图片描述
(上图来自《互联网大厂推荐算法实战》)

  • 可以把AUC理解为区分正类和负类的能力,当AUC越大,表示区分正负类的能力越强。当模型对正负样本没有区分能力时,模型会将一个样本随机预测为正类或负类,此时AUC=0.5,因此 AUC 的有效范围是(0.5,1]。
  • 根据AUC的意义,可得出如下计算公式:
    在这里插入图片描述
    在这里插入图片描述
  • 根据计算公式,有如下代码:
import numpy as np
from sklearn.metrics import roc_auc_score# 使用 sklearn 计算 auc
def get_auc_func1(label, pred):return roc_auc_score(label, pred)# 使用物理意义计算 AUC
def get_auc_func2(label, pred):# 查找正负样本索引pos_sample_ids = [i for i in range(len(label)) if label[i] == 1]neg_sample_ids = [i for i in range(len(label)) if label[i] == 0]# 计算指示函数值sum_indicator_value = 0for i in pos_sample_ids:for j in neg_sample_ids:if pred[i] > pred[j]:sum_indicator_value += 1elif pred[i] == pred[j]:sum_indicator_value += 0.5auc = sum_indicator_value / (len(pos_sample_ids) * len(neg_sample_ids))return aucif __name__ == '__main__':label = np.array([1, 0, 0, 0, 1, 0])pred = np.array([0.9, 0.4, 0.3, 0.1, 0.3, 0.6])print(f"auc = {get_auc_func1(label, pred):6f}")  # auc = 0.687500print(f"auc = {get_auc_func2(label, pred):6f}")  # auc = 0.687500
  • AUC的优缺点:

优点:
1)AUC 是根据所有分类阈值得到的,不依赖于分类阈值的选取。AUC体现的是对样本的排序能力,与具体的分值无关。因此 AUC 和推荐系统中的大多数业务场景更贴合,因为大多数业务场景关心 item 之间的相对顺序而不关心 item 的预测分。
2)根据 AUC 的物理意义可知,它是对正负样本随机采样计算得到的,因此 AUC 对正负样本分布不敏感

缺点:
1)AUC 是全局性指标,对于某个用户的 AUC 值不准确。
2)AUC 会忽略模型对正负样本的拟合能力:例如当模型对正样本预测概率均为0.55,对负样本预测概率均为0.45时,此时AUC=1,从 AUC 角度来看是一个完美的模型,但模型对正负样本的拟合能力差。
3)AUC通常用于二分类问题,对于多类别分类问题,需要进行适当的处理,如将其拆分成多个二分类任务

这篇关于ROC曲线和AUC,推荐系统中常用AUC作为排序模型的评估指标的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1057941

相关文章

Python中pywin32 常用窗口操作的实现

《Python中pywin32常用窗口操作的实现》本文主要介绍了Python中pywin32常用窗口操作的实现,pywin32主要的作用是供Python开发者快速调用WindowsAPI的一个... 目录获取窗口句柄获取最前端窗口句柄获取指定坐标处的窗口根据窗口的完整标题匹配获取句柄根据窗口的类别匹配获取句

Maven中引入 springboot 相关依赖的方式(最新推荐)

《Maven中引入springboot相关依赖的方式(最新推荐)》:本文主要介绍Maven中引入springboot相关依赖的方式(最新推荐),本文给大家介绍的非常详细,对大家的学习或工作具有... 目录Maven中引入 springboot 相关依赖的方式1. 不使用版本管理(不推荐)2、使用版本管理(推

Python的time模块一些常用功能(各种与时间相关的函数)

《Python的time模块一些常用功能(各种与时间相关的函数)》Python的time模块提供了各种与时间相关的函数,包括获取当前时间、处理时间间隔、执行时间测量等,:本文主要介绍Python的... 目录1. 获取当前时间2. 时间格式化3. 延时执行4. 时间戳运算5. 计算代码执行时间6. 转换为指

Python正则表达式语法及re模块中的常用函数详解

《Python正则表达式语法及re模块中的常用函数详解》这篇文章主要给大家介绍了关于Python正则表达式语法及re模块中常用函数的相关资料,正则表达式是一种强大的字符串处理工具,可以用于匹配、切分、... 目录概念、作用和步骤语法re模块中的常用函数总结 概念、作用和步骤概念: 本身也是一个字符串,其中

usb接口驱动异常问题常用解决方案

《usb接口驱动异常问题常用解决方案》当遇到USB接口驱动异常时,可以通过多种方法来解决,其中主要就包括重装USB控制器、禁用USB选择性暂停设置、更新或安装新的主板驱动等... usb接口驱动异常怎么办,USB接口驱动异常是常见问题,通常由驱动损坏、系统更新冲突、硬件故障或电源管理设置导致。以下是常用解决

springboot项目中常用的工具类和api详解

《springboot项目中常用的工具类和api详解》在SpringBoot项目中,开发者通常会依赖一些工具类和API来简化开发、提高效率,以下是一些常用的工具类及其典型应用场景,涵盖Spring原生... 目录1. Spring Framework 自带工具类(1) StringUtils(2) Coll

mysql的基础语句和外键查询及其语句详解(推荐)

《mysql的基础语句和外键查询及其语句详解(推荐)》:本文主要介绍mysql的基础语句和外键查询及其语句详解(推荐),本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋... 目录一、mysql 基础语句1. 数据库操作 创建数据库2. 表操作 创建表3. CRUD 操作二、外键

利用Python快速搭建Markdown笔记发布系统

《利用Python快速搭建Markdown笔记发布系统》这篇文章主要为大家详细介绍了使用Python生态的成熟工具,在30分钟内搭建一个支持Markdown渲染、分类标签、全文搜索的私有化知识发布系统... 目录引言:为什么要自建知识博客一、技术选型:极简主义开发栈二、系统架构设计三、核心代码实现(分步解析

Java String字符串的常用使用方法

《JavaString字符串的常用使用方法》String是JDK提供的一个类,是引用类型,并不是基本的数据类型,String用于字符串操作,在之前学习c语言的时候,对于一些字符串,会初始化字符数组表... 目录一、什么是String二、如何定义一个String1. 用双引号定义2. 通过构造函数定义三、St

Spring Security基于数据库的ABAC属性权限模型实战开发教程

《SpringSecurity基于数据库的ABAC属性权限模型实战开发教程》:本文主要介绍SpringSecurity基于数据库的ABAC属性权限模型实战开发教程,本文给大家介绍的非常详细,对大... 目录1. 前言2. 权限决策依据RBACABAC综合对比3. 数据库表结构说明4. 实战开始5. MyBA