增加负样本对二分类precision, recall指标的影响

2024-03-05 02:28

文章标签 分类指标 recall precision 增加影响样本

本文主要是介绍增加负样本对二分类precision, recall指标的影响，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

背景
最近在做一个二分类模型，通过增加一半随机采样负样本（3000->6000, 负正样本比由0.74:0.25上升至0.87:0.12，即3：1上升至7：1），精确率提高2%（89%->91），召回率降低6%(62->57%);

为什么在训练集中增加负样本能够提升精确率？
从精确率的公式上解释，precision = tp/(tp+fp), 增加负样本，实际上是增强模型对负样本的识别能力，因此fp会减小（将负样本识别成正样本），因此分母减小，precision增加。会不会造成正样本识别减弱？答案是肯定的。从召回来看 recall = tp/(tp+fn), fn指的将正样本预测成负样本，随着训练集中负样本增加，负增样本比增加，模型更倾向与将正样本预测成负样本，有更多的tp -> fn, 因此，recall公式中，分母会增加，recall随之减小。
在实际线上业务中，负样本的比例非常高，因此，如何构造难的负样本，让模型在训练阶段学习到更多负样本特性，精确率会随之提升。

对应的，如果要增加召回率，则需要在训练集中增加更多的正样本，让模型学习到更多的正样本的特性。

这篇关于增加负样本对二分类precision, recall指标的影响的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/775033。 23002807@qq.com

相关文章

sysmain服务可以禁用吗? 电脑sysmain服务关闭后的影响与操作指南

sysmain服务可以禁用吗? 电脑sysmain服务关闭后的影响与操作指南

《sysmain服务可以禁用吗?电脑sysmain服务关闭后的影响与操作指南》在Windows系统中，SysMain服务（原名Superfetch）作为一个旨在提升系统性能的关键组件，一直备受用户关... 在使用 Windows 系统时，有时候真有点像在「开盲盒」。全新安装系统后的「默认设置」，往往并不尽编

阅读更多...

解读GC日志中的各项指标用法

解读GC日志中的各项指标用法

《解读GC日志中的各项指标用法》：本文主要介绍GC日志中的各项指标用法,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、基础 GC 日志格式（以 G1 为例）1. Minor GC 日志2. Full GC 日志二、关键指标解析1. GC 类型与触发原因2. 堆

阅读更多...

MySQL中的索引结构和分类实战案例详解

MySQL中的索引结构和分类实战案例详解

《MySQL中的索引结构和分类实战案例详解》本文详解MySQL索引结构与分类,涵盖B树、B+树、哈希及全文索引,分析其原理与优劣势,并结合实战案例探讨创建、管理及优化技巧,助力提升查询性能,感兴趣的朋... 目录一、索引概述1.1 索引的定义与作用1.2 索引的基本原理二、索引结构详解2.1 B树索引2.2

阅读更多...

CentOS7增加Swap空间的两种方法

CentOS7增加Swap空间的两种方法

《CentOS7增加Swap空间的两种方法》当服务器物理内存不足时,增加Swap空间可以作为虚拟内存使用,帮助系统处理内存压力,本文给大家介绍了CentOS7增加Swap空间的两种方法：创建新的Swa... 目录在Centos 7上增加Swap空间的方法方法一：创建新的Swap文件（推荐）方法二：调整Sww

阅读更多...

Java的"伪泛型"变"真泛型"后对性能的影响

Java的"伪泛型"变"真泛型"后对性能的影响

《Java的伪泛型变真泛型后对性能的影响》泛型擦除本质上就是擦除与泛型相关的一切信息,例如参数化类型、类型变量等,Javac还将在需要时进行类型检查及强制类型转换,甚至在必要时会合成桥方法,这篇文章主... 目录1、真假泛型2、性能影响泛型存在于Java源代码中，在编译为字节码文件之前都会进行泛型擦除（ty

阅读更多...

Pandas使用AdaBoost进行分类的实现

Pandas使用AdaBoost进行分类的实现

《Pandas使用AdaBoost进行分类的实现》Pandas和AdaBoost分类算法,可以高效地进行数据预处理和分类任务,本文主要介绍了Pandas使用AdaBoost进行分类的实现,具有一定的参... 目录什么是 AdaBoost？使用 AdaBoost 的步骤安装必要的库步骤一：数据准备步骤二：模型

阅读更多...

SpringBoot项目使用MDC给日志增加唯一标识的实现步骤

SpringBoot项目使用MDC给日志增加唯一标识的实现步骤

《SpringBoot项目使用MDC给日志增加唯一标识的实现步骤》本文介绍了如何在SpringBoot项目中使用MDC（MappedDiagnosticContext）为日志增加唯一标识,以便于日... 目录【Java】SpringBoot项目使用MDC给日志增加唯一标识,方便日志追踪1.日志效果2.实现步

阅读更多...

SpringBoot中的404错误:原因、影响及解决策略

SpringBoot中的404错误:原因、影响及解决策略

《SpringBoot中的404错误:原因、影响及解决策略》本文详细介绍了SpringBoot中404错误的出现原因、影响以及处理策略,404错误常见于URL路径错误、控制器配置问题、静态资源配置错误... 目录Spring Boot中的404错误：原因、影响及处理策略404错误的出现原因1. URL路径错

阅读更多...

C#使用DeepSeek API实现自然语言处理,文本分类和情感分析

C#使用DeepSeek API实现自然语言处理,文本分类和情感分析

《C#使用DeepSeekAPI实现自然语言处理,文本分类和情感分析》在C#中使用DeepSeekAPI可以实现多种功能,例如自然语言处理、文本分类、情感分析等,本文主要为大家介绍了具体实现步骤,... 目录准备工作文本生成文本分类问答系统代码生成翻译功能文本摘要文本校对图像描述生成总结在C#中使用Deep

阅读更多...

基于人工智能的图像分类系统

基于人工智能的图像分类系统

目录引言项目背景环境准备硬件要求软件安装与配置系统设计系统架构关键技术代码示例数据预处理模型训练模型预测应用场景结论 1. 引言图像分类是计算机视觉中的一个重要任务，目标是自动识别图像中的对象类别。通过卷积神经网络（CNN）等深度学习技术，我们可以构建高效的图像分类系统，广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统，包括环境

阅读更多...