异常值(极值)检测

2024-06-11 07:04
文章标签 异常 检测 极值

本文主要是介绍异常值(极值)检测,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

最近,上级部门总是安排我们核实修改数据的“极值”,但没有明确极值的范围(或许它们也不懂吧!),非常烦人,所以决定写一篇博客把这个问题讲清楚,顺便写几个方法来方便调用。

方法一

四分位法:

四分位法是一种基于数据分布的异常值检测方法,它主要依赖于数据的四分位数和四分位距(Interquartile Range, IQR)。以下是四分位法检测异常值的详细步骤和原理:
在这里插入图片描述

实现代码

import pandas as pd  # 假设我们有一个DataFrame  
data = {  'A': [1, 2, 3, 4, 5, 6, 7, 8, 9, 100],  'B': [10, 20, 30, 40, 50, 60, 70, 80, 90, 1000],  'C': [100, 1011, 102, 103, 104, 105, 106, 107, 108, 109]  
}  
df = pd.DataFrame(data)
df 

在这里插入图片描述

筛选有异常值的行
# 定义一个函数来检测并标记异常值  
# 这个函数使用四分位距(IQR)方法来识别数据中的异常值  
def detect_outliers_iqr(series, threshold=1.5):    # 计算第一四分位数(Q1),即数据中25%的位置的值  Q1 = series.quantile(0.25)    # 计算第三四分位数(Q3),即数据中75%的位置的值  Q3 = series.quantile(0.75)    # 计算四分位距(IQR),即Q3与Q1之间的差值  IQR = Q3 - Q1    # 根据IQR和给定的阈值计算异常值的下界  lower_bound = Q1 - threshold * IQR    # 根据IQR和给定的阈值计算异常值的上界  upper_bound = Q3 + threshold * IQR    # 直接返回一个布尔序列,标记序列中哪些值是异常值  # 如果序列中的值小于下界或大于上界,则被认为是异常值  return (series < lower_bound) | (series > upper_bound)    # 使用apply函数对DataFrame的每一列应用detect_outliers_iqr函数  
# axis=0表示函数将沿着列的方向应用,即对每一列分别执行函数  
outliers_bool = df.apply(detect_outliers_iqr, axis=0)    # outliers_bool是一个布尔DataFrame,表示每个位置的值是否为异常值  
# 使用any(axis=1)方法检查每一行中是否至少有一个True值(即异常值)  
# 筛选出至少包含一个异常值的行  
df_with_outliers = df[outliers_bool.any(axis=1)]    # 显示包含至少一个异常值的DataFrame  
df_with_outliers

在这里插入图片描述

只想针对一列数据检测异常值
# 应用detect_outliers_iqr函数到' C'列  
outliers_in_C = detect_outliers_iqr(df['C'])  # 筛选出'C'列中的异常值  
df_outliers_C = df[outliers_in_C]  
df_outliers_C

在这里插入图片描述

方法二

欧几里得范数:

在这里插入图片描述
在这里插入图片描述

实现代码
import pandas as pd  
import numpy as np  # 创建一个示例DataFrame  
data = {'A': [1, 2, 3, 4, 5],  'B': [6, 7, 8, 9, 10],  'C': [11, 12, 13, 14, 150]}  
df = pd.DataFrame(data)  
df 

在这里插入图片描述
筛选异常值的行:

# 将DataFrame转换为一个二维numpy数组  
data_array = df.values  # 计算整体数据的均值和标准差  
mean = np.mean(data_array)  
std = np.std(data_array)  # 计算每个数据点与整体均值之间的欧几里得距离  
distances = np.linalg.norm(data_array - mean, axis=1)  # 设置阈值,超过该阈值的数据点被认为是异常值  
threshold = 3 * std  # 找到异常值的索引  
outlier_indices = np.where(distances > threshold)[0]  # 打印异常值  
df.iloc[outlier_indices]

在这里插入图片描述
筛选出具体异常数值:

# 遍历异常值的行,并打印出具体的异常数值  
for index in outlier_indices:  row = df.iloc[index]  for column in row.index:  # 使用z-score来判断某个数值是否是异常值,这通常比直接使用欧几里得距离更合适  # 但为了与之前的代码保持一致,这里我们还是使用绝对距离与阈值比较  value = row[column]  if abs(value - mean) > threshold:  # 这里使用绝对距离而不是欧几里得距离  print(f"在行 {index+1} 的列 '{column}' 中,数值 {value} 是异常值")

在这里插入图片描述

方法三

Z-Score检验:

Z-Score检验,也称为标准化值检验,是一种基于统计学的方法,用于检测数据集中的异常值。这种方法基于数据的均值(mean)和标准差(standard deviation),通过计算每个数据点与均值的偏差程度来识别异常值。

在这里插入图片描述
在这里插入图片描述

实现代码

import pandas as pd  
import numpy as np  # 创建一个包含一些数值的DataFrame  
data = {'A': [1, 2, 3, 4, 5, 6, 7, 8, 9, 100],  'B': [11, 12, 13, 14, 15, 16, 17, 18, 19, 20]}  
df = pd.DataFrame(data) 
df

在这里插入图片描述

筛选出有异常值的行:

# 计算每列的Z-Score  
def calculate_z_scores(df):  z_scores = pd.DataFrame(index=df.index, columns=df.columns)  for column in df.columns:  mean = df[column].mean()  std = df[column].std()  z_scores[column] = (df[column] - mean) / std  return z_scores  z_scores_df = calculate_z_scores(df)  # 设置阈值,比如2个标准差  
threshold = 2  # 找出Z-Score超过阈值的行和列  
outliers = z_scores_df[(np.abs(z_scores_df) > threshold).any(axis=1)]  
df.loc[outliers.index]

在这里插入图片描述
打印出异常值:

# 打印出具体的异常值  
print("异常值标准差:")  
print(outliers)    
# 打印出原始DataFrame中对应的异常值  
print("\n原始DataFrame中的异常值:")  
print(df.loc[outliers.index])

在这里插入图片描述

这篇关于异常值(极值)检测的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1050467

相关文章

Linux系统性能检测命令详解

《Linux系统性能检测命令详解》本文介绍了Linux系统常用的监控命令(如top、vmstat、iostat、htop等)及其参数功能,涵盖进程状态、内存使用、磁盘I/O、系统负载等多维度资源监控,... 目录toppsuptimevmstatIOStatiotopslabtophtopdstatnmon

Spring Boot @RestControllerAdvice全局异常处理最佳实践

《SpringBoot@RestControllerAdvice全局异常处理最佳实践》本文详解SpringBoot中通过@RestControllerAdvice实现全局异常处理,强调代码复用、统... 目录前言一、为什么要使用全局异常处理?二、核心注解解析1. @RestControllerAdvice2

Java进程异常故障定位及排查过程

《Java进程异常故障定位及排查过程》:本文主要介绍Java进程异常故障定位及排查过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、故障发现与初步判断1. 监控系统告警2. 日志初步分析二、核心排查工具与步骤1. 进程状态检查2. CPU 飙升问题3. 内存

C++ 检测文件大小和文件传输的方法示例详解

《C++检测文件大小和文件传输的方法示例详解》文章介绍了在C/C++中获取文件大小的三种方法,推荐使用stat()函数,并详细说明了如何设计一次性发送压缩包的结构体及传输流程,包含CRC校验和自动解... 目录检测文件的大小✅ 方法一:使用 stat() 函数(推荐)✅ 用法示例:✅ 方法二:使用 fsee

javax.net.ssl.SSLHandshakeException:异常原因及解决方案

《javax.net.ssl.SSLHandshakeException:异常原因及解决方案》javax.net.ssl.SSLHandshakeException是一个SSL握手异常,通常在建立SS... 目录报错原因在程序中绕过服务器的安全验证注意点最后多说一句报错原因一般出现这种问题是因为目标服务器

OpenCV实现实时颜色检测的示例

《OpenCV实现实时颜色检测的示例》本文主要介绍了OpenCV实现实时颜色检测的示例,通过HSV色彩空间转换和色调范围判断实现红黄绿蓝颜色检测,包含视频捕捉、区域标记、颜色分析等功能,具有一定的参考... 目录一、引言二、系统概述三、代码解析1. 导入库2. 颜色识别函数3. 主程序循环四、HSV色彩空间

Java对异常的认识与异常的处理小结

《Java对异常的认识与异常的处理小结》Java程序在运行时可能出现的错误或非正常情况称为异常,下面给大家介绍Java对异常的认识与异常的处理,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参... 目录一、认识异常与异常类型。二、异常的处理三、总结 一、认识异常与异常类型。(1)简单定义-什么是

Python主动抛出异常的各种用法和场景分析

《Python主动抛出异常的各种用法和场景分析》在Python中,我们不仅可以捕获和处理异常,还可以主动抛出异常,也就是以类的方式自定义错误的类型和提示信息,这在编程中非常有用,下面我将详细解释主动抛... 目录一、为什么要主动抛出异常?二、基本语法:raise关键字基本示例三、raise的多种用法1. 抛

Java空指针异常NullPointerException的原因与解决方案

《Java空指针异常NullPointerException的原因与解决方案》在Java开发中,NullPointerException(空指针异常)是最常见的运行时异常之一,通常发生在程序尝试访问或... 目录一、空指针异常产生的原因1. 变量未初始化2. 对象引用被显式置为null3. 方法返回null

redis在spring boot中异常退出的问题解决方案

《redis在springboot中异常退出的问题解决方案》:本文主要介绍redis在springboot中异常退出的问题解决方案,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴... 目录问题:解决 问题根源️ 解决方案1. 异步处理 + 提前ACK(关键步骤)2. 调整Redis消费者组