异常值(极值)检测

2024-06-11 07:04
文章标签 异常 检测 极值

本文主要是介绍异常值(极值)检测,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

最近,上级部门总是安排我们核实修改数据的“极值”,但没有明确极值的范围(或许它们也不懂吧!),非常烦人,所以决定写一篇博客把这个问题讲清楚,顺便写几个方法来方便调用。

方法一

四分位法:

四分位法是一种基于数据分布的异常值检测方法,它主要依赖于数据的四分位数和四分位距(Interquartile Range, IQR)。以下是四分位法检测异常值的详细步骤和原理:
在这里插入图片描述

实现代码

import pandas as pd  # 假设我们有一个DataFrame  
data = {  'A': [1, 2, 3, 4, 5, 6, 7, 8, 9, 100],  'B': [10, 20, 30, 40, 50, 60, 70, 80, 90, 1000],  'C': [100, 1011, 102, 103, 104, 105, 106, 107, 108, 109]  
}  
df = pd.DataFrame(data)
df 

在这里插入图片描述

筛选有异常值的行
# 定义一个函数来检测并标记异常值  
# 这个函数使用四分位距(IQR)方法来识别数据中的异常值  
def detect_outliers_iqr(series, threshold=1.5):    # 计算第一四分位数(Q1),即数据中25%的位置的值  Q1 = series.quantile(0.25)    # 计算第三四分位数(Q3),即数据中75%的位置的值  Q3 = series.quantile(0.75)    # 计算四分位距(IQR),即Q3与Q1之间的差值  IQR = Q3 - Q1    # 根据IQR和给定的阈值计算异常值的下界  lower_bound = Q1 - threshold * IQR    # 根据IQR和给定的阈值计算异常值的上界  upper_bound = Q3 + threshold * IQR    # 直接返回一个布尔序列,标记序列中哪些值是异常值  # 如果序列中的值小于下界或大于上界,则被认为是异常值  return (series < lower_bound) | (series > upper_bound)    # 使用apply函数对DataFrame的每一列应用detect_outliers_iqr函数  
# axis=0表示函数将沿着列的方向应用,即对每一列分别执行函数  
outliers_bool = df.apply(detect_outliers_iqr, axis=0)    # outliers_bool是一个布尔DataFrame,表示每个位置的值是否为异常值  
# 使用any(axis=1)方法检查每一行中是否至少有一个True值(即异常值)  
# 筛选出至少包含一个异常值的行  
df_with_outliers = df[outliers_bool.any(axis=1)]    # 显示包含至少一个异常值的DataFrame  
df_with_outliers

在这里插入图片描述

只想针对一列数据检测异常值
# 应用detect_outliers_iqr函数到' C'列  
outliers_in_C = detect_outliers_iqr(df['C'])  # 筛选出'C'列中的异常值  
df_outliers_C = df[outliers_in_C]  
df_outliers_C

在这里插入图片描述

方法二

欧几里得范数:

在这里插入图片描述
在这里插入图片描述

实现代码
import pandas as pd  
import numpy as np  # 创建一个示例DataFrame  
data = {'A': [1, 2, 3, 4, 5],  'B': [6, 7, 8, 9, 10],  'C': [11, 12, 13, 14, 150]}  
df = pd.DataFrame(data)  
df 

在这里插入图片描述
筛选异常值的行:

# 将DataFrame转换为一个二维numpy数组  
data_array = df.values  # 计算整体数据的均值和标准差  
mean = np.mean(data_array)  
std = np.std(data_array)  # 计算每个数据点与整体均值之间的欧几里得距离  
distances = np.linalg.norm(data_array - mean, axis=1)  # 设置阈值,超过该阈值的数据点被认为是异常值  
threshold = 3 * std  # 找到异常值的索引  
outlier_indices = np.where(distances > threshold)[0]  # 打印异常值  
df.iloc[outlier_indices]

在这里插入图片描述
筛选出具体异常数值:

# 遍历异常值的行,并打印出具体的异常数值  
for index in outlier_indices:  row = df.iloc[index]  for column in row.index:  # 使用z-score来判断某个数值是否是异常值,这通常比直接使用欧几里得距离更合适  # 但为了与之前的代码保持一致,这里我们还是使用绝对距离与阈值比较  value = row[column]  if abs(value - mean) > threshold:  # 这里使用绝对距离而不是欧几里得距离  print(f"在行 {index+1} 的列 '{column}' 中,数值 {value} 是异常值")

在这里插入图片描述

方法三

Z-Score检验:

Z-Score检验,也称为标准化值检验,是一种基于统计学的方法,用于检测数据集中的异常值。这种方法基于数据的均值(mean)和标准差(standard deviation),通过计算每个数据点与均值的偏差程度来识别异常值。

在这里插入图片描述
在这里插入图片描述

实现代码

import pandas as pd  
import numpy as np  # 创建一个包含一些数值的DataFrame  
data = {'A': [1, 2, 3, 4, 5, 6, 7, 8, 9, 100],  'B': [11, 12, 13, 14, 15, 16, 17, 18, 19, 20]}  
df = pd.DataFrame(data) 
df

在这里插入图片描述

筛选出有异常值的行:

# 计算每列的Z-Score  
def calculate_z_scores(df):  z_scores = pd.DataFrame(index=df.index, columns=df.columns)  for column in df.columns:  mean = df[column].mean()  std = df[column].std()  z_scores[column] = (df[column] - mean) / std  return z_scores  z_scores_df = calculate_z_scores(df)  # 设置阈值,比如2个标准差  
threshold = 2  # 找出Z-Score超过阈值的行和列  
outliers = z_scores_df[(np.abs(z_scores_df) > threshold).any(axis=1)]  
df.loc[outliers.index]

在这里插入图片描述
打印出异常值:

# 打印出具体的异常值  
print("异常值标准差:")  
print(outliers)    
# 打印出原始DataFrame中对应的异常值  
print("\n原始DataFrame中的异常值:")  
print(df.loc[outliers.index])

在这里插入图片描述

这篇关于异常值(极值)检测的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1050467

相关文章

无人叉车3d激光slam多房间建图定位异常处理方案-墙体画线地图切分方案

墙体画线地图切分方案 针对问题:墙体两侧特征混淆误匹配,导致建图和定位偏差,表现为过门跳变、外月台走歪等 ·解决思路:预期的根治方案IGICP需要较长时间完成上线,先使用切分地图的工程化方案,即墙体两侧切分为不同地图,在某一侧只使用该侧地图进行定位 方案思路 切分原理:切分地图基于关键帧位置,而非点云。 理论基础:光照是直线的,一帧点云必定只能照射到墙的一侧,无法同时照到两侧实践考虑:关

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X

基于 YOLOv5 的积水检测系统:打造高效智能的智慧城市应用

在城市发展中,积水问题日益严重,特别是在大雨过后,积水往往会影响交通甚至威胁人们的安全。通过现代计算机视觉技术,我们能够智能化地检测和识别积水区域,减少潜在危险。本文将介绍如何使用 YOLOv5 和 PyQt5 搭建一个积水检测系统,结合深度学习和直观的图形界面,为用户提供高效的解决方案。 源码地址: PyQt5+YoloV5 实现积水检测系统 预览: 项目背景

JavaFX应用更新检测功能(在线自动更新方案)

JavaFX开发的桌面应用属于C端,一般来说需要版本检测和自动更新功能,这里记录一下一种版本检测和自动更新的方法。 1. 整体方案 JavaFX.应用版本检测、自动更新主要涉及一下步骤: 读取本地应用版本拉取远程版本并比较两个版本如果需要升级,那么拉取更新历史弹出升级控制窗口用户选择升级时,拉取升级包解压,重启应用用户选择忽略时,本地版本标志为忽略版本用户选择取消时,隐藏升级控制窗口 2.

Thymeleaf:生成静态文件及异常处理java.lang.NoClassDefFoundError: ognl/PropertyAccessor

我们需要引入包: <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-thymeleaf</artifactId></dependency><dependency><groupId>org.springframework</groupId><artifactId>sp

深入理解数据库的 4NF:多值依赖与消除数据异常

在数据库设计中, "范式" 是一个常常被提到的重要概念。许多初学者在学习数据库设计时,经常听到第一范式(1NF)、第二范式(2NF)、第三范式(3NF)以及 BCNF(Boyce-Codd范式)。这些范式都旨在通过消除数据冗余和异常来优化数据库结构。然而,当我们谈到 4NF(第四范式)时,事情变得更加复杂。本文将带你深入了解 多值依赖 和 4NF,帮助你在数据库设计中消除更高级别的异常。 什么是

消除安卓SDK更新时的“https://dl-ssl.google.com refused”异常的方法

消除安卓SDK更新时的“https://dl-ssl.google.com refused”异常的方法   消除安卓SDK更新时的“https://dl-ssl.google.com refused”异常的方法 [转载]原地址:http://blog.csdn.net/x605940745/article/details/17911115 消除SDK更新时的“

JVM 常见异常及内存诊断

栈内存溢出 栈内存大小设置:-Xss size 默认除了window以外的所有操作系统默认情况大小为 1MB,window 的默认大小依赖于虚拟机内存。 栈帧过多导致栈内存溢出 下述示例代码,由于递归深度没有限制且没有设置出口,每次方法的调用都会产生一个栈帧导致了创建的栈帧过多,而导致内存溢出(StackOverflowError)。 示例代码: 运行结果: 栈帧过大导致栈内存

[数据集][目标检测]血细胞检测数据集VOC+YOLO格式2757张4类别

数据集格式:Pascal VOC格式+YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):2757 标注数量(xml文件个数):2757 标注数量(txt文件个数):2757 标注类别数:4 标注类别名称:["Platelets","RBC","WBC","sickle cell"] 每个类别标注的框数: