本文主要是介绍异常值(极值)检测,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
最近,上级部门总是安排我们核实修改数据的“极值”,但没有明确极值的范围(或许它们也不懂吧!),非常烦人,所以决定写一篇博客把这个问题讲清楚,顺便写几个方法来方便调用。
方法一
四分位法:
四分位法是一种基于数据分布的异常值检测方法,它主要依赖于数据的四分位数和四分位距(Interquartile Range, IQR)。以下是四分位法检测异常值的详细步骤和原理:
实现代码
import pandas as pd # 假设我们有一个DataFrame
data = { 'A': [1, 2, 3, 4, 5, 6, 7, 8, 9, 100], 'B': [10, 20, 30, 40, 50, 60, 70, 80, 90, 1000], 'C': [100, 1011, 102, 103, 104, 105, 106, 107, 108, 109]
}
df = pd.DataFrame(data)
df
筛选有异常值的行
# 定义一个函数来检测并标记异常值
# 这个函数使用四分位距(IQR)方法来识别数据中的异常值
def detect_outliers_iqr(series, threshold=1.5): # 计算第一四分位数(Q1),即数据中25%的位置的值 Q1 = series.quantile(0.25) # 计算第三四分位数(Q3),即数据中75%的位置的值 Q3 = series.quantile(0.75) # 计算四分位距(IQR),即Q3与Q1之间的差值 IQR = Q3 - Q1 # 根据IQR和给定的阈值计算异常值的下界 lower_bound = Q1 - threshold * IQR # 根据IQR和给定的阈值计算异常值的上界 upper_bound = Q3 + threshold * IQR # 直接返回一个布尔序列,标记序列中哪些值是异常值 # 如果序列中的值小于下界或大于上界,则被认为是异常值 return (series < lower_bound) | (series > upper_bound) # 使用apply函数对DataFrame的每一列应用detect_outliers_iqr函数
# axis=0表示函数将沿着列的方向应用,即对每一列分别执行函数
outliers_bool = df.apply(detect_outliers_iqr, axis=0) # outliers_bool是一个布尔DataFrame,表示每个位置的值是否为异常值
# 使用any(axis=1)方法检查每一行中是否至少有一个True值(即异常值)
# 筛选出至少包含一个异常值的行
df_with_outliers = df[outliers_bool.any(axis=1)] # 显示包含至少一个异常值的DataFrame
df_with_outliers
只想针对一列数据检测异常值
# 应用detect_outliers_iqr函数到' C'列
outliers_in_C = detect_outliers_iqr(df['C']) # 筛选出'C'列中的异常值
df_outliers_C = df[outliers_in_C]
df_outliers_C
方法二
欧几里得范数:
实现代码
import pandas as pd
import numpy as np # 创建一个示例DataFrame
data = {'A': [1, 2, 3, 4, 5], 'B': [6, 7, 8, 9, 10], 'C': [11, 12, 13, 14, 150]}
df = pd.DataFrame(data)
df
筛选异常值的行:
# 将DataFrame转换为一个二维numpy数组
data_array = df.values # 计算整体数据的均值和标准差
mean = np.mean(data_array)
std = np.std(data_array) # 计算每个数据点与整体均值之间的欧几里得距离
distances = np.linalg.norm(data_array - mean, axis=1) # 设置阈值,超过该阈值的数据点被认为是异常值
threshold = 3 * std # 找到异常值的索引
outlier_indices = np.where(distances > threshold)[0] # 打印异常值
df.iloc[outlier_indices]
筛选出具体异常数值:
# 遍历异常值的行,并打印出具体的异常数值
for index in outlier_indices: row = df.iloc[index] for column in row.index: # 使用z-score来判断某个数值是否是异常值,这通常比直接使用欧几里得距离更合适 # 但为了与之前的代码保持一致,这里我们还是使用绝对距离与阈值比较 value = row[column] if abs(value - mean) > threshold: # 这里使用绝对距离而不是欧几里得距离 print(f"在行 {index+1} 的列 '{column}' 中,数值 {value} 是异常值")
方法三
Z-Score检验:
Z-Score检验,也称为标准化值检验,是一种基于统计学的方法,用于检测数据集中的异常值。这种方法基于数据的均值(mean)和标准差(standard deviation),通过计算每个数据点与均值的偏差程度来识别异常值。
实现代码
import pandas as pd
import numpy as np # 创建一个包含一些数值的DataFrame
data = {'A': [1, 2, 3, 4, 5, 6, 7, 8, 9, 100], 'B': [11, 12, 13, 14, 15, 16, 17, 18, 19, 20]}
df = pd.DataFrame(data)
df
筛选出有异常值的行:
# 计算每列的Z-Score
def calculate_z_scores(df): z_scores = pd.DataFrame(index=df.index, columns=df.columns) for column in df.columns: mean = df[column].mean() std = df[column].std() z_scores[column] = (df[column] - mean) / std return z_scores z_scores_df = calculate_z_scores(df) # 设置阈值,比如2个标准差
threshold = 2 # 找出Z-Score超过阈值的行和列
outliers = z_scores_df[(np.abs(z_scores_df) > threshold).any(axis=1)]
df.loc[outliers.index]
打印出异常值:
# 打印出具体的异常值
print("异常值标准差:")
print(outliers)
# 打印出原始DataFrame中对应的异常值
print("\n原始DataFrame中的异常值:")
print(df.loc[outliers.index])
这篇关于异常值(极值)检测的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!