回归分析系列18— 平衡偏差与方差

2024-08-24 10:36

本文主要是介绍回归分析系列18— 平衡偏差与方差,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

 22 平衡偏差与方差

22.1 偏差-方差权衡简介

在模型构建中,我们通常面临偏差(bias)与方差(variance)之间的权衡。偏差是指模型的预测与真实值之间的系统性误差,而方差则是指模型在不同训练集上的波动性。

高偏差通常意味着模型过于简单,无法捕捉数据中的复杂模式(即欠拟合);高方差则意味着模型对训练数据过于敏感,导致在新数据上表现不佳(即过拟合)。

22.2 正则化与偏差-方差权衡

通过引入正则化项,可以有效控制模型的方差。例如,在线性回归中,我们可以使用岭回归(L2 正则化)或Lasso回归(L1 正则化)来平衡偏差和方差。

在Python中,scikit-learn提供了相关的正则化工具。

from sklearn.linear_model import Ridge, Lasso
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
import numpy as np# 生成模拟数据
np.random.seed(42)
X = np.random.randn(100, 10)
y = np.dot(X, np.random.randn(10)) + np.random.randn(100)# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)# 岭回归(L2正则化)
ridge = Ridge(alpha=1.0)
ridge.fit(X_train, y_train)
y_pred_ridge = ridge.predict(X_test)
mse_ridge = mean_squared_error(y_test, y_pred_ridge)# Lasso回归(L1正则化)
lasso = Lasso(alpha=0.1)
lasso.fit(X_train, y_train)
y_pred_lasso = lasso.predict(X_test)
mse_lasso = mean_squared_error(y_test, y_pred_lasso)print(f'Ridge MSE: {mse_ridge:.3f}')
print(f'Lasso MSE: {mse_lasso:.3f}')

在这个示例中,我们使用了岭回归和Lasso回归来演示如何通过正则化来减少方差,同时保持适当的偏差。

22.3 偏差-方差分解

偏差-方差分解是理解模型预测误差来源的关键工具。总的期望误差可以被分解为偏差平方、方差和不可约误差三部分。

  • 偏差平方(Bias^2): 反映了模型预测的系统性误差。
  • 方差(Variance): 反映了模型在不同训练集上的波动性。
  • 不可约误差(Irreducible error): 由数据本身的噪声引起,无法通过模型改进来减少。
# 生成更多数据,演示偏差-方差分解
from sklearn.utils import resamplen_bootstraps = 100
ridge_preds = np.zeros((n_bootstraps, X_test.shape[0]))
lasso_preds = np.zeros((n_bootstraps, X_test.shape[0]))# 使用不同的bootstrap样本计算偏差和方差
for i in range(n_bootstraps):X_train_res, y_train_res = resample(X_train, y_train, random_state=i)ridge.fit(X_train_res, y_train_res)ridge_preds[i, :] = ridge.predict(X_test)lasso.fit(X_train_res, y_train_res)lasso_preds[i, :] = lasso.predict(X_test)# 计算偏差、方差
ridge_bias = np.mean((np.mean(ridge_preds, axis=0) - y_test) ** 2)
ridge_variance = np.mean(np.var(ridge_preds, axis=0))lasso_bias = np.mean((np.mean(lasso_preds, axis=0) - y_test) ** 2)
lasso_variance = np.mean(np.var(lasso_preds, axis=0))print(f'Ridge Bias^2: {ridge_bias:.3f}, Variance: {ridge_variance:.3f}')
print(f'Lasso Bias^2: {lasso_bias:.3f}, Variance: {lasso_variance:.3f}')

在这段代码中,我们使用bootstrap方法估计了模型的偏差平方和方差,从而更好地理解模型的误差来源。

22.4 偏差-方差权衡的实际应用

在实际应用中,选择模型时需要平衡偏差和方差。通常我们可以通过交叉验证来选择最佳的正则化强度,从而在降低方差的同时控制偏差。

 

这篇关于回归分析系列18— 平衡偏差与方差的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1102232

相关文章

Springboot中分析SQL性能的两种方式详解

《Springboot中分析SQL性能的两种方式详解》文章介绍了SQL性能分析的两种方式:MyBatis-Plus性能分析插件和p6spy框架,MyBatis-Plus插件配置简单,适用于开发和测试环... 目录SQL性能分析的两种方式:功能介绍实现方式:实现步骤:SQL性能分析的两种方式:功能介绍记录

最长公共子序列问题的深度分析与Java实现方式

《最长公共子序列问题的深度分析与Java实现方式》本文详细介绍了最长公共子序列(LCS)问题,包括其概念、暴力解法、动态规划解法,并提供了Java代码实现,暴力解法虽然简单,但在大数据处理中效率较低,... 目录最长公共子序列问题概述问题理解与示例分析暴力解法思路与示例代码动态规划解法DP 表的构建与意义动

C#使用DeepSeek API实现自然语言处理,文本分类和情感分析

《C#使用DeepSeekAPI实现自然语言处理,文本分类和情感分析》在C#中使用DeepSeekAPI可以实现多种功能,例如自然语言处理、文本分类、情感分析等,本文主要为大家介绍了具体实现步骤,... 目录准备工作文本生成文本分类问答系统代码生成翻译功能文本摘要文本校对图像描述生成总结在C#中使用Deep

Redis主从/哨兵机制原理分析

《Redis主从/哨兵机制原理分析》本文介绍了Redis的主从复制和哨兵机制,主从复制实现了数据的热备份和负载均衡,而哨兵机制可以监控Redis集群,实现自动故障转移,哨兵机制通过监控、下线、选举和故... 目录一、主从复制1.1 什么是主从复制1.2 主从复制的作用1.3 主从复制原理1.3.1 全量复制

Python实现数据清洗的18种方法

《Python实现数据清洗的18种方法》本文主要介绍了Python实现数据清洗的18种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学... 目录1. 去除字符串两边空格2. 转换数据类型3. 大小写转换4. 移除列表中的重复元素5. 快速统

Redis主从复制的原理分析

《Redis主从复制的原理分析》Redis主从复制通过将数据镜像到多个从节点,实现高可用性和扩展性,主从复制包括初次全量同步和增量同步两个阶段,为优化复制性能,可以采用AOF持久化、调整复制超时时间、... 目录Redis主从复制的原理主从复制概述配置主从复制数据同步过程复制一致性与延迟故障转移机制监控与维

Redis连接失败:客户端IP不在白名单中的问题分析与解决方案

《Redis连接失败:客户端IP不在白名单中的问题分析与解决方案》在现代分布式系统中,Redis作为一种高性能的内存数据库,被广泛应用于缓存、消息队列、会话存储等场景,然而,在实际使用过程中,我们可能... 目录一、问题背景二、错误分析1. 错误信息解读2. 根本原因三、解决方案1. 将客户端IP添加到Re

Redis主从复制实现原理分析

《Redis主从复制实现原理分析》Redis主从复制通过Sync和CommandPropagate阶段实现数据同步,2.8版本后引入Psync指令,根据复制偏移量进行全量或部分同步,优化了数据传输效率... 目录Redis主DodMIK从复制实现原理实现原理Psync: 2.8版本后总结Redis主从复制实

锐捷和腾达哪个好? 两个品牌路由器对比分析

《锐捷和腾达哪个好?两个品牌路由器对比分析》在选择路由器时,Tenda和锐捷都是备受关注的品牌,各自有独特的产品特点和市场定位,选择哪个品牌的路由器更合适,实际上取决于你的具体需求和使用场景,我们从... 在选购路由器时,锐捷和腾达都是市场上备受关注的品牌,但它们的定位和特点却有所不同。锐捷更偏向企业级和专

Spring中Bean有关NullPointerException异常的原因分析

《Spring中Bean有关NullPointerException异常的原因分析》在Spring中使用@Autowired注解注入的bean不能在静态上下文中访问,否则会导致NullPointerE... 目录Spring中Bean有关NullPointerException异常的原因问题描述解决方案总结