回归分析系列18— 平衡偏差与方差

2024-08-24 10:36

本文主要是介绍回归分析系列18— 平衡偏差与方差,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

 22 平衡偏差与方差

22.1 偏差-方差权衡简介

在模型构建中,我们通常面临偏差(bias)与方差(variance)之间的权衡。偏差是指模型的预测与真实值之间的系统性误差,而方差则是指模型在不同训练集上的波动性。

高偏差通常意味着模型过于简单,无法捕捉数据中的复杂模式(即欠拟合);高方差则意味着模型对训练数据过于敏感,导致在新数据上表现不佳(即过拟合)。

22.2 正则化与偏差-方差权衡

通过引入正则化项,可以有效控制模型的方差。例如,在线性回归中,我们可以使用岭回归(L2 正则化)或Lasso回归(L1 正则化)来平衡偏差和方差。

在Python中,scikit-learn提供了相关的正则化工具。

from sklearn.linear_model import Ridge, Lasso
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
import numpy as np# 生成模拟数据
np.random.seed(42)
X = np.random.randn(100, 10)
y = np.dot(X, np.random.randn(10)) + np.random.randn(100)# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)# 岭回归(L2正则化)
ridge = Ridge(alpha=1.0)
ridge.fit(X_train, y_train)
y_pred_ridge = ridge.predict(X_test)
mse_ridge = mean_squared_error(y_test, y_pred_ridge)# Lasso回归(L1正则化)
lasso = Lasso(alpha=0.1)
lasso.fit(X_train, y_train)
y_pred_lasso = lasso.predict(X_test)
mse_lasso = mean_squared_error(y_test, y_pred_lasso)print(f'Ridge MSE: {mse_ridge:.3f}')
print(f'Lasso MSE: {mse_lasso:.3f}')

在这个示例中,我们使用了岭回归和Lasso回归来演示如何通过正则化来减少方差,同时保持适当的偏差。

22.3 偏差-方差分解

偏差-方差分解是理解模型预测误差来源的关键工具。总的期望误差可以被分解为偏差平方、方差和不可约误差三部分。

  • 偏差平方(Bias^2): 反映了模型预测的系统性误差。
  • 方差(Variance): 反映了模型在不同训练集上的波动性。
  • 不可约误差(Irreducible error): 由数据本身的噪声引起,无法通过模型改进来减少。
# 生成更多数据,演示偏差-方差分解
from sklearn.utils import resamplen_bootstraps = 100
ridge_preds = np.zeros((n_bootstraps, X_test.shape[0]))
lasso_preds = np.zeros((n_bootstraps, X_test.shape[0]))# 使用不同的bootstrap样本计算偏差和方差
for i in range(n_bootstraps):X_train_res, y_train_res = resample(X_train, y_train, random_state=i)ridge.fit(X_train_res, y_train_res)ridge_preds[i, :] = ridge.predict(X_test)lasso.fit(X_train_res, y_train_res)lasso_preds[i, :] = lasso.predict(X_test)# 计算偏差、方差
ridge_bias = np.mean((np.mean(ridge_preds, axis=0) - y_test) ** 2)
ridge_variance = np.mean(np.var(ridge_preds, axis=0))lasso_bias = np.mean((np.mean(lasso_preds, axis=0) - y_test) ** 2)
lasso_variance = np.mean(np.var(lasso_preds, axis=0))print(f'Ridge Bias^2: {ridge_bias:.3f}, Variance: {ridge_variance:.3f}')
print(f'Lasso Bias^2: {lasso_bias:.3f}, Variance: {lasso_variance:.3f}')

在这段代码中,我们使用bootstrap方法估计了模型的偏差平方和方差,从而更好地理解模型的误差来源。

22.4 偏差-方差权衡的实际应用

在实际应用中,选择模型时需要平衡偏差和方差。通常我们可以通过交叉验证来选择最佳的正则化强度,从而在降低方差的同时控制偏差。

 

这篇关于回归分析系列18— 平衡偏差与方差的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1102232

相关文章

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

科研绘图系列:R语言扩展物种堆积图(Extended Stacked Barplot)

介绍 R语言的扩展物种堆积图是一种数据可视化工具,它不仅展示了物种的堆积结果,还整合了不同样本分组之间的差异性分析结果。这种图形表示方法能够直观地比较不同物种在各个分组中的显著性差异,为研究者提供了一种有效的数据解读方式。 加载R包 knitr::opts_chunk$set(warning = F, message = F)library(tidyverse)library(phyl

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言

SWAP作物生长模型安装教程、数据制备、敏感性分析、气候变化影响、R模型敏感性分析与贝叶斯优化、Fortran源代码分析、气候数据降尺度与变化影响分析

查看原文>>>全流程SWAP农业模型数据制备、敏感性分析及气候变化影响实践技术应用 SWAP模型是由荷兰瓦赫宁根大学开发的先进农作物模型,它综合考虑了土壤-水分-大气以及植被间的相互作用;是一种描述作物生长过程的一种机理性作物生长模型。它不但运用Richard方程,使其能够精确的模拟土壤中水分的运动,而且耦合了WOFOST作物模型使作物的生长描述更为科学。 本文让更多的科研人员和农业工作者

MOLE 2.5 分析分子通道和孔隙

软件介绍 生物大分子通道和孔隙在生物学中发挥着重要作用,例如在分子识别和酶底物特异性方面。 我们介绍了一种名为 MOLE 2.5 的高级软件工具,该工具旨在分析分子通道和孔隙。 与其他可用软件工具的基准测试表明,MOLE 2.5 相比更快、更强大、功能更丰富。作为一项新功能,MOLE 2.5 可以估算已识别通道的物理化学性质。 软件下载 https://pan.quark.cn/s/57

衡石分析平台使用手册-单机安装及启动

单机安装及启动​ 本文讲述如何在单机环境下进行 HENGSHI SENSE 安装的操作过程。 在安装前请确认网络环境,如果是隔离环境,无法连接互联网时,请先按照 离线环境安装依赖的指导进行依赖包的安装,然后按照本文的指导继续操作。如果网络环境可以连接互联网,请直接按照本文的指导进行安装。 准备工作​ 请参考安装环境文档准备安装环境。 配置用户与安装目录。 在操作前请检查您是否有 sud

flume系列之:查看flume系统日志、查看统计flume日志类型、查看flume日志

遍历指定目录下多个文件查找指定内容 服务器系统日志会记录flume相关日志 cat /var/log/messages |grep -i oom 查找系统日志中关于flume的指定日志 import osdef search_string_in_files(directory, search_string):count = 0

线性因子模型 - 独立分量分析(ICA)篇

序言 线性因子模型是数据分析与机器学习中的一类重要模型,它们通过引入潜变量( latent variables \text{latent variables} latent variables)来更好地表征数据。其中,独立分量分析( ICA \text{ICA} ICA)作为线性因子模型的一种,以其独特的视角和广泛的应用领域而备受关注。 ICA \text{ICA} ICA旨在将观察到的复杂信号

【软考】希尔排序算法分析

目录 1. c代码2. 运行截图3. 运行解析 1. c代码 #include <stdio.h>#include <stdlib.h> void shellSort(int data[], int n){// 划分的数组,例如8个数则为[4, 2, 1]int *delta;int k;// i控制delta的轮次int i;// 临时变量,换值int temp;in