线性回归模型笔记整理1 - 误差与分布(概率密度公式)

2023-10-17 02:59

本文主要是介绍线性回归模型笔记整理1 - 误差与分布(概率密度公式),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

线性回归模型的参数求解

在这里插入图片描述
上篇9号博文已经解释过了。

1. 线性回归模型中的误差与分布

接下来,我们来看一下线性回归模型中的误差。正如我们之前所提及的,线性回归解释的变量(现实中存在的样本),是存在线性关系的。然而,这种关系并不是严格的函数映射关系,但是,我们构建的模型(方程)却是严格的函数映射关系的,因此,对于每个样本来说,我们拟合的结果会与真实值之间存在一定的误差,我们可以将误差表示为:

在这里插入图片描述
这就是误差值公式。其中, ε ( i ) \varepsilon ^ {(i)} ε(i)表示每个样本与实际值之间的误差。

由于每个样本的误差 ε \varepsilon ε是独立同分布的根据中心极限定理, ε \varepsilon ε服从均值为0,方差为 σ 2 \sigma ^ {2} σ2的正态分布

因此,根据正态分布的概率密度公式
$p(\varepsilon ^ {(i)}) = \frac{1}{\sigma\sqrt{2\pi}}exp(-\frac{(\varepsilon ^ {(i)}) ^ {2}}{2\sigma ^ {2}})\p(y ^ {(i)}|x ^ {(i)};w) = \frac{1}{\sigma\sqrt{2\pi}}exp(-\frac{(y ^ {(i)} - w ^ {T}x ^ {(i)}) ^ {2}}{2\sigma ^ {2}})$
不能保证所有的预测跟真实值之间都是正确的,因为现实数据也有噪声

1.1 why 所有的样本的权重值都是一样 ?

我们所有的样本的权重值都是一样。eg. 不管房间面积是什么,w都是统一的,也就是房的单价都是一样的。w下标没有i ,也是因为对所有样本都一样。

y_hat就是预测值,y是真实值。
每一个样本对应一个不同的误差, 对于每一个样本误差都是不同的。第一个样本的第一个特征,得到一个预测值。

1.2 why 每个样本的误差 ε \varepsilon ε是独立同分布的 ?

误差就是加上一个epsilon ,可能是正的,可能是负的,就是一个误差项。误差跟误差之间,都是独立的,每一个样本都是独立的。

eg. 预测房价的时候。一楼的房价与二楼的房价是没有关系的。

误差分布情况是独立的,进行的任务都是同一个任务,同一个任务带来的分布都是同分布的。

服从中心极限定理,指的是随机变量x之间独立同分布,那么这些变量求和就服从正态分布。
误差可能全都预测大吗?有比样本误差大,有比样本误差小的。
这样有多,有少,均值为0

sigma平方,爱是是多少多少。

2. 解释误差的正态分布的概率密度公式:

$p(\varepsilon ^ {(i)}) = \frac{1}{\sigma\sqrt{2\pi}}exp(-\frac{(\varepsilon ^ {(i)}) ^ {2}}{2\sigma ^ {2}})\p(y ^ {(i)}|x ^ {(i)};w) = \frac{1}{\sigma\sqrt{2\pi}}exp(-\frac{(y ^ {(i)} - w ^ {T}x ^ {(i)}) ^ {2}}{2\sigma ^ {2}})$

epsilon = 真实值yi - 预测值y_hat ( 也就是WtXi),带入概率密度公式。
前面是exp,就是常数 e 2.7
epsilon的平方 其实是epsilon - 0的平方,就是减去均值,因为均值为0,底下是2倍 sigma 的平方。
epsilon让它取值非常非常大,之前e的指数图像画过,右边上的越来越快。epsilon误差越来越大。
前面有负号。
exp指数图像就趋向于负的,exp越来越小,exp的负无穷,趋近于 0。准确值概率P越来越小。
epsilon误差不能出现负数,epsilon如果是0,e的0次方就是1,趋向于1

随着epsilon增长 右边 接近于0 变小。我们希望越小越好
那我们换一种方式表达:
在这里插入图片描述
根据
在这里插入图片描述

在这里插入图片描述

左边这块,怎么也变了?
不用纠结于符号,之所以可以变,意义相同

我们希望epsilon 越小越好,epsilon 越小,准确值概率P大
在这里插入图片描述
分号后面的w,表示以w作为参数,后面也有。
前面这个 以 xi作为前提,获取yi的概率。

输入xi 输出yi的概率,只有epsilon误差越小 越接近yi。如果误差为0 误差值就和真实值相等。

右侧完全相同,左侧表示 epsilon误差越小 p概率越大 yi ,实际值和预测值y_hat接近,
期望右边的越大,p概率越大,误差越小。
在这里插入图片描述
给定xi 期望得到 yi 实际值
在这里插入图片描述
epsilon越小 x(i)越接近实际值y(i)
在这里插入图片描述

2.1 解释刚才用到的中心极限定理(骰子)

eg. 举骰子的例子。1点到6点,呈均匀分布,这3个骰子都是同分布(均匀分布)。同时,3个骰子之间都是独立,那么这3个骰子点数相加的和服从正太分布。
3粒骰子 求和可能取的值 是3到18。3到18的分布就是正太分布。

骰子点数Why服从正太分布?
穷尽可能:
加入打出 3点 三个骰子都是 1点,打出 18点 三个骰子都是6点,这种组合少。
如果要想打出4点,这种组合就多了 。
如果我们想打出5点,组合更多。
随着点数越来越多,到达中心越来越多,随后降下来。
总而言之,就是两边的可能性最小

在这里插入图片描述

2.2 证明中心极限定理(with codes)

注意:用python写也可以,但不如numpy,因为python不能矢量化计算。

取1到6的值,求和sum
最小的是3 到18之间 不可能是0

最后画出图,也可以画直方图。BUT直方图是离散的。关于概率密度图,画连续的最好。所以可视化还是比较有意义的。

# 掷骰子 三粒 取值3-18# 中心极限定理
# 如果随机变量X (x1, x2, x3.......)是独立分布的,则变量之间的和是服从正太分布的import numpy as np
import pandas as pdresult = []
for i in range(10000):array = np.random.randint(1, 7, size=3)result.append(np.sum(array))s = pd.Series(result)
s.plot(kind='kde')

在这里插入图片描述

3. 数学知识补充

3.1 中心极限定理

中心极限定理以及其和大数定律的区别

当样本量N逐渐趋于无穷大时,N个抽样样本的均值的频数逐渐趋于正态分布,其对原总体的分布不做任何要求,意味着无论总体是什么分布,其抽样样本的均值的频数的分布都随着抽样数的增多而趋于正态分布

在这里插入图片描述

这个正态分布的u会越来越逼近总体均值,并且其方差满足a^2/n,a为总体的标准差,注意抽样样本要多次抽取,一个容量为N的抽样样本是无法构成分布的。

3.2 中心极限定理和大数定律的区别

下面援引一段知乎上的回答:https://www.zhihu.com/question/48256489/answer/110106016

大数定律

n只要越来越大,我把这n个独立同分布的数加起来去除以n得到的这个样本均值(也是一个随机变量)会依概率收敛到真值u,但是样本均值的分布是怎样的我们不知道。

区分

综上所述,这两个定律都是在说样本均值性质。随着n增大,大数定律说样本均值几乎必然等于均值。中心极限定律说,他越来越趋近于正态分布。并且这个正态分布的方差越来越小。

直观上来讲,想到大数定律的时候,你脑海里浮现的应该是一个样本,而想到中心极限定理的时候脑海里应该浮现出很多个样本。

3.3 正态分布的概率密度函数

正态分布的概率密度函数均值为μ,方差为σ^2 (或标准差σ)是高斯函数的一个实例:

在这里插入图片描述

如果一个随机变量X服从这个分布,我们写作 X ~ N(μ,σ2). 如果μ = 0并且σ = 1,这个分布被称为标准正态分布,这个分布能够简化为
在这里插入图片描述
在正态分布中,有一些一些值得注意的量:

  • 密度函数关于平均值对称
  • 平均值是它的众数(statistical mode)以及中位数(median)
  • 函数曲线下68.268949%的面积在平均值左右的一个标准差范围内
  • 95.449974%的面积在平均值左右两个标准差2σ的范围内
  • 99.730020%的面积在平均值左右三个标准差3σ的范围内
  • 99.993666%的面积在平均值左右四个标准差4σ的范围内
  • 反曲点(inflection point)在离平均值的距离为标准差之处

exp,高等数学里以自然常数e为底的指数函数
Exponential
在这里插入图片描述

这篇关于线性回归模型笔记整理1 - 误差与分布(概率密度公式)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/222498

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

数论入门整理(updating)

一、gcd lcm 基础中的基础,一般用来处理计算第一步什么的,分数化简之类。 LL gcd(LL a, LL b) { return b ? gcd(b, a % b) : a; } <pre name="code" class="cpp">LL lcm(LL a, LL b){LL c = gcd(a, b);return a / c * b;} 例题:

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识