线性回归模型笔记整理1 - 误差与分布（概率密度公式）

本文主要是介绍线性回归模型笔记整理1 - 误差与分布（概率密度公式），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

线性回归模型的参数求解

在这里插入图片描述
上篇9号博文已经解释过了。

1. 线性回归模型中的误差与分布

接下来，我们来看一下线性回归模型中的误差。正如我们之前所提及的，线性回归解释的变量（现实中存在的样本），是存在线性关系的。然而，这种关系并不是严格的函数映射关系，但是，我们构建的模型（方程）却是严格的函数映射关系的，因此，对于每个样本来说，我们拟合的结果会与真实值之间存在一定的误差，我们可以将误差表示为：

在这里插入图片描述
这就是误差值公式。其中， $\varepsilon ^ {(i)}$ 表示每个样本与实际值之间的误差。

由于每个样本的误差 $\varepsilon$ 是独立同分布的，根据中心极限定理， $\varepsilon$ 服从均值为0，方差为 $\sigma ^ {2}$ 的正态分布。

因此，根据正态分布的概率密度公式：
$p(\varepsilon ^ {(i)}) = \frac{1}{\sigma\sqrt{2\pi}}exp(-\frac{(\varepsilon ^ {(i)}) ^ {2}}{2\sigma ^ {2}})\p(y ^ {(i)}|x ^ {(i)};w) = \frac{1}{\sigma\sqrt{2\pi}}exp(-\frac{(y ^ {(i)} - w ^ {T}x ^ {(i)}) ^ {2}}{2\sigma ^ {2}})$
不能保证所有的预测跟真实值之间都是正确的，因为现实数据也有噪声。

1.1 why 所有的样本的权重值都是一样 ?

我们所有的样本的权重值都是一样。eg. 不管房间面积是什么，w都是统一的，也就是房的单价都是一样的。w下标没有i ，也是因为对所有样本都一样。

y_hat就是预测值，y是真实值。
每一个样本对应一个不同的误差, 对于每一个样本误差都是不同的。第一个样本的第一个特征，得到一个预测值。

1.2 why 每个样本的误差 $\varepsilon$ 是独立同分布的 ?

误差就是加上一个epsilon ，可能是正的，可能是负的，就是一个误差项。误差跟误差之间，都是独立的，每一个样本都是独立的。

eg. 预测房价的时候。一楼的房价与二楼的房价是没有关系的。

误差分布情况是独立的，进行的任务都是同一个任务，同一个任务带来的分布都是同分布的。

服从中心极限定理，指的是随机变量x之间独立同分布，那么这些变量求和就服从正态分布。
误差可能全都预测大吗？有比样本误差大，有比样本误差小的。
这样有多，有少，均值为0

sigma平方，爱是是多少多少。

2. 解释误差的正态分布的概率密度公式：

$p(\varepsilon ^ {(i)}) = \frac{1}{\sigma\sqrt{2\pi}}exp(-\frac{(\varepsilon ^ {(i)}) ^ {2}}{2\sigma ^ {2}})\p(y ^ {(i)}|x ^ {(i)};w) = \frac{1}{\sigma\sqrt{2\pi}}exp(-\frac{(y ^ {(i)} - w ^ {T}x ^ {(i)}) ^ {2}}{2\sigma ^ {2}})$

epsilon = 真实值yi - 预测值y_hat ( 也就是WtXi)，带入概率密度公式。
前面是exp，就是常数 e 2.7
epsilon的平方其实是epsilon - 0的平方，就是减去均值，因为均值为0，底下是2倍 sigma 的平方。
epsilon让它取值非常非常大，之前e的指数图像画过，右边上的越来越快。epsilon误差越来越大。
前面有负号。
exp指数图像就趋向于负的，exp越来越小，exp的负无穷，趋近于 0。准确值概率P越来越小。
epsilon误差不能出现负数，epsilon如果是0，e的0次方就是1，趋向于1

随着epsilon增长右边接近于0 变小。我们希望越小越好
那我们换一种方式表达:
在这里插入图片描述
根据

有

左边这块，怎么也变了？
不用纠结于符号，之所以可以变，意义相同

我们希望epsilon 越小越好，epsilon 越小，准确值概率P大
在这里插入图片描述
分号后面的w，表示以w作为参数，后面也有。
前面这个以 xi作为前提，获取yi的概率。

输入xi 输出yi的概率，只有epsilon误差越小越接近yi。如果误差为0 误差值就和真实值相等。

右侧完全相同，左侧表示 epsilon误差越小 p概率越大 yi ，实际值和预测值y_hat接近，
期望右边的越大，p概率越大，误差越小。
在这里插入图片描述
给定xi 期望得到 yi 实际值

epsilon越小 x(i)越接近实际值y(i)

2.1 解释刚才用到的中心极限定理（骰子）

eg. 举骰子的例子。1点到6点，呈均匀分布，这3个骰子都是同分布（均匀分布）。同时，3个骰子之间都是独立，那么这3个骰子点数相加的和服从正太分布。
3粒骰子求和可能取的值是3到18。3到18的分布就是正太分布。

骰子点数Why服从正太分布？
穷尽可能：
加入打出 3点三个骰子都是 1点，打出 18点三个骰子都是6点，这种组合少。
如果要想打出4点，这种组合就多了。
如果我们想打出5点，组合更多。
随着点数越来越多，到达中心越来越多，随后降下来。
总而言之，就是两边的可能性最小

在这里插入图片描述

2.2 证明中心极限定理（with codes）

注意：用python写也可以，但不如numpy，因为python不能矢量化计算。

取1到6的值，求和sum
最小的是3 到18之间不可能是0

最后画出图，也可以画直方图。BUT直方图是离散的。关于概率密度图，画连续的最好。所以可视化还是比较有意义的。

# 掷骰子 三粒 取值3-18# 中心极限定理
# 如果随机变量X (x1, x2, x3.......)是独立分布的，则变量之间的和是服从正太分布的import numpy as np
import pandas as pdresult = []
for i in range(10000):array = np.random.randint(1, 7, size=3)result.append(np.sum(array))s = pd.Series(result)
s.plot(kind='kde')