本文主要是介绍【机器学习基础】概率分布之变量,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
本系列为《模式识别与机器学习》的读书笔记。
一,二元变量
1,二项分布
考虑⼀个⼆元随机变量 x ∈ { 0 , 1 } x \in \{0, 1\} x∈{0,1}。 例如, x x x 可能描述了扔硬币的结果, x = 1 x = 1 x=1 表⽰“正⾯”, x = 0 x = 0 x=0 表⽰反⾯。我们可以假设有⼀个损坏的硬币,这枚硬币正⾯朝上的概率未必等于反⾯朝上的概率。 x = 1 x = 1 x=1 的概率被记作参数 μ \mu μ,因此有:
p ( x = 1 ∣ μ ) = μ (2.1) p(x=1|\mu) = \mu\tag{2.1} p(x=1∣μ)=μ(2.1)
其中 0 ≤ μ ≤ 1 0\le \mu\le 1 0≤μ≤1 。 x x x 的概率分布因此可以写成:
Bern ( x ∣ μ ) = μ x ( 1 − μ ) 1 − x (2.2) \text {Bern}(x|\mu) = \mu^{x}(1-\mu)^{1-x}\tag{2.2} Bern(x∣μ)=μx(1−μ)1−x(2.2)
这被叫做伯努利分布(Bernoulli distribution
)。容易证明,这个分布是归⼀化的,并且均值和⽅差分别为:
E [ x ] = μ (2.3) \mathbb{E}[x] = \mu\tag{2.3} E[x]=μ(2.3)
var [ x ] = μ ( 1 − μ ) (2.4) \text{var}[x] = \mu(1-\mu)\tag{2.4} var[x]=μ(1−μ)(2.4)
如图 2.1: ⼆项分布关于 m m m 的函数的直⽅图,其中 N = 10 N = 10 N=10 且 μ = 0.25 \mu = 0.25 μ=0.25。
假设我们有⼀个 x x x 的观测值的数据集 D = { x 1 , … , x N } \mathcal{D} = \{x_1 ,\dots, x_N\} D={x1,…,xN}。假设每次观测都是独⽴地从 p ( x ∣ μ ) p(x | \mu) p(x∣μ) 中抽取的,因此可以构造关于 μ \mu μ 的似然函数:
p ( D ∣ μ ) = ∏ n = 1 N p ( x n ∣ μ ) = ∏ n = 1 N μ x n ( 1 − μ ) 1 − x n (2.5) p(\mathcal{D}|\mu) = \prod_{n=1}^{N}p(x_{n}|\mu) = \prod_{n=1}^{N}\mu^{x_{n}}(1-\mu)^{1-x_{n}}\tag{2.5} p(D∣μ)=n=1∏Np(xn∣μ)=n=1∏Nμxn(1−μ)1−xn(2.5)
其对数似然函数:
ln p ( D ∣ μ ) = ∑ n = 1 N ln p ( x n ∣ μ ) = ∑ n = 1 N { x n ln μ + ( 1 − x n ) ln ( 1 − μ ) } (2.6) \ln p(\mathcal{D}|\mu) = \sum_{n=1}^{N}\ln p(x_{n}|\mu) = \sum_{n=1}^{N}\{ x^n \ln \mu + (1-x^n) \ln (1-\mu)\}\tag{2.6} lnp(D∣μ)=n=1∑Nlnp(xn∣μ)=n=1∑N{xnlnμ+(1−xn)ln(1−μ)}(2.6)
在公式(2.6)中,令 ln p ( D ∣ μ ) \ln p(\mathcal{D}|\mu) lnp(D∣μ) 关于 μ \mu μ 的导数等于零,就得到了最⼤似然的估计值,也被称为样本均值(sample mean
):
μ M L = 1 N ∑ n = 1 N x n (2.7) \mu_{ML} = \frac{1}{N} \sum_{n=1}^{N} x_{n}\tag{2.7} μML=N1n=1∑Nxn(2.7)
求解给定数据集规模 N
这篇关于【机器学习基础】概率分布之变量的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!