本文主要是介绍深入理解交叉熵损失 CrossEntropyLoss - 最大似然估计,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
深入理解交叉熵损失 CrossEntropyLoss - 最大似然估计
flyfish
下面有详细的例子和公式的说明。
最大似然估计的概念
最大似然估计是一种统计方法,用来估计模型参数,使得在这些参数下观测到的数据出现的概率(即似然)最大。
具体步骤
- 定义似然函数:
- 给定一个参数化的概率模型 P ( X ∣ θ ) P(X|\theta) P(X∣θ),其中 θ \theta θ 是模型的参数, X X X 是观测数据。
- 似然函数 L ( θ ∣ X ) L(\theta|X) L(θ∣X) 表示在参数 θ \theta θ 下,观测数据 X X X 出现的概率。
- 计算似然函数:
- 对于独立同分布的数据集 { x 1 , x 2 , … , x n } \{x_1, x_2, \ldots, x_n\} {x1,x2,…,xn},似然函数是各数据点概率的乘积:
L ( θ ∣ X ) = P ( X ∣ θ ) = ∏ i = 1 n P ( x i ∣ θ ) L(\theta | X) = P(X|\theta) = \prod_{i=1}^{n} P(x_i|\theta) L(θ∣X)=P(X∣θ)=∏i=1nP(xi∣θ)
- 取对数得到对数似然函数:
- 为了简化计算,通常取似然函数的对数,即对数似然函数:
log L ( θ ∣ X ) = ∑ i = 1 n log P ( x i ∣ θ ) \log L(\theta | X) = \sum_{i=1}^{n} \log P(x_i|\theta) logL(θ∣X)=∑i=1nlogP(xi∣θ)
- 最大化对数似然函数:
- 找到使对数似然函数最大的参数 θ \theta θ:
θ ^ = arg max θ log L ( θ ∣ X ) \hat{\theta} = \arg\max_{\theta} \log L(\theta | X) θ^=argmaxθlogL(θ∣X)
似然函数的定义
假设我们有一个概率模型 P ( X ∣ θ ) P(X|\theta) P(X∣θ),其中 θ \theta θ 是模型的参数, X X X 是观测数据。似然函数 L ( θ ∣ X ) L(\theta | X) L(θ∣X) 表示在参数 θ \theta θ 下,观测数据 X X X 出现的概率。
对于独立同分布的数据
如果我们有独立同分布的数据集 { x 1 , x 2 , … , x n } \{x_1, x_2, \ldots, x_n\} {x1,x2,…,xn},似然函数是各数据点概率的乘积:
L ( θ ∣ X ) = P ( X ∣ θ ) = ∏ i = 1 n P ( x i ∣ θ ) L(\theta | X) = P(X|\theta) = \prod_{i=1}^{n} P(x_i|\theta) L(θ∣X)=P(X∣θ)=∏i=1nP(xi∣θ)
公式拆解
- L ( θ ∣ X ) L(\theta | X) L(θ∣X):似然函数,表示参数 θ \theta θ 给定的情况下,观测数据 X X X 出现的概率。
- θ \theta θ:模型参数,我们希望估计的未知量。
- X X X:观测数据的集合。
- { x 1 , x 2 , … , x n } \{x_1, x_2, \ldots, x_n\} {x1,x2,…,xn}:独立同分布的观测数据点。
- P ( X ∣ θ ) P(X|\theta) P(X∣θ):观测数据 X X X 在参数 θ \theta θ 下的联合概率。
- ∏ i = 1 n \prod_{i=1}^{n} ∏i=1n:从 1 到 n n n 的乘积符号,表示对所有数据点的概率进行乘积。
- P ( x i ∣ θ ) P(x_i|\theta) P(xi∣θ):单个数据点 x i x_i xi 在参数 θ \theta θ 下的概率。
对数似然函数
为了简化计算,通常我们对似然函数取对数,得到对数似然函数:
log L ( θ ∣ X ) = ∑ i = 1 n log P ( x i ∣ θ ) \log L(\theta | X) = \sum_{i=1}^{n} \log P(x_i|\theta) logL(θ∣X)=∑i=1nlogP(xi∣θ)
公式拆解
- log L ( θ ∣ X ) \log L(\theta | X) logL(θ∣X):对数似然函数。
- ∑ i = 1 n \sum_{i=1}^{n} ∑i=1n:从 1 到 n n n 的求和符号,表示对所有数据点的对数概率求和。
- log P ( x i ∣ θ ) \log P(x_i|\theta) logP(xi∣θ):单个数据点 x i x_i xi 在参数 θ \theta θ 下的对数概率。
举例说明:投掷硬币
假设我们投掷硬币10次,结果是6次正面朝上,我们希望估计硬币正面朝上的概率 p p p。
定义似然函数
对于二项分布,似然函数为:
L ( p ∣ X ) = ( 10 6 ) p 6 ( 1 − p ) 4 L(p | X) = \binom{10}{6} p^6 (1-p)^4 L(p∣X)=(610)p6(1−p)4
公式拆解
- L ( p ∣ X ) L(p | X) L(p∣X):似然函数,表示在正面概率为 p p p 的情况下,观测到6次正面和4次反面的概率。
- ( 10 6 ) \binom{10}{6} (610):组合数,表示从10次投掷中选择6次正面的组合数。
- p 6 p^6 p6:正面出现6次的概率。
- ( 1 − p ) 4 (1-p)^4 (1−p)4:反面出现4次的概率。
对数似然函数
对似然函数取对数:
log L ( p ∣ X ) = log ( ( 10 6 ) ) + 6 log ( p ) + 4 log ( 1 − p ) \log L(p | X) = \log \left( \binom{10}{6} \right) + 6 \log(p) + 4 \log(1-p) logL(p∣X)=log((610))+6log(p)+4log(1−p)
最大化对数似然函数
通过求导数并设为0,可以找到使对数似然函数最大的参数 p p p:
d d p log L ( p ∣ X ) = 6 p − 4 1 − p = 0 \frac{d}{dp} \log L(p | X) = \frac{6}{p} - \frac{4}{1-p} = 0 dpdlogL(p∣X)=p6−1−p4=0
解这个方程得到:
6 p = 4 1 − p \frac{6}{p} = \frac{4}{1-p} p6=1−p4
6 ( 1 − p ) = 4 p 6(1-p) = 4p 6(1−p)=4p
6 − 6 p = 4 p 6 - 6p = 4p 6−6p=4p
6 = 10 p 6 = 10p 6=10p
p = 6 10 = 0.6 p = \frac{6}{10} = 0.6 p=106=0.6
代码
import numpy as np
from scipy.optimize import minimize# 定义对数似然函数,加入小偏移量避免除零错误
def log_likelihood(p, data, epsilon=1e-10):n = len(data)k = np.sum(data)p = np.clip(p, epsilon, 1 - epsilon) # 确保 p 在 (epsilon, 1 - epsilon) 之间return -(k * np.log(p) + (n - k) * np.log(1 - p))# 模拟数据:10次投掷,6次正面朝上
data = [1] * 6 + [0] * 4# 最大化对数似然函数
result = minimize(log_likelihood, x0=[0.5], args=(data), bounds=[(0, 1)])
p_hat = result.x[0]
print(f'Estimated probability of heads: {p_hat}')
Estimated probability of heads: 0.5999999961321424
最大化对数似然函数与最小化负对数似然函数在本质上是一样的。它们都是为了找到模型参数,使得观测数据在模型下的概率最大化。让我们详细解释一下这个关系。
对数似然函数
首先,我们有似然函数 L ( θ ∣ X ) L(\theta | X) L(θ∣X),表示在参数 θ \theta θ 下,观测数据 X X X 出现的概率。为了简化计算,通常我们对似然函数取对数,得到对数似然函数:
log L ( θ ∣ X ) \log L(\theta | X) logL(θ∣X)
最大化对数似然函数就是找到参数 θ \theta θ,使得 log L ( θ ∣ X ) \log L(\theta | X) logL(θ∣X) 最大化:
θ ^ = arg max θ log L ( θ ∣ X ) \hat{\theta} = \arg\max_{\theta} \log L(\theta | X) θ^=argθmaxlogL(θ∣X)
负对数似然函数
负对数似然函数是对数似然函数取负号:
− log L ( θ ∣ X ) -\log L(\theta | X) −logL(θ∣X)
最小化负对数似然函数就是找到参数 θ \theta θ,使得 − log L ( θ ∣ X ) -\log L(\theta | X) −logL(θ∣X) 最小化:
θ ^ = arg min θ − log L ( θ ∣ X ) \hat{\theta} = \arg\min_{\theta} -\log L(\theta | X) θ^=argθmin−logL(θ∣X)
等价关系
最大化对数似然函数和最小化负对数似然函数在数学上是等价的。因为一个数的负数和这个数的大小关系相反,所以在求极值时:
arg max θ log L ( θ ∣ X ) = arg min θ − log L ( θ ∣ X ) \arg\max_{\theta} \log L(\theta | X) = \arg\min_{\theta} -\log L(\theta | X) argmaxθlogL(θ∣X)=argminθ−logL(θ∣X)
例子:投掷硬币
假设我们有10次投掷硬币的结果,6次正面朝上,我们希望估计正面朝上的概率 p p p。
-
对数似然函数:
log L ( p ∣ X ) = log ( ( 10 6 ) ) + 6 log ( p ) + 4 log ( 1 − p ) \log L(p | X) = \log \left( \binom{10}{6} \right) + 6 \log(p) + 4 \log(1-p) logL(p∣X)=log((610))+6log(p)+4log(1−p) -
最大化对数似然函数:
p ^ = arg max p [ log ( ( 10 6 ) ) + 6 log ( p ) + 4 log ( 1 − p ) ] \hat{p} = \arg\max_{p} \left[ \log \left( \binom{10}{6} \right) + 6 \log(p) + 4 \log(1-p) \right] p^=argpmax[log((610))+6log(p)+4log(1−p)]
- 负对数似然函数:
− log L ( p ∣ X ) = − log ( ( 10 6 ) ) − 6 log ( p ) − 4 log ( 1 − p ) -\log L(p | X) = -\log \left( \binom{10}{6} \right) - 6 \log(p) - 4 \log(1-p) −logL(p∣X)=−log((610))−6log(p)−4log(1−p) - 最小化负对数似然函数:
p ^ = arg min p [ − log ( ( 10 6 ) ) − 6 log ( p ) − 4 log ( 1 − p ) ] \hat{p} = \arg\min_{p} \left[ -\log \left( \binom{10}{6} \right) - 6 \log(p) - 4 \log(1-p) \right] p^=argpmin[−log((610))−6log(p)−4log(1−p)]
这篇关于深入理解交叉熵损失 CrossEntropyLoss - 最大似然估计的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!