深入理解交叉熵损失 CrossEntropyLoss - 最大似然估计

2024-06-10 07:44

本文主要是介绍深入理解交叉熵损失 CrossEntropyLoss - 最大似然估计,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

深入理解交叉熵损失 CrossEntropyLoss - 最大似然估计

flyfish

下面有详细的例子和公式的说明。

最大似然估计的概念

最大似然估计是一种统计方法,用来估计模型参数,使得在这些参数下观测到的数据出现的概率(即似然)最大。

具体步骤

  1. 定义似然函数
  • 给定一个参数化的概率模型 P ( X ∣ θ ) P(X|\theta) P(Xθ),其中 θ \theta θ 是模型的参数, X X X 是观测数据。
  • 似然函数 L ( θ ∣ X ) L(\theta|X) L(θX) 表示在参数 θ \theta θ 下,观测数据 X X X 出现的概率。
  1. 计算似然函数
  • 对于独立同分布的数据集 { x 1 , x 2 , … , x n } \{x_1, x_2, \ldots, x_n\} {x1,x2,,xn},似然函数是各数据点概率的乘积:
    L ( θ ∣ X ) = P ( X ∣ θ ) = ∏ i = 1 n P ( x i ∣ θ ) L(\theta | X) = P(X|\theta) = \prod_{i=1}^{n} P(x_i|\theta) L(θX)=P(Xθ)=i=1nP(xiθ)
  1. 取对数得到对数似然函数
  • 为了简化计算,通常取似然函数的对数,即对数似然函数:
    log ⁡ L ( θ ∣ X ) = ∑ i = 1 n log ⁡ P ( x i ∣ θ ) \log L(\theta | X) = \sum_{i=1}^{n} \log P(x_i|\theta) logL(θX)=i=1nlogP(xiθ)
  1. 最大化对数似然函数
  • 找到使对数似然函数最大的参数 θ \theta θ
    θ ^ = arg ⁡ max ⁡ θ log ⁡ L ( θ ∣ X ) \hat{\theta} = \arg\max_{\theta} \log L(\theta | X) θ^=argmaxθlogL(θX)

似然函数的定义

假设我们有一个概率模型 P ( X ∣ θ ) P(X|\theta) P(Xθ),其中 θ \theta θ 是模型的参数, X X X 是观测数据。似然函数 L ( θ ∣ X ) L(\theta | X) L(θX) 表示在参数 θ \theta θ 下,观测数据 X X X 出现的概率。

对于独立同分布的数据

如果我们有独立同分布的数据集 { x 1 , x 2 , … , x n } \{x_1, x_2, \ldots, x_n\} {x1,x2,,xn},似然函数是各数据点概率的乘积:

L ( θ ∣ X ) = P ( X ∣ θ ) = ∏ i = 1 n P ( x i ∣ θ ) L(\theta | X) = P(X|\theta) = \prod_{i=1}^{n} P(x_i|\theta) L(θX)=P(Xθ)=i=1nP(xiθ)

公式拆解
  • L ( θ ∣ X ) L(\theta | X) L(θX):似然函数,表示参数 θ \theta θ 给定的情况下,观测数据 X X X 出现的概率。
  • θ \theta θ:模型参数,我们希望估计的未知量。
  • X X X:观测数据的集合。
  • { x 1 , x 2 , … , x n } \{x_1, x_2, \ldots, x_n\} {x1,x2,,xn}:独立同分布的观测数据点。
  • P ( X ∣ θ ) P(X|\theta) P(Xθ):观测数据 X X X 在参数 θ \theta θ 下的联合概率。
  • ∏ i = 1 n \prod_{i=1}^{n} i=1n:从 1 到 n n n 的乘积符号,表示对所有数据点的概率进行乘积。
  • P ( x i ∣ θ ) P(x_i|\theta) P(xiθ):单个数据点 x i x_i xi 在参数 θ \theta θ 下的概率。

对数似然函数

为了简化计算,通常我们对似然函数取对数,得到对数似然函数:

log ⁡ L ( θ ∣ X ) = ∑ i = 1 n log ⁡ P ( x i ∣ θ ) \log L(\theta | X) = \sum_{i=1}^{n} \log P(x_i|\theta) logL(θX)=i=1nlogP(xiθ)

公式拆解
  • log ⁡ L ( θ ∣ X ) \log L(\theta | X) logL(θX):对数似然函数。
  • ∑ i = 1 n \sum_{i=1}^{n} i=1n:从 1 到 n n n 的求和符号,表示对所有数据点的对数概率求和。
  • log ⁡ P ( x i ∣ θ ) \log P(x_i|\theta) logP(xiθ):单个数据点 x i x_i xi 在参数 θ \theta θ 下的对数概率。

举例说明:投掷硬币

假设我们投掷硬币10次,结果是6次正面朝上,我们希望估计硬币正面朝上的概率 p p p

定义似然函数

对于二项分布,似然函数为:

L ( p ∣ X ) = ( 10 6 ) p 6 ( 1 − p ) 4 L(p | X) = \binom{10}{6} p^6 (1-p)^4 L(pX)=(610)p6(1p)4

公式拆解
  • L ( p ∣ X ) L(p | X) L(pX):似然函数,表示在正面概率为 p p p 的情况下,观测到6次正面和4次反面的概率。
  • ( 10 6 ) \binom{10}{6} (610):组合数,表示从10次投掷中选择6次正面的组合数。
  • p 6 p^6 p6:正面出现6次的概率。
  • ( 1 − p ) 4 (1-p)^4 (1p)4:反面出现4次的概率。
对数似然函数

对似然函数取对数:

log ⁡ L ( p ∣ X ) = log ⁡ ( ( 10 6 ) ) + 6 log ⁡ ( p ) + 4 log ⁡ ( 1 − p ) \log L(p | X) = \log \left( \binom{10}{6} \right) + 6 \log(p) + 4 \log(1-p) logL(pX)=log((610))+6log(p)+4log(1p)

最大化对数似然函数

通过求导数并设为0,可以找到使对数似然函数最大的参数 p p p

d d p log ⁡ L ( p ∣ X ) = 6 p − 4 1 − p = 0 \frac{d}{dp} \log L(p | X) = \frac{6}{p} - \frac{4}{1-p} = 0 dpdlogL(pX)=p61p4=0

解这个方程得到:

6 p = 4 1 − p \frac{6}{p} = \frac{4}{1-p} p6=1p4
6 ( 1 − p ) = 4 p 6(1-p) = 4p 6(1p)=4p
6 − 6 p = 4 p 6 - 6p = 4p 66p=4p
6 = 10 p 6 = 10p 6=10p
p = 6 10 = 0.6 p = \frac{6}{10} = 0.6 p=106=0.6

代码

import numpy as np
from scipy.optimize import minimize# 定义对数似然函数,加入小偏移量避免除零错误
def log_likelihood(p, data, epsilon=1e-10):n = len(data)k = np.sum(data)p = np.clip(p, epsilon, 1 - epsilon)  # 确保 p 在 (epsilon, 1 - epsilon) 之间return -(k * np.log(p) + (n - k) * np.log(1 - p))# 模拟数据:10次投掷,6次正面朝上
data = [1] * 6 + [0] * 4# 最大化对数似然函数
result = minimize(log_likelihood, x0=[0.5], args=(data), bounds=[(0, 1)])
p_hat = result.x[0]
print(f'Estimated probability of heads: {p_hat}')
Estimated probability of heads: 0.5999999961321424

最大化对数似然函数与最小化负对数似然函数在本质上是一样的。它们都是为了找到模型参数,使得观测数据在模型下的概率最大化。让我们详细解释一下这个关系。

对数似然函数

首先,我们有似然函数 L ( θ ∣ X ) L(\theta | X) L(θX),表示在参数 θ \theta θ 下,观测数据 X X X 出现的概率。为了简化计算,通常我们对似然函数取对数,得到对数似然函数:

log ⁡ L ( θ ∣ X ) \log L(\theta | X) logL(θX)

最大化对数似然函数就是找到参数 θ \theta θ,使得 log ⁡ L ( θ ∣ X ) \log L(\theta | X) logL(θX) 最大化:

θ ^ = arg ⁡ max ⁡ θ log ⁡ L ( θ ∣ X ) \hat{\theta} = \arg\max_{\theta} \log L(\theta | X) θ^=argθmaxlogL(θX)

负对数似然函数

负对数似然函数是对数似然函数取负号:

− log ⁡ L ( θ ∣ X ) -\log L(\theta | X) logL(θX)

最小化负对数似然函数就是找到参数 θ \theta θ,使得 − log ⁡ L ( θ ∣ X ) -\log L(\theta | X) logL(θX) 最小化:

θ ^ = arg ⁡ min ⁡ θ − log ⁡ L ( θ ∣ X ) \hat{\theta} = \arg\min_{\theta} -\log L(\theta | X) θ^=argθminlogL(θX)

等价关系

最大化对数似然函数和最小化负对数似然函数在数学上是等价的。因为一个数的负数和这个数的大小关系相反,所以在求极值时:

arg ⁡ max ⁡ θ log ⁡ L ( θ ∣ X ) = arg ⁡ min ⁡ θ − log ⁡ L ( θ ∣ X ) \arg\max_{\theta} \log L(\theta | X) = \arg\min_{\theta} -\log L(\theta | X) argmaxθlogL(θX)=argminθlogL(θX)

例子:投掷硬币

假设我们有10次投掷硬币的结果,6次正面朝上,我们希望估计正面朝上的概率 p p p

  1. 对数似然函数
    log ⁡ L ( p ∣ X ) = log ⁡ ( ( 10 6 ) ) + 6 log ⁡ ( p ) + 4 log ⁡ ( 1 − p ) \log L(p | X) = \log \left( \binom{10}{6} \right) + 6 \log(p) + 4 \log(1-p) logL(pX)=log((610))+6log(p)+4log(1p)

  2. 最大化对数似然函数

p ^ = arg ⁡ max ⁡ p [ log ⁡ ( ( 10 6 ) ) + 6 log ⁡ ( p ) + 4 log ⁡ ( 1 − p ) ] \hat{p} = \arg\max_{p} \left[ \log \left( \binom{10}{6} \right) + 6 \log(p) + 4 \log(1-p) \right] p^=argpmax[log((610))+6log(p)+4log(1p)]

  1. 负对数似然函数
    − log ⁡ L ( p ∣ X ) = − log ⁡ ( ( 10 6 ) ) − 6 log ⁡ ( p ) − 4 log ⁡ ( 1 − p ) -\log L(p | X) = -\log \left( \binom{10}{6} \right) - 6 \log(p) - 4 \log(1-p) logL(pX)=log((610))6log(p)4log(1p)
  2. 最小化负对数似然函数

p ^ = arg ⁡ min ⁡ p [ − log ⁡ ( ( 10 6 ) ) − 6 log ⁡ ( p ) − 4 log ⁡ ( 1 − p ) ] \hat{p} = \arg\min_{p} \left[ -\log \left( \binom{10}{6} \right) - 6 \log(p) - 4 \log(1-p) \right] p^=argpmin[log((610))6log(p)4log(1p)]

这篇关于深入理解交叉熵损失 CrossEntropyLoss - 最大似然估计的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1047562

相关文章

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

认识、理解、分类——acm之搜索

普通搜索方法有两种:1、广度优先搜索;2、深度优先搜索; 更多搜索方法: 3、双向广度优先搜索; 4、启发式搜索(包括A*算法等); 搜索通常会用到的知识点:状态压缩(位压缩,利用hash思想压缩)。

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言

poj 3723 kruscal,反边取最大生成树。

题意: 需要征募女兵N人,男兵M人。 每征募一个人需要花费10000美元,但是如果已经招募的人中有一些关系亲密的人,那么可以少花一些钱。 给出若干的男女之间的1~9999之间的亲密关系度,征募某个人的费用是10000 - (已经征募的人中和自己的亲密度的最大值)。 要求通过适当的招募顺序使得征募所有人的费用最小。 解析: 先设想无向图,在征募某个人a时,如果使用了a和b之间的关系

poj 3258 二分最小值最大

题意: 有一些石头排成一条线,第一个和最后一个不能去掉。 其余的共可以去掉m块,要使去掉后石头间距的最小值最大。 解析: 二分石头,最小值最大。 代码: #include <iostream>#include <cstdio>#include <cstdlib>#include <algorithm>#include <cstring>#include <c

poj 2175 最小费用最大流TLE

题意: 一条街上有n个大楼,坐标为xi,yi,bi个人在里面工作。 然后防空洞的坐标为pj,qj,可以容纳cj个人。 从大楼i中的人到防空洞j去避难所需的时间为 abs(xi - pi) + (yi - qi) + 1。 现在设计了一个避难计划,指定从大楼i到防空洞j避难的人数 eij。 判断如果按照原计划进行,所有人避难所用的时间总和是不是最小的。 若是,输出“OPETIMAL",若

poj 2135 有流量限制的最小费用最大流

题意: 农场里有n块地,其中约翰的家在1号地,二n号地有个很大的仓库。 农场有M条道路(双向),道路i连接着ai号地和bi号地,长度为ci。 约翰希望按照从家里出发,经过若干块地后到达仓库,然后再返回家中的顺序带朋友参观。 如果要求往返不能经过同一条路两次,求参观路线总长度的最小值。 解析: 如果只考虑去或者回的情况,问题只不过是无向图中两点之间的最短路问题。 但是现在要去要回

poj 2594 二分图最大独立集

题意: 求一张图的最大独立集,这题不同的地方在于,间接相邻的点也可以有一条边,所以用floyd来把间接相邻的边也连起来。 代码: #include <iostream>#include <cstdio>#include <cstdlib>#include <algorithm>#include <cstring>#include <cmath>#include <sta

【C++高阶】C++类型转换全攻略:深入理解并高效应用

📝个人主页🌹:Eternity._ ⏩收录专栏⏪:C++ “ 登神长阶 ” 🤡往期回顾🤡:C++ 智能指针 🌹🌹期待您的关注 🌹🌹 ❀C++的类型转换 📒1. C语言中的类型转换📚2. C++强制类型转换⛰️static_cast🌞reinterpret_cast⭐const_cast🍁dynamic_cast 📜3. C++强制类型转换的原因📝