神经网络数学基础-香浓信息量、信息熵、交叉熵、相对熵(KL散度)

本文主要是介绍神经网络数学基础-香浓信息量、信息熵、交叉熵、相对熵(KL散度),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

香浓信息量

这里以连续随机变量的情况为例。设 p 为随机变量X的概率分布,即 p(x) 为随机变量 XX=x 处的概率密度函数值,随机变量 Xx 处的香农信息量定义为:

-log_2p(x)=log_2\frac{1}{p(x)}

这时香农信息量的单位为比特,香农信息量用于刻画消除随机变量在处的不确定性所需的信息量的大小

如果非连续型随机变量,则为某一具体随机事件的概率。

为什么是这么一个表达式呢?想具体了解的可以参考如下的讨论:

知乎-香农的信息论究竟牛在哪里?

香农信息量_weixinhum-CSDN博客

 

信息熵

由香农信息量可以知,对于一个已知概率的事件,需要多少的数据量能完整地把它表达清楚。

信息熵则刻画的是,对于整个系统而言,表达系统整体所需要的信息量。比如,dddLdddYdddXddd 这段字母,虽然 L、Y 和 X 的香农信息量比较大,但他们出现的次数明显要比 d 少很多,因此需要信息熵来评估整体系统的信息量。

信息熵=事件香农信息量×事件概率

对于连续随机变量,信息熵 H(p) 可表示为:

H(p)=-\int p(x)\log p(x)dx

对于离散随机变量,信息熵 H(p) 可表示为:

H(p)=-\sum_{i=1}^n p(x)\log p(x)

注意:前面在说明的时候 log 是以 2 为底的,但是一般情况下在神经网络中,默认以指数 e 为底,这样算出来的香农信息量虽然不是最小的可用于完整表示事件的比特数,但对于信息熵的含义来说是区别不大的。其实只要这个底数是大于 1 的,都能用来表达信息熵的大小。

举例如下:

zbbbb 的信息熵为:

zrcdf  的信息熵为:

计算所得第二个值较大,即信息量较大,显然观察 zrcdf 的信息量会大于 zbbbb 的信息量,计算符合观察。

 

交叉熵

假设 \widetilde{p}(x) 是用来拟合 p(x) 的概率分布,x 属于 p 的样本空间,交叉熵用于衡量 \widetilde{p} 在拟合 p 的过程中,用于消除不确定性而充分使用的信息量大小。

注意:理解为衡量 \widetilde{p} 为了拟合 p 所付出的努力。

另外,交叉熵定义里的 “充分使用” 和信息熵定义里的 “所需”的区别,“充分使用” 不一定能达到全部,“所需” 是指全部。

由于在每一个点 X=x\widetilde{p} 的香农信息量为 -log_2\widetilde{p}(x),也就是在点 X=x 处,\widetilde{p} 消除不确定性而充分使用的信息量为-log_2\widetilde{p}(x)

注意:理解为衡量 \widetilde{p}X=x 处为了拟合p所作的努力),那么就可以计算出在整个样本空间上 \widetilde{p} 消除不确定性而充分使用的总体信息量,即 -log_2\widetilde{p}(x) 的数学期望,由于每个 x 的权重为 p(x),因此交叉熵 H(p,\widetilde{p}) 为:

H(p,\widetilde{p})=-\int p(x)\log \widetilde{p}(x)dx

 

相对熵、KL 散度

又被称为 KL 散度或信息散度,是两个概率分布间差异的非对称性度量 。

在信息论中,相对熵等价于两个概率分布的信息熵的差值,若其中一个概率分布为真实分布,另一个为理论(拟合)分布,则此时相对熵等于交叉熵与真实分布的信息熵之差,表示使用理论分布拟合真实分布时产生的信息损耗 。

相对熵的定义为:

D_{KL}(p||\widetilde{p})=\sum_{i=1}^n[p(x_i)\log p(x_i)-p(x_i)\log \widetilde{p}(x_i)]=\sum_{i=1}^n[p(x_i)\log \frac{p(x_i)}{\widetilde{p}(x_i)}]

其中,p 为真实概率分布,\widetilde{p} 为预测概率分布

该公式的字面上含义就是:真实事件信息熵拟合事件香农信息量与真实事件概率的乘积 的差的累加。

当预测的概率分布于真实事件的概率分布相似时,KL 散度的绝对值就会比较小;反之,变大。

 

相对熵是不对称的。

但为什么有缺点,深度学习还要用 KL 散度呢?参考博客:

https://blog.csdn.net/weixinhum/article/details/85064685

 

这篇关于神经网络数学基础-香浓信息量、信息熵、交叉熵、相对熵(KL散度)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/692319

相关文章

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

uva 10014 Simple calculations(数学推导)

直接按照题意来推导最后的结果就行了。 开始的时候只做到了第一个推导,第二次没有继续下去。 代码: #include<stdio.h>int main(){int T, n, i;double a, aa, sum, temp, ans;scanf("%d", &T);while(T--){scanf("%d", &n);scanf("%lf", &first);scanf

uva 10025 The ? 1 ? 2 ? ... ? n = k problem(数学)

题意是    ?  1  ?  2  ?  ...  ?  n = k 式子中给k,? 处可以填 + 也可以填 - ,问最小满足条件的n。 e.g k = 12  - 1 + 2 + 3 + 4 + 5 + 6 - 7 = 12 with n = 7。 先给证明,令 S(n) = 1 + 2 + 3 + 4 + 5 + .... + n 暴搜n,搜出当 S(n) >=

uva 11044 Searching for Nessy(小学数学)

题意是给出一个n*m的格子,求出里面有多少个不重合的九宫格。 (rows / 3) * (columns / 3) K.o 代码: #include <stdio.h>int main(){int ncase;scanf("%d", &ncase);while (ncase--){int rows, columns;scanf("%d%d", &rows, &col

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言

【Linux 从基础到进阶】Ansible自动化运维工具使用

Ansible自动化运维工具使用 Ansible 是一款开源的自动化运维工具,采用无代理架构(agentless),基于 SSH 连接进行管理,具有简单易用、灵活强大、可扩展性高等特点。它广泛用于服务器管理、应用部署、配置管理等任务。本文将介绍 Ansible 的安装、基本使用方法及一些实际运维场景中的应用,旨在帮助运维人员快速上手并熟练运用 Ansible。 1. Ansible的核心概念

AI基础 L9 Local Search II 局部搜索

Local Beam search 对于当前的所有k个状态,生成它们的所有可能后继状态。 检查生成的后继状态中是否有任何状态是解决方案。 如果所有后继状态都不是解决方案,则从所有后继状态中选择k个最佳状态。 当达到预设的迭代次数或满足某个终止条件时,算法停止。 — Choose k successors randomly, biased towards good ones — Close

数学建模笔记—— 非线性规划

数学建模笔记—— 非线性规划 非线性规划1. 模型原理1.1 非线性规划的标准型1.2 非线性规划求解的Matlab函数 2. 典型例题3. matlab代码求解3.1 例1 一个简单示例3.2 例2 选址问题1. 第一问 线性规划2. 第二问 非线性规划 非线性规划 非线性规划是一种求解目标函数或约束条件中有一个或几个非线性函数的最优化问题的方法。运筹学的一个重要分支。2

音视频入门基础:WAV专题(10)——FFmpeg源码中计算WAV音频文件每个packet的pts、dts的实现

一、引言 从文章《音视频入门基础:WAV专题(6)——通过FFprobe显示WAV音频文件每个数据包的信息》中我们可以知道,通过FFprobe命令可以打印WAV音频文件每个packet(也称为数据包或多媒体包)的信息,这些信息包含该packet的pts、dts: 打印出来的“pts”实际是AVPacket结构体中的成员变量pts,是以AVStream->time_base为单位的显