有关熵、相对熵(KL散度)、交叉熵、JS散度、Wasserstein距离的内容

2023-11-08 12:30

本文主要是介绍有关熵、相对熵(KL散度)、交叉熵、JS散度、Wasserstein距离的内容,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

写在前面

  • 最近学了一些关于熵的内容,为增强自己对这些内容的理解,方便自己以后能够温习,随手记录了相关的介绍,可能有不对的地方,敬请谅解。

信息量

  • 任何事件都会承载一定的信息,事件发生的概率越大,其含有的信息量越少,事件发生的概率越小,其含有的信息量越多。比如昨天下雨了,是一个既定的事实,所以其信息量为0,天气预报说明天会下雨,是一个概率事件,其信息量相对较大。

  • 假设 X X X是一个离散型随机变量, p ( X = x 0 ) p(X=x_0) p(X=x0)表示随机变量取值为 x 0 x_0 x0的概率,那么 X = x 0 X=x_0 X=x0的信息量的计算公式:
    I ( x 0 ) = − log ⁡ ( p ( x 0 ) ) I(x_0) = -\log(p(x_0)) I(x0)=log(p(x0))

  • 熵描述的是随机变量不确定性的程度。

  • 假设随机变量 X X X n n n个取值, X X X取值为 x i x_i xi时的概率为 p ( x i ) p(x_i) p(xi),计算公式为:
    H ( X ) = − ∑ i = 0 n p ( x i ) log ⁡ ( p ( x i ) ) H(X) = -\sum_{i=0}^{n}p(x_i)\log(p(x_i)) H(X)=i=0np(xi)log(p(xi))

相对熵(KL散度)

  • 相对熵用于描述同一个变量在两个独立的概率分布之间的差异。

  • 假设 P P P表示真实分布, Q Q Q表示模型通过学习得到的预测分布,也称拟合分布。那么用 K L KL KL散度定义两个分布之间的差异:

    • P P P相对于 Q Q Q称为前向散度(常用于机器学习领域):
      D K L ( p ∣ ∣ q ) = E p ( log ⁡ ( p q ) ) = ∑ i = 0 n p ( x i ) log ⁡ ( p ( x i ) q ( x i ) ) D_{KL}(p||q) = E_p(\log(\frac{p}{q})) =\sum_{i=0}^n p(x_i) \log(\frac{p(x_i)}{q(x_i)}) DKL(p∣∣q)=Ep(log(qp))=i=0np(xi)log(q(xi)p(xi))

    • Q Q Q相对于 P P P称为反向散度(常用于强化学习邻域):
      D K L ( q ∣ ∣ p ) = E q ( log ⁡ ( q p ) ) = ∑ i = 0 n q ( x i ) log ⁡ ( q ( x i ) p ( x i ) ) D_{KL}(q||p) = E_q(\log(\frac{q}{p})) =\sum_{i=0}^n q(x_i) \log(\frac{q(x_i)}{p(x_i)}) DKL(q∣∣p)=Eq(log(pq))=i=0nq(xi)log(p(xi)q(xi))

    • 注意:上述公式,分子是哪个分布,计算KL散度参考的就是哪个分布,比如前向散度中, P P P就是参考分布,也称真实分布,而 Q Q Q就是近似分布,也称理论分布。在计算KL散度时,使用的是基于参考分布中的随机变量,也就是在计算时,我们使用的是参考分布中每个随机变量的概率值,以及近似分布中相应变量的概率值

  • 当分布 Q Q Q和分布 P P P越接近,说明这两个分布越相似,那么 K L KL KL散度值越小。

  • 由于通常情况下, D K L ( p ∣ ∣ q ) D_{KL}(p||q) DKL(p∣∣q) D K L ( q ∣ ∣ p ) D_{KL}(q||p) DKL(q∣∣p)不相等,所以KL散度不满足对称性。同时也不满足三角不等式

交叉熵

  • K L KL KL散度公式变形:
    D K L ( p ∣ ∣ q ) = ∑ i = 0 n p ( x i ) log ⁡ ( p ( x i ) ) − ∑ i = 0 n p ( x i ) log ⁡ ( q ( x i ) ) D_{KL}(p||q) = \sum_{i=0}^np(x_i)\log(p(x_i)) - \sum_{i=0}^np(x_i)\log(q(x_i)) DKL(p∣∣q)=i=0np(xi)log(p(xi))i=0np(xi)log(q(xi))

  • 上面等式中的 − ∑ i = 0 n p ( x i ) log ⁡ ( q ( x i ) ) - \sum_{i=0}^np(x_i)\log(q(x_i)) i=0np(xi)log(q(xi))就是交叉熵 H ( p , q ) H(p,q) H(p,q)

  • P P P的熵为:
    H ( p ) = − ∑ i = 0 n p ( x i ) log ⁡ ( p ( x i ) ) H(p) = -\sum_{i=0}^np(x_i)\log(p(x_i)) H(p)=i=0np(xi)log(p(xi))

  • 如果真实分布 P P P不变,那么 H ( p ) H(p) H(p)就是一个常数,所以在训练模型时,我们只需要关注交叉熵,最小化交叉熵的值。
    H ( p , q ) = − ∑ i = 0 n p ( x i ) log ⁡ ( q ( x i ) ) H(p,q) =- \sum_{i=0}^np(x_i)\log(q(x_i)) H(p,q)=i=0np(xi)log(q(xi))

JS散度

  • JS散度描述的是两个分布的相似程度。

  • 对于概率分布 P P P Q Q Q,js散度的计算公式如下:
    J S ( P ∣ ∣ Q ) = 1 2 D K L ( P ∣ ∣ M ) + 1 2 D K L ( Q ∣ ∣ M ) JS(P||Q) = \frac{1}{2}D_{KL}(P||M) + \frac{1}{2}D_{KL}(Q||M) JS(P∣∣Q)=21DKL(P∣∣M)+21DKL(Q∣∣M)

  • 其中 M M M P P P Q Q Q的平均分布。平均分布的计算过程如下:

    • 对于同一个事件 i i i,假设事件 i i i P P P中发生的概率为 P ( i ) P(i) P(i),在 Q Q Q中发生的概率为 Q ( i ) Q(i) Q(i),那么事件 i i i M M M中发生的概率为:
      M ( i ) = P ( i ) + Q ( i ) 2 M(i) = \frac{P(i) + Q(i)}{2} M(i)=2P(i)+Q(i)

    • 注意:当两个分布不存在重叠部分时,计算它们的平均分布没有意义,因为事件 i i i P P P中发生,在 Q Q Q中却不发生。这里说的重叠是指 P P P Q Q Q的支撑集不相交,简单来说,就是 P P P Q Q Q的随机变量的取值集合没有交集。

  • 如果 P P P Q Q Q的分布不重叠,那么计算得到的JS散度是一个常数。(个人解释如下,不完全正确,仅供参考)

    • 如果 P P P Q Q Q的分布不重叠,根据KL散度的定义可知,在计算KL散度时,会基于参考分布的随机变量来计算,那么由此计算得到的 M M M会是相应分布的 1 2 \frac{1}{2} 21。进而 D K L ( P ∣ ∣ M ) = ∑ i = 0 n P ( x i ) log ⁡ ( P ( x i ) 1 2 P ( x i ) ) = ∑ i = 0 n P ( x i ) log ⁡ ( 2 ) = log ⁡ ( 2 ) ∑ i = 0 n p ( x i ) = log ⁡ 2 D_{KL}(P||M) = \sum_{i=0}^{n}P(x_i)\log(\frac{P(x_i)}{\frac{1}{2}P(x_i)}) = \sum_{i=0}^{n}P(x_i)\log(2) = \log(2) \sum_{i=0}^np(x_i) = \log2 DKL(P∣∣M)=i=0nP(xi)log(21P(xi)P(xi))=i=0nP(xi)log(2)=log(2)i=0np(xi)=log2,同样可以计算 D K L ( Q ∣ ∣ M ) = log ⁡ 2 D_{KL}(Q||M) = \log2 DKL(Q∣∣M)=log2,所以 J S ( P ∣ ∣ Q ) = log ⁡ 2 JS(P||Q) = \log2 JS(P∣∣Q)=log2,所以计算得到的JS散度是一个常数。

Wasserstein距离

  • 当两个分布不重叠时,计算 K L KL KL散度是无意义的,因为在 P P P中出现的事件 i i i,在 Q Q Q中不会出现,即 q ( x i ) = 0 q(x_i) = 0 q(xi)=0,而在计算 K L KL KL散度的公式中, D K L ( p ∣ ∣ q ) = ∑ i = 0 n p ( x i ) log ⁡ ( p ( x i ) q ( x i ) ) D_{KL}(p||q) =\sum_{i=0}^n p(x_i) \log(\frac{p(x_i)}{q(x_i)}) DKL(p∣∣q)=i=0np(xi)log(q(xi)p(xi)) q ( x i ) q(x_i) q(xi)是分母,所以此时 K L KL KL散度无意义。

  • Wasserstein距离用于描述两个分布之间的距离。

  • 分布 P P P Q Q Q的Wasserstein距离定义如下:
    W ( P , Q ) = i n f γ ∼ Γ ( P , Q ) E ( X , Y ) ∼ γ ( ∣ ∣ X − Y ∣ ∣ ) W(P, Q) = inf_{\gamma \sim \Gamma(P, Q) } E_{(X, Y) \sim \gamma}(||X-Y||) W(P,Q)=infγΓ(P,Q)E(X,Y)γ(∣∣XY∣∣)

    • 其中 Γ ( P , Q ) \Gamma(P, Q) Γ(P,Q)表示 P P P Q Q Q所有可能的联合分布集合, γ \gamma γ表示所有可能联邦分布中的一个, ( X , Y ) ∼ γ (X, Y)\sim \gamma (X,Y)γ表示从联合分布中随机采样一个样本 ( X , Y ) (X, Y) (X,Y) ∣ ∣ X − Y ∣ ∣ ||X - Y|| ∣∣XY∣∣表示计算样本 ( X , Y ) (X, Y) (X,Y)的距离, E ( X , Y ) ∼ γ ( ∣ ∣ X − Y ∣ ∣ ) E_{(X, Y)\sim \gamma}(||X-Y||) E(X,Y)γ(∣∣XY∣∣)表示在联合分布为 γ \gamma γ时,样本距离的期望值。整个式子也就是找到一个可能的联合分布 γ \gamma γ,使得这个期望值最小。
    • 如果把分布 P P P Q Q Q看成是土堆 A A A和土堆 B B B,那么Wassersteion距离就是将土堆 A A A,推到土堆 B B B的最少运算成本,也就是将一个分布变换为另一个分布的最小成本

Reference:https://zhuanlan.zhihu.com/p/74075915

这篇关于有关熵、相对熵(KL散度)、交叉熵、JS散度、Wasserstein距离的内容的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/369857

相关文章

js+css二级导航

效果 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN""http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml"><head><meta http-equiv="Con

Steam邮件推送内容有哪些?配置教程详解!

Steam邮件推送功能是否安全?如何个性化邮件推送内容? Steam作为全球最大的数字游戏分发平台之一,不仅提供了海量的游戏资源,还通过邮件推送为用户提供最新的游戏信息、促销活动和个性化推荐。AokSend将详细介绍Steam邮件推送的主要内容。 Steam邮件推送:促销优惠 每当平台举办大型促销活动,如夏季促销、冬季促销、黑色星期五等,用户都会收到邮件通知。这些邮件详细列出了打折游戏、

风水研究会官网源码系统-可展示自己的领域内容-商品售卖等

一款用于展示风水行业,周易测算行业,玄学行业的系统,并支持售卖自己的商品。 整洁大气,非常漂亮,前端内容均可通过后台修改。 大致功能: 支持前端内容通过后端自定义支持开启关闭会员功能,会员等级设置支持对接官方支付支持添加商品类支持添加虚拟下载类支持自定义其他类型字段支持生成虚拟激活卡支持采集其他站点文章支持对接收益广告支持文章评论支持积分功能支持推广功能更多功能,搭建完成自行体验吧! 原文

js小题:通过字符串执行同名变量怎么做

在JavaScript中,你不能直接使用一个字符串来直接引用一个变量,因为JavaScript是一种静态类型语言(尽管它的类型在运行时可以变化),变量的名字在编译时就被确定了。但是,有几种方法可以实现类似的功能: 使用对象(或Map)来存储变量: 你可以使用一个对象来存储你的变量,然后使用字符串作为键来访问这些变量。 let myVars = { 'var1': 'Hello', 'var

图形编辑器基于Paper.js教程03:认识Paper.js中的所有类

先来认一下Paper的资源对象,小弟有哪些,有个整体的认识。认个脸。 在Paper.js的 官方文档中类大致有如下这些: 基类: ProjectViewItemPointToolSizeSegmentRectangleCurveCurveLocationMatrixColorStyleTweenToolEventGradientGradientStopEvent 二级或三级类 继承Ite

HTML文档插入JS代码的几种方法

在HTML文档里嵌入客户端JavaScript代码有4中方法: 1.内联,放置在< script>和标签对之间。 2.放置在由< script>标签的src属性指定的外部文件中。 3.放置在HTML事件处理程序中,该事件处理程序由onclick或onmouseover这样的HTML属性值指定。 4.放在一个URL里,这个URL使用特殊的“javascript:”协议。 在JS编程中,主张

js 正则表达式出现问题

帮同事写个页面,出现正则表达式不管怎么改都没法匹配的情况。。。。 reg = /^sy[0-9]+$/i; if(rtx.match(reg) == null){ alert("请输入正确的RTX账号!"); return false; } 因为之前一直用的是 reg ="/^sy[0-9]+$/i"; 写PHP写习惯了。。外面多写了两个双引号……T.T 改

bootstrap和JS相关

下表列出了模态框中要用到事件。这些事件可在函数中当钩子使用。 bootstrap 显示隐藏div $('.show-info').click(function () {var show = $(this).data('show');if(show =='all'){$('#creative').show();$('#plan').show();$('#plan').attr('class','

sublime配置node.js

1、下载Nodejs插件,下载地址为: https://github.com/tanepiper/SublimeText-Nodejs(见本人网盘) 下载zip压缩包后解压,文件名改为Nodejs 2、打开Sublime Text3,点击菜单“Perferences” =>“Browse Packages”打开“Packages”文件夹,并将第1部的Nodejs文件夹剪切进来 3

基于ZYNQ7000的交叉编译工具链Qt+OpenCV+ffmpeg等库支持总结

最近刚刚接触XILINX的ZYNQ板,刚接触没有十天。XILINX定位它为SOC,我也很认同,起码比TI定位MPU为SOC强很多。据说今年TI的最新产品也加入了ZYNQ板。 之前的MIPS处理器设计与实现的项目就算做告一段落,搞了将近7个月,成果显著,收获颇多,最近打算搞搞ZYNQ。 之前MIPS也有一套交叉编译工具,不过是老师提供的,自己也尝试搞了搞,太辛苦了,而且也没什么成果,因为我