从熵到交叉熵损失的直观通俗的解释

2024-04-13 19:08

文章标签 解释损失交叉通俗直观

本文主要是介绍从熵到交叉熵损失的直观通俗的解释，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

来源：DeepHub IMBA本文约1100字，建议阅读5分钟
本文从信息论的角度解释有关熵的概念。

对于机器学习和数据科学的初学者来说，必须清楚熵和交叉熵的概念。它们是构建树、降维和图像分类的关键基础。

在本文中，我将尝试从信息论的角度解释有关熵的概念，当我第一次尝试掌握这个概念时，这非常有帮助。让我们看看它是如何进行的。

什么是-log(p)？

信息论的主要关注点之一是量化编码和传输事件所需的总比特数：罕见的事件即概率较低的事件，需要表示更多位，而频繁事件不需要很多位。因此我们可以从编码器和通信机的角度出发，将-log(p)定义为编码和传输符合p概率分布的事件所需的总比特数，即信息。小 p（罕见事件）导致大 -log(p)（更多位）。

-log P(x) = log (1/P(x))

从事件观察者的角度来看，我们可以将 -log(p)理解为是观察事件的“惊讶”的程度（事件发生的概率越小，我们的惊讶程度越高）。例如如果抛硬币的 p(head) = 0.99 和 p(tail) = 0.01，如果抛硬币是tail人们肯定会惊讶。计算 -log(p(tail)) = 6.644，远大于 -log(p(head)) = 0.014。这就是 -log(p) 的直观含义。

熵，意料之中的惊喜

在上面讨论之后，我们可以定义概率分布为p(x)的事件的预期以外惊讶程度并称其为熵。正式一些的说法是：熵是量化事件可能结果中固有的不确定性水平（对我们来说不确定性带来的就是意外的惊喜，当然也有可能是惊吓）。对于连续变量 x，熵可以写为，

回到信息论，从编码器和通信机的角度来看，这量化了表示遵循概率分布p(x)的随机选择事件所需的比特数。例如一个包含圆形和三角形的盒子并回忆化学课上熵的概念！偏态分布（许多圆圈和少量三角形）意味着低熵，因为选择不确定性水平很低，这意味着确信选择圆圈的概率更大。

交叉熵，用于机器学习

现在让我们切换一下思路，机器学习的主要目标是找到并声明一个最能模拟（近似）真实数据分布的概率分布。交叉熵提供了一种使用分布 Q 来量化按照分布 P 编码数据所需的平均位数的方法。

听着有点绕口对吧，下面这个概念可能更复杂。这个量Q可以通过以下关系从熵中获得：（原始比特）+（额外比特）=（总比特）。（额外比特）部分就是所谓的 KL 散度，在统计学中常用来衡量两个分布之间的距离，也被称为相对熵。

在图像分类中，经常会遇到对于 N 类的交叉熵损失，如下表示，其中 y{i} 和 {y{i}}冒分别是实际标签和预测。当 N = 2时交叉熵损失将简单地变成逻辑回归中使用的log损失。

总结

-log(p) 只是表达对以概率 p 观察到事件的惊讶程度的一种奇特方式。罕见事件（低 p）导致惊讶程度高。
如果整合所有事件的”惊讶程度“，就会得到预期的”惊讶“，我们称之为熵。如果高熵则意味着事件的可能结果中固有的不确定性水平很高。
交叉熵考虑了近似于真实分布 P 的分布 Q，并使用分布 Q 测量表示遵循分布 P 的数据所需的比特数。
交叉熵损失是量化我们的机器学习模型对数据真实分布 (P) 的近似 (Q) 的好坏程度 (Q) 的好方法。请注意，Log损失只是一个二元交叉熵损失。

希望本篇文章能够帮助你对熵是什么以及它如何连接到交叉熵以进行机器学习有了更好的了解。

编辑：于腾凯

校对：杨学俊

这篇关于从熵到交叉熵损失的直观通俗的解释的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/900973。 23002807@qq.com

相关文章

GO语言中gox交叉编译的实现

GO语言中gox交叉编译的实现

《GO语言中gox交叉编译的实现》本文主要介绍了GO语言中gox交叉编译的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录一、安装二、使用三、遇到的问题1、开启CGO2、修改环境变量最近在工作中使用GO语言进行编码开发，因

阅读更多...

Python中isinstance()函数原理解释及详细用法示例

Python中isinstance()函数原理解释及详细用法示例

《Python中isinstance()函数原理解释及详细用法示例》isinstance()是Python内置的一个非常有用的函数,用于检查一个对象是否属于指定的类型或类型元组中的某一个类型,它是Py... 目录python中isinstance()函数原理解释及详细用法指南一、isinstance()函数

阅读更多...

java时区时间转为UTC的代码示例和详细解释

java时区时间转为UTC的代码示例和详细解释

《java时区时间转为UTC的代码示例和详细解释》作为一名经验丰富的开发者,我经常被问到如何将Java中的时间转换为UTC时间,：本文主要介绍java时区时间转为UTC的代码示例和详细解释,文中通... 目录前言步骤一：导入必要的Java包步骤二：获取指定时区的时间步骤三：将指定时区的时间转换为UTC时间步

阅读更多...

Android NDK版本迭代与FFmpeg交叉编译完全指南

Android NDK版本迭代与FFmpeg交叉编译完全指南

《AndroidNDK版本迭代与FFmpeg交叉编译完全指南》在Android开发中,使用NDK进行原生代码开发是一项常见需求,特别是当我们需要集成FFmpeg这样的多媒体处理库时,本文将深入分析A... 目录一、android NDK版本迭代分界线二、FFmpeg交叉编译关键注意事项三、完整编译脚本示例四

阅读更多...

MySQL中的交叉连接、自然连接和内连接查询详解

MySQL中的交叉连接、自然连接和内连接查询详解

《MySQL中的交叉连接、自然连接和内连接查询详解》：本文主要介绍MySQL中的交叉连接、自然连接和内连接查询,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、引入二、交php叉连接（cross join）三、自然连接（naturalandroid join）四

阅读更多...

wolfSSL参数设置或配置项解释

wolfSSL参数设置或配置项解释

1. wolfCrypt Only 解释：wolfCrypt是一个开源的、轻量级的、可移植的加密库，支持多种加密算法和协议。选择“wolfCrypt Only”意味着系统或应用将仅使用wolfCrypt库进行加密操作，而不依赖其他加密库。 2. DTLS Support 解释：DTLS（Datagram Transport Layer Security）是一种基于UDP的安全协议，提供类似于

阅读更多...

【生成模型系列（初级）】嵌入（Embedding）方程——自然语言处理的数学灵魂【通俗理解】

【生成模型系列（初级）】嵌入（Embedding）方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入（Embedding）方程——自然语言处理的数学灵魂关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节：嵌入方程的类比与核心概念【尽可能通俗】嵌入方程可以被看作是自然语言处理中的“翻译机”，它将文本中的单词或短语转换成计算机能够理解的数学形式，即向量。正如翻译机将一种语言

阅读更多...

如何通俗理解注意力机制？

如何通俗理解注意力机制？

1、注意力机制（Attention Mechanism）是机器学习和深度学习中一种模拟人类注意力的方法，用于提高模型在处理大量信息时的效率和效果。通俗地理解，它就像是在一堆信息中找到最重要的部分，把注意力集中在这些关键点上，从而更好地完成任务。以下是几个简单的比喻来帮助理解注意力机制： 2、寻找重点：想象一下，你在阅读一篇文章的时候，有些段落特别重要，你会特别注意这些段落，反复阅读，而对其他部分

阅读更多...

SigLIP——采用sigmoid损失的图文预训练方式

SigLIP——采用sigmoid损失的图文预训练方式

SigLIP——采用sigmoid损失的图文预训练方式 FesianXu 20240825 at Wechat Search Team 前言 CLIP中的infoNCE损失是一种对比性损失，在SigLIP这个工作中，作者提出采用非对比性的sigmoid损失，能够更高效地进行图文预训练，本文进行介绍。如有谬误请见谅并联系指出，本文遵守CC 4.0 BY-SA版权协议，转载请联系作者并注

阅读更多...

嵌入式技术的核心技术有哪些？请详细列举并解释每项技术的主要功能和应用场景。

嵌入式技术的核心技术有哪些？请详细列举并解释每项技术的主要功能和应用场景。

嵌入式技术的核心技术包括处理器技术、IC技术和设计/验证技术。 1. 处理器技术通用处理器：这类处理器适用于不同类型的应用，其主要特征是存储程序和通用的数据路径，使其能够处理各种计算任务。例如，在智能家居中，通用处理器可以用于控制和管理家庭设备，如灯光、空调和安全系统。单用途处理器：这些处理器执行特定程序，如JPEG编解码器，专门用于视频信息的压缩或解压。在数字相机中，单用途

阅读更多...