损失函数中为什么要用Log?

2024-02-03 09:40
文章标签 函数 要用 log 损失

本文主要是介绍损失函数中为什么要用Log?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

参考:机器学习中损失函数常用log的用意_损失函数为什么用log_小妖精Fsky的博客-CSDN博客

Loss 在使用似然函数最大化时,其形式是进行连乘,但是为了便于处理,一般会套上log,这样便可以将连乘转化为求和,由于log函数是单调递增函数,因此不会改变优化结果。

极大似然估计中取对数的原因:取对数后,连乘可以转化为相加,方便求导,这是因为对数函数的求导更加简单,对数函数的导数比原函数更容易计算和优化除此之外对数函数 ln为单调递增函数,不会改变似然函数极值点。

以下是个人拙见:

首先在分类中为什么会用到似然函数的概念?

我们在对一个图片进行分类(假设是每个图片只有一个类别)时,例如:我们通过模型得到了每个样本对应真实类别的概率值,即P_i(i=0,1,2...,n;n是样本个数),假设有k个类别,但我们只取每个样本对应其真实类别的那个概率。

我们使用极大似然估计反推最具有可能(最大概率)导致这些样本结果出现的模型参数值。即

\prod P_i

最大化这个概率。即max \prod P_i,我们希望找到极大值点,使得概率最大化,这就需要求偏导。

但往往连乘不容易求导。

我们分析似然函数,其值在0到1之间,而且越接近于1说明分类的效果越好,越接近于0说明分类的效果越差。与此同时-log函数在0到1区间单调递减,且大于等于0,假设我们取对数似然后,那么对数值越大说明越接近于0,对数值越小越接近于1,即-log(\prod P_i)(注意这里P_i是不同样本对应其真实类别的概率)。我们希望能够找到使得对数值最小的一组参数,即min -log(\prod P_i) = min \sum -log(P_i)

 这样求导比较容易一些。

取对数似然除了求导方便之外,还有其他的好处吗?我们知道float32的数值范围是:

 连乘容易导致数值溢出,假设我们有100个样本,每个样本分类的真实概率值为0.1,那么\prod P_i=10^{(-100)},而负对数似然就不会有这个问题,当存在单个样本真实概率溢出的情况下,会出现数值溢出的问题,也是半精度计算中经常出现的loss nan的问题。

取对数似然和softmax是因为可以消掉e^x吗?

个人认为答案是否定的。

首先我们思考为什么要用softmax,假设我们不用softmax,模型最后的输出有可能是[-0.1, -0.1, 0.1](三分类),也有可能是[10, 9.9,9.9],我们使用极大似然估计来分析,第二个输出的值大,它的置信度应该很高,但事实并非如此。我们使用softmax的根本原因是将其转化为0到1之间的概率,且所有的值加起来等于 1。

softmax 和 cross-entropy 本来没有太大的关系,只是把两个放在一起实现的话,算起来更快,也更数值稳定。

这篇关于损失函数中为什么要用Log?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/673734

相关文章

hdu1171(母函数或多重背包)

题意:把物品分成两份,使得价值最接近 可以用背包,或者是母函数来解,母函数(1 + x^v+x^2v+.....+x^num*v)(1 + x^v+x^2v+.....+x^num*v)(1 + x^v+x^2v+.....+x^num*v) 其中指数为价值,每一项的数目为(该物品数+1)个 代码如下: #include<iostream>#include<algorithm>

内核启动时减少log的方式

内核引导选项 内核引导选项大体上可以分为两类:一类与设备无关、另一类与设备有关。与设备有关的引导选项多如牛毛,需要你自己阅读内核中的相应驱动程序源码以获取其能够接受的引导选项。比如,如果你想知道可以向 AHA1542 SCSI 驱动程序传递哪些引导选项,那么就查看 drivers/scsi/aha1542.c 文件,一般在前面 100 行注释里就可以找到所接受的引导选项说明。大多数选项是通过"_

C++操作符重载实例(独立函数)

C++操作符重载实例,我们把坐标值CVector的加法进行重载,计算c3=c1+c2时,也就是计算x3=x1+x2,y3=y1+y2,今天我们以独立函数的方式重载操作符+(加号),以下是C++代码: c1802.cpp源代码: D:\YcjWork\CppTour>vim c1802.cpp #include <iostream>using namespace std;/*** 以独立函数

函数式编程思想

我们经常会用到各种各样的编程思想,例如面向过程、面向对象。不过笔者在该博客简单介绍一下函数式编程思想. 如果对函数式编程思想进行概括,就是f(x) = na(x) , y=uf(x)…至于其他的编程思想,可能是y=a(x)+b(x)+c(x)…,也有可能是y=f(x)=f(x)/a + f(x)/b+f(x)/c… 面向过程的指令式编程 面向过程,简单理解就是y=a(x)+b(x)+c(x)

利用matlab bar函数绘制较为复杂的柱状图,并在图中进行适当标注

示例代码和结果如下:小疑问:如何自动选择合适的坐标位置对柱状图的数值大小进行标注?😂 clear; close all;x = 1:3;aa=[28.6321521955954 26.2453660695847 21.69102348512086.93747104431360 6.25442246899816 3.342835958564245.51365061796319 4.87

OpenCV结构分析与形状描述符(11)椭圆拟合函数fitEllipse()的使用

操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C++11 算法描述 围绕一组2D点拟合一个椭圆。 该函数计算出一个椭圆,该椭圆在最小二乘意义上最好地拟合一组2D点。它返回一个内切椭圆的旋转矩形。使用了由[90]描述的第一个算法。开发者应该注意,由于数据点靠近包含的 Mat 元素的边界,返回的椭圆/旋转矩形数据

Unity3D 运动之Move函数和translate

CharacterController.Move 移动 function Move (motion : Vector3) : CollisionFlags Description描述 A more complex move function taking absolute movement deltas. 一个更加复杂的运动函数,每次都绝对运动。 Attempts to

SigLIP——采用sigmoid损失的图文预训练方式

SigLIP——采用sigmoid损失的图文预训练方式 FesianXu 20240825 at Wechat Search Team 前言 CLIP中的infoNCE损失是一种对比性损失,在SigLIP这个工作中,作者提出采用非对比性的sigmoid损失,能够更高效地进行图文预训练,本文进行介绍。如有谬误请见谅并联系指出,本文遵守CC 4.0 BY-SA版权协议,转载请联系作者并注

✨机器学习笔记(二)—— 线性回归、代价函数、梯度下降

1️⃣线性回归(linear regression) f w , b ( x ) = w x + b f_{w,b}(x) = wx + b fw,b​(x)=wx+b 🎈A linear regression model predicting house prices: 如图是机器学习通过监督学习运用线性回归模型来预测房价的例子,当房屋大小为1250 f e e t 2 feet^

JavaSE(十三)——函数式编程(Lambda表达式、方法引用、Stream流)

函数式编程 函数式编程 是 Java 8 引入的一个重要特性,它允许开发者以函数作为一等公民(first-class citizens)的方式编程,即函数可以作为参数传递给其他函数,也可以作为返回值。 这极大地提高了代码的可读性、可维护性和复用性。函数式编程的核心概念包括高阶函数、Lambda 表达式、函数式接口、流(Streams)和 Optional 类等。 函数式编程的核心是Lambda