L1、L2、Smooth L1 loss

2024-02-25 17:44
文章标签 l2 l1 loss smooth

本文主要是介绍L1、L2、Smooth L1 loss,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

L1 loss

均绝对误差(Mean Absolute Error,MAE),公式如下

优点:因为梯度不变,对离群点不敏感

缺点:因为梯度不变,不管是误差小还是大,梯度都一样,不利于模型收敛。

L2 loss

均方误差(Mean Square Error,MSE),公式如下

优点:训练初期误差大,梯度也大,有利于快速收敛。后期误差小,梯度也小,有利于模型的稳定。

缺点:梯度是误差的2倍,对于离群点,误差极大梯度也大,模型对离群点敏感,受其影响较大,模型给离群点较大的权重,可能会往离群点方向偏移,导致牺牲正常点的预测效果,最终降低模型的整体性能。如下图

作为对比,L1的预测效果如下,可以看出,L1 loss对离群点的抗干扰能力更强

Smooth L1 loss

在Faster-RCNN和SSD中对边框的回归使用的都是Smooth L1损失,公式如下

结合了L1不易受离群点干扰的优点以及L2在误差较小时梯度也小,学习率不变时可以继续收敛到更高精度的有点,而不像L1在误差小时梯度也为1,从而在稳定值附近波动,难以继续收敛。

参考

https://www.cnblogs.com/wangguchangqing/p/12021638.html

请问 faster RCNN 和 SSD 中为什么用smooth L1 loss,和L2有什么区别? - 知乎

这篇关于L1、L2、Smooth L1 loss的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/746217

相关文章

glShadeModel函数 GL_SMOOTH与GL_FLAT的区别

glShadeModel函数用于控制opengl中绘制指定两点间其他点颜色的过渡模式 参数一般为GL_SMOOTH(默认),GL_FLAT opengl默认是将制定的两点颜色进行插值,绘制之间的其他点 如果两点的颜色相同,使用两个参数效果相同 如果两点颜色不同,GL_SMOOTH会出现过渡效果,GL_FLAT 则只是以指定的某一点的单一色绘制其他所有点 如图可以对比GL_SM

【机器学习 sklearn】模型正则化L1-Lasso,L2-Ridge

#coding:utf-8from __future__ import divisionimport sysreload(sys)sys.setdefaultencoding('utf-8')import timestart_time = time.time()import pandas as pd# 输入训练样本的特征以及目标值,分别存储在变量X_train与y_train之中。

AI基础 L1 Introduction to Artificial Intelligence

什么是AI Chinese Room Thought Experiment 关于“强人工智能”的观点,即认为只要一个系统在行为上表现得像有意识,那么它就真的具有理解能力。  实验内容如下: 假设有一个不懂中文的英语说话者被关在一个房间里。房间里有一本用英文写的中文使用手册,可以指导他如何处理中文符号。当外面的中文母语者通过一个小窗口传递给房间里的人一些用中文写的问题时,房间里的人能够依

B-smooth 数

题目描述 小杨同学想寻找一种名为 B-smooth 数的正整数。 如果一个正整数的最大质因子不超过 B,则该正整数为 B-smooth 数。小杨同学想知道,对于给定的 n 和 B,有多少个不超过 n 的 B-smooth 数。 输入格式 第一行包含两个正整数 n 和 B,含义如题面所示。 输出格式 输出一个非负整数,表示不超过 n 的 B-smooth 数的数量。 输入输出样例 输

Face Recognition简记1-A Performance Comparison of Loss Functions for Deep Face Recognition

创新点 1.各种loss的比较 总结 很久没见到这么专业的比较了,好高兴。 好像印证了一句话,没有免费的午餐。。。。 ArcFace 和 Angular Margin Softmax是性能比较突出的

【Python机器学习】核心数、进程、线程、超线程、L1、L2、L3级缓存

如何知道自己电脑的CPU是几核的,打开任务管理器(同时按下:Esc键、SHIFT键、CTRL键) 然后,点击任务管理器左上角的性能选项,观察右下角中的内核:后面的数字,就是你CPU的核心数,下图中我的是16个核心的。 需要注意的是,下面的逻辑处理器:32 表示支持 32 线程(即超线程技术) 图中的进程:和线程:后面的数字代表什么 在你上传的图片中,“进程:180” 和 “线程:3251”

ASTER L2 表面反射率 SWIR 和 ASTER L2 表面反射率 VNIR V003

ASTER L2 Surface Reflectance SWIR and ASTER L2 Surface Reflectance VNIR V003 ASTER L2 表面反射率 SWIR 和 ASTER L2 表面反射率 VNIR V003 简介 ASTER 表面反射率 VNIR 和 SWIR (AST_07) 数据产品 (https://lpdaac.usgs.gov/documen

【读论文】MUTUAL-CHANNEL LOSS

论文题目:《The Devil is in the Channels: Mutual-Channel Loss for Fine-Grained Image Classification》 链接:https://arxiv.org/abs/2002.04264 来源:IEEE TIP2020 细粒度分类的主要思想是找出各个子类间的可区分特征,因此文章指出要尽早在通道上进行钻研,而不是从合并

[论文笔记]Circle Loss: A Unified Perspective of Pair Similarity Optimization

引言 为了理解CoSENT的loss,今天来读一下Circle Loss: A Unified Perspective of Pair Similarity Optimization。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 这篇论文从对深度特征学习的成对相似度优化角度出发,旨在最大化同类之间的相似度 s p s_p s

NASA:ASTER L2 表面辐射率(E(辐射率)和 T(地表温度)) V003数据集

ASTER L2 Surface Emissivity V003 ASTER L2 表面辐射率 V003 简介 ASTER L2 地表发射率是一种按需生成的产品((https://lpdaac.usgs.gov/documents/996/ASTER_Earthdata_Search_Order_Instructions.pdf)),利用 8 至 12 µm 光谱范围内的五个热红外(TIR)