计算损失函数C语言,EAST 算法超详细源码解析(四)、损失函数

2023-10-11 11:20

本文主要是介绍计算损失函数C语言,EAST 算法超详细源码解析(四)、损失函数,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Date: 2020/05/19

Author: CW

前言:

EAST 的损失函数由三部分构成,对应预测输出的三个map——score map、loc map 以及 angle map,即分类损失,位置(点到文本框边界上下左右的距离)损失以及角度损失。

分类损失

对于分类损失,最自然想到的就是交叉熵。在这里,由于在文本框外的点会占多数,即负样本比例较大,因此,可采用类别平衡的交叉熵损失。

0efd281b1481

类别平衡的交叉熵损失

在代码实现中,以上有个特别需要注意的地方,就是模型输出的预测结果 pred_score 是从sigmoid 出来的,那么其取值范围为[0, 1],所以用在交叉熵时有可能使得 log 函数输出正/负无穷,因此需要加上一个极小值,这里使用的是 np.finfo(np.float32).eps。

另外,由于这里的分类是对一个个像素点进行区分(是否在文本框内),那么就可看作是语义分割问题,因此,使用 Dice Loss 作为分类损失也是一种可行的方案。

0efd281b1481

Dice Loss

对于以上两种 loss 的选择,根据我的训练结果来看,使用类别平衡交叉熵计算得到的loss值相对较小,可能需要调整合适的loss权重才能更好地让模型学会分类,否则这种方案下训练出的模型容易出现大量误检(召回率还不错但准确率低);而使用 dice loss 的话,loss 值通常在零点几的数量级,不需要加大权重,模型也能比较容易学好分类,训练出来的模型误检率较低。也可以将两种 loss 结合在一起,其中类别平衡的交叉熵损失权重要相对大一些。

几何损失

顾名思义,这部分损失指的是预测框与真实文本框之间在几何层面上计算的损失,通过 d1~d4以及 angle 来计算。

这里比较有意思的是,对于

math?formula=d_%7Bi%7D%20(i=1,2,3,4) ,并不是分别计算预测的

math?formula=d_%7Bi%7D%20与 对应标签的

math?formula=d_%7Bi%7D%20的差来作为损失,而是根据

math?formula=d_%7Bi%7D%20计算出框的面积,然后将预测框与 gt 框之间的 IoU 用于损失计算,IoU 越大说明和 gt 越接近,因此 loss 应该越小,同时由于 IoU 取值范围在 [0, 1],因此可将其输入 log 函数并乘以-1作为 loss。

而对于 angle,使用余弦函数,余弦函数的输入为预测 angle 与 对应标签的 angle 之差。使用余弦函数的好处是,它是偶函数,无需对角度差值取绝对值。这样的话,两个角度相差越小,余弦函数的输出则越大,因此用1减去余弦函数的输出便可作为这部分的loss。

0efd281b1481

几何损失 (i)

这里需要注意的是交集的计算,与通常计算两个 bbox 的交集稍有不同,这里是根据d来计算的,要取预测与 gt 对应 d 的最小值才是交集,而不像通常的两个 bbox 在计算交集的 x_min 与y_min 时是分别取两者的最大值。

0efd281b1481

几何损失 (ii)

0efd281b1481

几何损失 (iii)

综合损失

最终模型的损失综合了分类与几何损失,可以根据实际情况分别对分类 loss、IoU loss、angle loss 设置不同的权重,最后加起来作为总的损失。

通常在代码中实现模型的损失计算时,都会将其实现为一个 torch.nn.Module 的子类,损失计算则通过重载 forward 方法也即前向反馈过程来实现。

0efd281b1481

损失计算

在这里我们需要考虑一种情况,就是一个 batch 中可能并没有 gt,那么此时就不计算损失,直接返回损失为0。

另外注意上图红框部分,这里将几何 loss 与 gt_score 相乘,由于gt_score 中非0即1,因此说明这里仅对正样本计算几何损失。

最后:

越发地觉得,gt 的生成与 loss 的设计往往是很有技巧性的,它们直接影响到模型会学习成什么样子,gt 生成让模型了解到学习的目标,而 loss 设计则是将模型学习的目标转化为在数学上的表达形式,使得模型有途径通过迭代学习不断逼近目标。

在阅读与手写了众多算法模型代码后,吾以为,细心观察生活很重要,只有你足够了解生活,才能从其中的需求中出发,然后基于生活中某些事物的工作方式,抽象出一套方法论,接着用代码去实践,最终通过实验验证,这样之后才有可能创造出一个好的模型算法。

这篇关于计算损失函数C语言,EAST 算法超详细源码解析(四)、损失函数的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/187680

相关文章

Agent开发核心技术解析以及现代Agent架构设计

《Agent开发核心技术解析以及现代Agent架构设计》在人工智能领域,Agent并非一个全新的概念,但在大模型时代,它被赋予了全新的生命力,简单来说,Agent是一个能够自主感知环境、理解任务、制定... 目录一、回归本源:到底什么是Agent?二、核心链路拆解:Agent的"大脑"与"四肢"1. 规划模

MySQL字符串转数值的方法全解析

《MySQL字符串转数值的方法全解析》在MySQL开发中,字符串与数值的转换是高频操作,本文从隐式转换原理、显式转换方法、典型场景案例、风险防控四个维度系统梳理,助您精准掌握这一核心技能,需要的朋友可... 目录一、隐式转换:自动但需警惕的&ld编程quo;双刃剑”二、显式转换:三大核心方法详解三、典型场景

SQL Server中行转列方法详细讲解

《SQLServer中行转列方法详细讲解》SQL行转列、列转行可以帮助我们更方便地处理数据,生成需要的报表和结果集,:本文主要介绍SQLServer中行转列方法的相关资料,需要的朋友可以参考下... 目录前言一、为什么需要行转列二、行转列的基本概念三、使用PIVOT运算符进行行转列1.创建示例数据表并插入数

C语言逗号运算符和逗号表达式的使用小结

《C语言逗号运算符和逗号表达式的使用小结》本文详细介绍了C语言中的逗号运算符和逗号表达式,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习... 在C语言中逗号“,”也是一种运算符,称为逗号运算符。 其功能是把两个表达式连接其一般形式为:表达

Go语言实现桥接模式

《Go语言实现桥接模式》桥接模式是一种结构型设计模式,它将抽象部分与实现部分分离,使它们可以独立地变化,本文就来介绍一下了Go语言实现桥接模式,感兴趣的可以了解一下... 目录简介核心概念为什么使用桥接模式?应用场景案例分析步骤一:定义实现接口步骤二:创建具体实现类步骤三:定义抽象类步骤四:创建扩展抽象类步

GO语言实现串口简单通讯

《GO语言实现串口简单通讯》本文分享了使用Go语言进行串口通讯的实践过程,详细介绍了串口配置、数据发送与接收的代码实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要... 目录背景串口通讯代码代码块分解解析完整代码运行结果背景最近再学习 go 语言,在某宝用5块钱买了个

Python + Streamlit项目部署方案超详细教程(非Docker版)

《Python+Streamlit项目部署方案超详细教程(非Docker版)》Streamlit是一款强大的Python框架,专为机器学习及数据可视化打造,:本文主要介绍Python+St... 目录一、针对 Alibaba Cloud linux/Centos 系统的完整部署方案1. 服务器基础配置(阿里

SQL 注入攻击(SQL Injection)原理、利用方式与防御策略深度解析

《SQL注入攻击(SQLInjection)原理、利用方式与防御策略深度解析》本文将从SQL注入的基本原理、攻击方式、常见利用手法,到企业级防御方案进行全面讲解,以帮助开发者和安全人员更系统地理解... 目录一、前言二、SQL 注入攻击的基本概念三、SQL 注入常见类型分析1. 基于错误回显的注入(Erro

pandas使用apply函数给表格同时添加多列

《pandas使用apply函数给表格同时添加多列》本文介绍了利用Pandas的apply函数在DataFrame中同时添加多列,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习... 目录一、Pandas使用apply函数给表格同时添加多列二、应用示例一、Pandas使用apply函

JAVA SpringBoot集成Jasypt进行加密、解密的详细过程

《JAVASpringBoot集成Jasypt进行加密、解密的详细过程》文章详细介绍了如何在SpringBoot项目中集成Jasypt进行加密和解密,包括Jasypt简介、如何添加依赖、配置加密密钥... 目录Java (SpringBoot) 集成 Jasypt 进行加密、解密 - 详细教程一、Jasyp