CTC Loss 数学原理讲解:Connectionist Temporal Classification

本文主要是介绍CTC Loss 数学原理讲解:Connectionist Temporal Classification,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 1、CTC Loss 出现的背景
      • 例1:用于图像文本识别的CRNN网络
      • 例2:语音识别
  • 2、CTC Loss 的总体思想
  • 3、Forward-Backward 算法
    • 3.1 合法路径的约束条件
    • 3.2 Forward-Backward 算法的数学推导
  • 4、CTC 的训练(目标函数求导)
  • 5、解码算法
  • 6、CTC Loss 的优缺点

CTC Loss 是一种不需要数据对齐的,广泛用于图像文本识别和语音识别任务的损失函数。

论文:《Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks》
《连续形式的时序数据分类:用递归神经网络标记非分段序列数据》

论文发表时间:ICML 2006

注:这篇博客来源于本人组会汇报时的文档,因此很多内容是直接从文档中截图的。

1、CTC Loss 出现的背景

到目前为止,还不可能将RNN直接应用于序列数据的标记。问题在于标准神经网络的目标函数是为训练序列中的每个点分别定义的,因此RNN只能训练一系列独立的标签分类。这意味着训练的序列数据必须被预分段并标记。

标记未分割序列数据是现实世界序列学习中普遍存在的问题。这在感知任务中尤其常见,如图像文本识别(OCR)、姿势识别、语音识别(ASR)。

在这些领域中,所面临的一个问题是神经网络的输出与ground truth的长度不一致,导致loss难以计算。

例1:用于图像文本识别的CRNN网络

在这里插入图片描述
考虑一种非常简单的方法,通过将图片划分为几个竖直方向的图像,分别识别每列小图片中的文字,从而实现整体文本的识别。则每一列输出都需要对应一个字符元素。用 - 表示blank(空白),预测值(-s-t-aatt-e-)和ground truth(state)的长度不一致,采用常规的损失函数(cross entropy、MSE等)计算时需要先进行对齐才能计算损失。

进行对齐就需要在训练之前的数据标注阶段在训练集图片中标记出每个字符的真实文本和在图片中的位置。但在实际情况中,标记这种对齐样本非常困难,其工作量非常大。并且由于每张样本的字符数量不同,字体样式不同,字体大小不同,导致每列输出并不一定能与每个字符一一对应。

例2:语音识别

在这里插入图片描述
上图中的语音是HELLO。有人说话快,有人说话慢。那么如何进行语音帧对齐一直是困扰语音识别领域的巨大难题。

除了数据标注的困难导致难以对齐外,就算对齐了也存在many to one的问题。那么什么是many to one的问题呢?解码器的规则是将连续的相同字符合并,以及去掉blank。那么-HEEE-LL-LL-OOOOOOOO-(Mr.Slow)和-HE-L-LOO-(Mr.Fast)都可以解码为HELLO,与ground truth一致。也就是说就算我们将Mr.Slow的label标注为-HE-L-LOO------------,尽管这个label显然是错误的,但通过网络训练,Mr.Slow的网络预测值会非常接近label,如预测值是-H–EE-L-LOO----------。尽管该预测值与ground truth差异非常大,但是该预测值依然可以解码为HELLO。显然这个情况是我们不希望看到的,也非常不利于网络的训练。

由于连续序列数据的对齐难题,学者提出了一种对不需要对齐的Loss计算方法:CTC Loss。

CTC Loss被广泛应用于文本识别和语音识别中,接下来根据语音识别的例子介绍CTC Loss。

2、CTC Loss 的总体思想

首先要明确CTC Loss的计算对象是神经网络经过softmax归一化之后的输出矩阵和ground truth。

CTC Loss 不要求输出矩阵和ground truth的大小相同。输出矩阵的维度为N×T,其中N是类别数(在英文的语音识别中N=27,即26个英文字母和blank),T是语音长度(T个语音帧)。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3、Forward-Backward 算法

3.1 合法路径的约束条件

以l=apple为例,按照时间序列(T=8)展开。B(–ap-ple)=aab对应的路径为:

在这里插入图片描述
为了让所有的路径在图中都有唯一、合法的表示,节点转换有如下约束:

在这里插入图片描述

这些约束规则导致合法路径的数量大大减少。根据以上约束规则,所有映射为l=apple的合法路径为:

在这里插入图片描述

3.2 Forward-Backward 算法的数学推导

在这里插入图片描述
前向和反向过程的计算示意图如下:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
示例:

在这里插入图片描述
在这里插入图片描述

有论文证明,尽管可以通过并不复杂的递归运算得到p(l│x),但这种运算无法避免数值下溢的问题。因此需要考虑其他方法进行计算。

4、CTC 的训练(目标函数求导)

在这里插入图片描述
公式(13)是forward-backward算法的关键,以T=6,l=ab为例解释(13):

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
以单层LSTM作为RNN网络,RNN-CTC模型的总体结构为:

在这里插入图片描述

5、解码算法

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

6、CTC Loss 的优缺点

CTC最大的优点是不需要数据对齐。

CTC的缺点来源于三个假设或约束:

(1)条件独立:假设每个时间片都是相互独立的,但在OCR或者语音识别中,相邻几个时间片中往往包含着高度相关的语义信息,它们并非相互独立的。

(2)单调对齐:CTC要求输入与输出之间的对齐是单向的,在OCR和语音识别中,这种约束是成立的。但是在一些场景中(如机器翻译),这个约束并不成立。

(3)CTC要求是输入序列的长度不小于标签数据的长度,反之便无法使用。

这篇关于CTC Loss 数学原理讲解:Connectionist Temporal Classification的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/542165

相关文章

计算机毕业设计 大学志愿填报系统 Java+SpringBoot+Vue 前后端分离 文档报告 代码讲解 安装调试

🍊作者:计算机编程-吉哥 🍊简介:专业从事JavaWeb程序开发,微信小程序开发,定制化项目、 源码、代码讲解、文档撰写、ppt制作。做自己喜欢的事,生活就是快乐的。 🍊心愿:点赞 👍 收藏 ⭐评论 📝 🍅 文末获取源码联系 👇🏻 精彩专栏推荐订阅 👇🏻 不然下次找不到哟~Java毕业设计项目~热门选题推荐《1000套》 目录 1.技术选型 2.开发工具 3.功能

ispunct函数讲解 <ctype.h>头文件函数

目录 1.头文件函数 2.ispunct函数使用  小心!VS2022不可直接接触,否则..!没有这个必要,方源一把抓住VS2022,顷刻 炼化! 1.头文件函数 以上函数都需要包括头文件<ctype.h> ,其中包括 ispunct 函数 #include<ctype.h> 2.ispunct函数使用 简述: ispunct函数一种判断字符是否为标点符号的函

深度学习速通系列:深度学习算法讲解

深度学习算法是一系列基于人工神经网络的算法,它们通过模拟人脑处理信息的方式来学习和解决复杂问题。这些算法在图像识别、语音识别、自然语言处理、游戏等领域取得了显著的成就。以下是一些流行的深度学习算法及其基本原理: 1. 前馈神经网络(Feedforward Neural Networks, FNN) 原理:FNN 是最基本的神经网络结构,它由输入层、隐藏层和输出层组成。信息从输入层流向隐藏层,最

C#设计模式(1)——单例模式(讲解非常清楚)

一、引言 最近在学设计模式的一些内容,主要的参考书籍是《Head First 设计模式》,同时在学习过程中也查看了很多博客园中关于设计模式的一些文章的,在这里记录下我的一些学习笔记,一是为了帮助我更深入地理解设计模式,二同时可以给一些初学设计模式的朋友一些参考。首先我介绍的是设计模式中比较简单的一个模式——单例模式(因为这里只牵涉到一个类) 二、单例模式的介绍 说到单例模式,大家第一

[项目][CMP][直接向堆申请页为单位的大块内存]详细讲解

目录 1.系统调用 1.系统调用 Windows和Linux下如何直接向堆申请页为单位的大块内存: VirtualAllocbrk和mmap // 直接去堆上按页申请空间static inline void *SystemAlloc(size_t kpage){#ifdef _WIN32void *ptr = VirtualAlloc(0, kpage << 13,

高斯平面直角坐标讲解,以及地理坐标转换高斯平面直角坐标

高斯平面直角坐标系(Gauss-Krüger 坐标系)是基于 高斯-克吕格投影 的一种常见的平面坐标系统,主要用于地理信息系统 (GIS)、测绘和工程等领域。该坐标系将地球表面的经纬度(地理坐标)通过一种投影方式转换为平面直角坐标,以便在二维平面中进行距离、面积和角度的计算。 一 投影原理 高斯平面直角坐标系使用的是 高斯-克吕格投影(Gauss-Krüger Projection),这是 横

车险该怎么买?行业人讲解车险

很多车主对汽车保险知识不了解,稀里糊涂的买了车辆保险,但是出险时发现很多不赔的,还有很多对自己来说没什么用的保险,花了不少钱,还没买到自己想要的,殊不知只要多了解点汽车保险知识就能轻松省下一大笔钱并且买到自己真正想要的,何乐而不为呢! 因为卖保险的或者4S店,都是按照常规情况给你推荐保险,具体用车情况,只有你自己最清楚,所以保险是个个性化定制的产品,需要什么买什么,不需要的就没必要购买了。 一般

VB和51单片机串口通信讲解(只针对VB部分)

标记:该篇文章全部搬自如下网址:http://www.crystalradio.cn/thread-321839-1-1.html,谢谢啦            里面关于中文接收的部分,大家可以好好学习下,题主也在研究中................... Commport;设置或返回串口号。 SettingS:以字符串的形式设置或返回串口通信参数。 Portopen:设置或返回串口

Spring点滴五:Spring中的后置处理器BeanPostProcessor讲解

https://www.cnblogs.com/sishang/p/6576665.html BeanPostProcessor接口作用:      如果我们想在Spring容器中完成bean实例化、配置以及其他初始化方法前后要添加一些自己逻辑处理。我们需要定义一个或多个BeanPostProcessor接口实现类,然后注册到Spring IoC容器中。   package com.t

Java异常体系----深入讲解

JAVA异常体系 1.error 错误 程序无法处理的异常, 它是由JVM产生和抛出的,比如OutOfMemoryError.ThreadDeath等 示例: public class Test {public static void main(String[] args) {run();}public static void run(){run();}} 堆栈溢出,这是由于JV