CTC Loss 数学原理讲解:Connectionist Temporal Classification

本文主要是介绍CTC Loss 数学原理讲解:Connectionist Temporal Classification,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 1、CTC Loss 出现的背景
      • 例1:用于图像文本识别的CRNN网络
      • 例2:语音识别
  • 2、CTC Loss 的总体思想
  • 3、Forward-Backward 算法
    • 3.1 合法路径的约束条件
    • 3.2 Forward-Backward 算法的数学推导
  • 4、CTC 的训练(目标函数求导)
  • 5、解码算法
  • 6、CTC Loss 的优缺点

CTC Loss 是一种不需要数据对齐的,广泛用于图像文本识别和语音识别任务的损失函数。

论文:《Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks》
《连续形式的时序数据分类:用递归神经网络标记非分段序列数据》

论文发表时间:ICML 2006

注:这篇博客来源于本人组会汇报时的文档,因此很多内容是直接从文档中截图的。

1、CTC Loss 出现的背景

到目前为止,还不可能将RNN直接应用于序列数据的标记。问题在于标准神经网络的目标函数是为训练序列中的每个点分别定义的,因此RNN只能训练一系列独立的标签分类。这意味着训练的序列数据必须被预分段并标记。

标记未分割序列数据是现实世界序列学习中普遍存在的问题。这在感知任务中尤其常见,如图像文本识别(OCR)、姿势识别、语音识别(ASR)。

在这些领域中,所面临的一个问题是神经网络的输出与ground truth的长度不一致,导致loss难以计算。

例1:用于图像文本识别的CRNN网络

在这里插入图片描述
考虑一种非常简单的方法,通过将图片划分为几个竖直方向的图像,分别识别每列小图片中的文字,从而实现整体文本的识别。则每一列输出都需要对应一个字符元素。用 - 表示blank(空白),预测值(-s-t-aatt-e-)和ground truth(state)的长度不一致,采用常规的损失函数(cross entropy、MSE等)计算时需要先进行对齐才能计算损失。

进行对齐就需要在训练之前的数据标注阶段在训练集图片中标记出每个字符的真实文本和在图片中的位置。但在实际情况中,标记这种对齐样本非常困难,其工作量非常大。并且由于每张样本的字符数量不同,字体样式不同,字体大小不同,导致每列输出并不一定能与每个字符一一对应。

例2:语音识别

在这里插入图片描述
上图中的语音是HELLO。有人说话快,有人说话慢。那么如何进行语音帧对齐一直是困扰语音识别领域的巨大难题。

除了数据标注的困难导致难以对齐外,就算对齐了也存在many to one的问题。那么什么是many to one的问题呢?解码器的规则是将连续的相同字符合并,以及去掉blank。那么-HEEE-LL-LL-OOOOOOOO-(Mr.Slow)和-HE-L-LOO-(Mr.Fast)都可以解码为HELLO,与ground truth一致。也就是说就算我们将Mr.Slow的label标注为-HE-L-LOO------------,尽管这个label显然是错误的,但通过网络训练,Mr.Slow的网络预测值会非常接近label,如预测值是-H–EE-L-LOO----------。尽管该预测值与ground truth差异非常大,但是该预测值依然可以解码为HELLO。显然这个情况是我们不希望看到的,也非常不利于网络的训练。

由于连续序列数据的对齐难题,学者提出了一种对不需要对齐的Loss计算方法:CTC Loss。

CTC Loss被广泛应用于文本识别和语音识别中,接下来根据语音识别的例子介绍CTC Loss。

2、CTC Loss 的总体思想

首先要明确CTC Loss的计算对象是神经网络经过softmax归一化之后的输出矩阵和ground truth。

CTC Loss 不要求输出矩阵和ground truth的大小相同。输出矩阵的维度为N×T,其中N是类别数(在英文的语音识别中N=27,即26个英文字母和blank),T是语音长度(T个语音帧)。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3、Forward-Backward 算法

3.1 合法路径的约束条件

以l=apple为例,按照时间序列(T=8)展开。B(–ap-ple)=aab对应的路径为:

在这里插入图片描述
为了让所有的路径在图中都有唯一、合法的表示,节点转换有如下约束:

在这里插入图片描述

这些约束规则导致合法路径的数量大大减少。根据以上约束规则,所有映射为l=apple的合法路径为:

在这里插入图片描述

3.2 Forward-Backward 算法的数学推导

在这里插入图片描述
前向和反向过程的计算示意图如下:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
示例:

在这里插入图片描述
在这里插入图片描述

有论文证明,尽管可以通过并不复杂的递归运算得到p(l│x),但这种运算无法避免数值下溢的问题。因此需要考虑其他方法进行计算。

4、CTC 的训练(目标函数求导)

在这里插入图片描述
公式(13)是forward-backward算法的关键,以T=6,l=ab为例解释(13):

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
以单层LSTM作为RNN网络,RNN-CTC模型的总体结构为:

在这里插入图片描述

5、解码算法

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

6、CTC Loss 的优缺点

CTC最大的优点是不需要数据对齐。

CTC的缺点来源于三个假设或约束:

(1)条件独立:假设每个时间片都是相互独立的,但在OCR或者语音识别中,相邻几个时间片中往往包含着高度相关的语义信息,它们并非相互独立的。

(2)单调对齐:CTC要求输入与输出之间的对齐是单向的,在OCR和语音识别中,这种约束是成立的。但是在一些场景中(如机器翻译),这个约束并不成立。

(3)CTC要求是输入序列的长度不小于标签数据的长度,反之便无法使用。

这篇关于CTC Loss 数学原理讲解:Connectionist Temporal Classification的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/542165

相关文章

Java调用C++动态库超详细步骤讲解(附源码)

《Java调用C++动态库超详细步骤讲解(附源码)》C语言因其高效和接近硬件的特性,时常会被用在性能要求较高或者需要直接操作硬件的场合,:本文主要介绍Java调用C++动态库的相关资料,文中通过代... 目录一、直接调用C++库第一步:动态库生成(vs2017+qt5.12.10)第二步:Java调用C++

Python基础文件操作方法超详细讲解(详解版)

《Python基础文件操作方法超详细讲解(详解版)》文件就是操作系统为用户或应用程序提供的一个读写硬盘的虚拟单位,文件的核心操作就是读和写,:本文主要介绍Python基础文件操作方法超详细讲解的相... 目录一、文件操作1. 文件打开与关闭1.1 打开文件1.2 关闭文件2. 访问模式及说明二、文件读写1.

C# WinForms存储过程操作数据库的实例讲解

《C#WinForms存储过程操作数据库的实例讲解》:本文主要介绍C#WinForms存储过程操作数据库的实例,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、存储过程基础二、C# 调用流程1. 数据库连接配置2. 执行存储过程(增删改)3. 查询数据三、事务处

C++快速排序超详细讲解

《C++快速排序超详细讲解》快速排序是一种高效的排序算法,通过分治法将数组划分为两部分,递归排序,直到整个数组有序,通过代码解析和示例,详细解释了快速排序的工作原理和实现过程,需要的朋友可以参考下... 目录一、快速排序原理二、快速排序标准代码三、代码解析四、使用while循环的快速排序1.代码代码1.由快

Java集合中的List超详细讲解

《Java集合中的List超详细讲解》本文详细介绍了Java集合框架中的List接口,包括其在集合中的位置、继承体系、常用操作和代码示例,以及不同实现类(如ArrayList、LinkedList和V... 目录一,List的继承体系二,List的常用操作及代码示例1,创建List实例2,增加元素3,访问元

Python使用国内镜像加速pip安装的方法讲解

《Python使用国内镜像加速pip安装的方法讲解》在Python开发中,pip是一个非常重要的工具,用于安装和管理Python的第三方库,然而,在国内使用pip安装依赖时,往往会因为网络问题而导致速... 目录一、pip 工具简介1. 什么是 pip?2. 什么是 -i 参数?二、国内镜像源的选择三、如何

Python itertools中accumulate函数用法及使用运用详细讲解

《Pythonitertools中accumulate函数用法及使用运用详细讲解》:本文主要介绍Python的itertools库中的accumulate函数,该函数可以计算累积和或通过指定函数... 目录1.1前言:1.2定义:1.3衍生用法:1.3Leetcode的实际运用:总结 1.1前言:本文将详

Redis的Zset类型及相关命令详细讲解

《Redis的Zset类型及相关命令详细讲解》:本文主要介绍Redis的Zset类型及相关命令的相关资料,有序集合Zset是一种Redis数据结构,它类似于集合Set,但每个元素都有一个关联的分数... 目录Zset简介ZADDZCARDZCOUNTZRANGEZREVRANGEZRANGEBYSCOREZ

Go中sync.Once源码的深度讲解

《Go中sync.Once源码的深度讲解》sync.Once是Go语言标准库中的一个同步原语,用于确保某个操作只执行一次,本文将从源码出发为大家详细介绍一下sync.Once的具体使用,x希望对大家有... 目录概念简单示例源码解读总结概念sync.Once是Go语言标准库中的一个同步原语,用于确保某个操

计算机毕业设计 大学志愿填报系统 Java+SpringBoot+Vue 前后端分离 文档报告 代码讲解 安装调试

🍊作者:计算机编程-吉哥 🍊简介:专业从事JavaWeb程序开发,微信小程序开发,定制化项目、 源码、代码讲解、文档撰写、ppt制作。做自己喜欢的事,生活就是快乐的。 🍊心愿:点赞 👍 收藏 ⭐评论 📝 🍅 文末获取源码联系 👇🏻 精彩专栏推荐订阅 👇🏻 不然下次找不到哟~Java毕业设计项目~热门选题推荐《1000套》 目录 1.技术选型 2.开发工具 3.功能