CTC,RNN-Transducer, LAS

2024-08-23 14:18

文章标签 rnn las ctc transducer

本文主要是介绍CTC,RNN-Transducer, LAS，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

1、CTC ( Connectionist Temporal Classification)

网络结构

参考地址: CTC白话参考地址

其中CTC-loss 部分使用到了动态规划的思想。
大目标是：

$\sum_{B(\pi)=z } {\prod_{t=1}^{T} y_{\pi_t}^{t}} \\ min \sum_{B(\pi)=z } {\sum_{t=1}^{T} log(y_{\pi_t}^{t})}$

其中 $T$ 表示总帧数。 $y_{\pi_t}^{t}$ 表示模型预测的第t帧，因素为 $\pi_t$ 的概率值。

dp[i][j]: 表示第考虑到i帧，压缩路径满足 $z = (n, i, h, a, o)$ 的前j个时的，所有路径总概率和。记为：
$\sum_{B(\pi)=z } {\prod_{t=1}^{i} y_{\pi_t}^{t}}$

所以状态转移方程为:
$dp[i][j] = dp[i-1][j] * y_{z_j} + dp[i][j-1] * y_{z_j}$

2、RNN-Transducer

网络结构

3、LAS(Listen Attention Speech)

网络结构

这篇关于CTC,RNN-Transducer, LAS的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/1099612。 23002807@qq.com

相关文章

RNN发展（RNN/LSTM/GRU/GNMT/transformer/RWKV）

RNN发展（RNN/LSTM/GRU/GNMT/transformer/RWKV）

RNN到GRU参考： https://blog.csdn.net/weixin_36378508/article/details/115101779 tRANSFORMERS参考： seq2seq到attention到transformer理解 GNMT 2016年9月谷歌,基于神经网络的翻译系统（GNMT），并宣称GNMT在多个主要语言对的翻译中将翻译误差降低了55%-85%以上， G

阅读更多...

白话RNN系列（七）

白话RNN系列（七）

本文，探讨下LSTM的一些高级应用，比如双向LSTM。前面的探讨过程中，我们使用到的RNN或者LSTM都是单向的，即按照时间顺序排列的一维序列；而在实际应用中，双向的RNN由于考虑到更充足的上下文，往往能起到更好的效果： Bi-RNN又叫双向RNN，是采用了两个方向的RNN网络。 RNN网络擅长的是对于连续数据的处理，既然是连续的数据规律，我们不仅可以学习它的正向规律，还可以学习它的反向规

阅读更多...

白话RNN系列（六）

白话RNN系列（六）

上文给出了一个LSTM使用的具体例子，但其中依旧存在一些东西说的不是很清楚明白，接下来，我们会针对LSTM使用中更加细致的一些东西，做一些介绍。本人目前使用的基本都是TensorFlow进行开发。 lstm_cell = tf.nn.rnn_cell.LSTMCell(n_hidden, forget_bias=1.0, name='basic_lstm_cell')outputs, st

阅读更多...

白话RNN系列（五）

白话RNN系列（五）

前文，对于LSTM的结构进行了系统的介绍，本文，通过一个MNIST_data的例子，争取能够把LSTM的基本使用来吃透。 import tensorflow as tfimport input_data# 导入 MINST 数据集# from tensorflow.examples.tutorials.mnist import input_data# one_hot=True，代表输入的

阅读更多...

白话RNN系列（四）

白话RNN系列（四）

本文，谈谈RNN的一个变种，也是目前使用比较广泛的神经网络LSTM，我们首先描述下LSTM的基本结构，然后给出一个具体的使用LSTM的例子，帮助大家尽快掌握LSTM的原理和基本使用方法；这可能是一张大家熟悉地不能再熟悉的图片了。我们可以将其与RNN的基本结构进行对比：我们可以看到区别：RNN中，每个循环体会产生一份输出，即隐藏状态；最终输出由此隐藏状态产出，同时，隐藏状态会保

阅读更多...

白话RNN系列（三）

白话RNN系列（三）

紧接上文，白话RNN系列（二）。通过generateData得到我们的样本数据之后，我们开始搭建自己的RNN： # 每个批次输入的数据，这里定义为5，即每个批次输入5个数据batch_size = 5# RNN中循环的次数，即时间序列的长度# 这里取长度为15的时间序列truncated_backprop_length = 15# 与时间序列相对应，占位符的维度为 5 * 15#

阅读更多...

白话RNN系列（二）

白话RNN系列（二）

紧接白话谈RNN系列（一）上文讨论了基础的全连接神经网络，本文，我们来说说RNN。首先，RNN相比于普通的神经网络，有什么改进？两点比较突出：权值共享和隐层神经元节点的有序连接。直接上图，浅显易懂：上图，摘自深度学习（花书），左侧图和右侧图表达了相同的含义，我们以右侧图为例，并配合实例，对RNN进行透彻的分析，我尽可能以很通俗移动的方式把RNN讲明白。从本图中，我们很清

阅读更多...

白话RNN系列（一）

白话RNN系列（一）

RNN，循环神经网络，全称Recurrent Neural Network。本文，从RNN的基本原理讲起，会探讨RNN的前向传播和反向传播，并通过一些浅显易懂的小例子，展示RNN这个东东的神奇之处，尽最大可能以通俗易懂的方式，让看到本文的童鞋都能够掌握RNN。 1：RNN的基本原理即便是RNN，也依旧脱离不了神经网络的基本架构，换句话说，我们看RNN的时候，一定要记住一句，它不过是高级一

阅读更多...

机器学习项目——基于机器学习（RNN LSTM 高斯拟合 MLP）的锂离子电池剩余寿命预测方法研究（代码/论文）

机器学习项目——基于机器学习（RNN LSTM 高斯拟合 MLP）的锂离子电池剩余寿命预测方法研究（代码/论文）

完整的论文代码见文章末尾以下为核心内容和部分结果摘要机器学习方法在电池寿命预测中的应用主要包括监督学习、无监督学习和强化学习等。监督学习方法通过构建回归模型或分类模型，直接预测电池的剩余寿命或健康状态。无监督学习方法则通过聚类分析和降维技术，识别电池数据中的潜在模式和特征。强化学习方法通过构建动态决策模型，在电池运行过程中不断优化预测策略和调整参数。上述方法不仅可以提高预测精度，还可以在

阅读更多...

3. 循环神经网络（RNN）与长短期记忆网络（LSTM）

3. 循环神经网络（RNN）与长短期记忆网络（LSTM）

引言循环神经网络（RNN）和长短期记忆网络（LSTM）是处理序列数据的关键模型，广泛应用于自然语言处理、时间序列预测、语音识别等领域。RNN通过循环结构捕捉序列中的时间依赖关系，而LSTM则通过特殊的记忆单元解决了RNN中的梯度消失问题。本篇博文将深入探讨RNN和LSTM的结构、工作原理，以及其在序列数据处理中的应用。 1. RNN的工作原理及局限性循环神经网络（RNN）是一类用于处理序

阅读更多...