本文主要是介绍Time-Delay Neural Network(TDNN)-下,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
前言
- 本篇博客对TDNN网络结构的特性进行梳理,使读者了解设计所考虑的问题,关于其结构请参考博客Time-Delay Neural Network(TDNN)-上。博客基于对论文 Phoneme Recognition Using Time-Delay Neural Network 的阅读和理解,如有谬误,还望指出,不胜感激。
正文
语音识别的小伙伴都知道,语音识别通常要把一段不等场的语音切分成等长的小段,通常是每小段长度为25ms,然后以小段为单位进行处理,即只考虑当前帧。Time-Delay顾名思义即在时间上会有延迟,具体一点是指在识别的时候当前帧不仅考虑自身,还要参考一定数量的前后帧。
TDNN具有以下特性:
- 多层的feedforward NN及节点之间紧密的连接使得其可以表示复杂的非线性分类面;
- Time-Delay使得其可以学习到特征之间的时序依赖;
- 学习到的特征具有时移不变性,同一个音素出现在语音的不同位置学到的特征应该尽可能相近;
- 学习过程中特征和标签不需要精确地对齐;
- 参数数量应该远小于训练样本的数量;
这篇关于Time-Delay Neural Network(TDNN)-下的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!