本文主要是介绍Time-Delay Neural Network(TDNN)-上,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
前言
- 本篇博客仅对TDNN的网络结构进行简单梳理,使读者对TDNN的网络结构有一个清晰直观的印象。博客基于对论文 Phoneme Recognition Using Time-Delay Neural Network 的阅读和理解,如有谬误,还望指出,不胜感激。
正文
TDNN与1989年就已提出(在我出生之前), 用于音素识别。以下部分将以论文中的结构做简单说明,网络结构如下图:
这是一个只有4层(包含输入层)的TDNN,每一层的Time-Delay用N表示,单元数用J表示,将逐层介绍。
- 输入层:N=1(因为输入层特征是单帧提取的), J=16(Mel滤波的维度为16),共15个frame;
- 第一隐层: N=2, J=8, 共13(15-2) frame, 参数量 8 x (2+1) * 16 = 384;
- 第二隐层: N=4, J=3, 共9(13-4) frame, 参数量 3 x (4+1) * 8 = 120;
- 输出层:N=8, J=3, 共1(9-8) frame, 参数量 3 x (8+1) * 3 = 81;
总的参数量为384 + 120 + 81 = 585,相比现在网络动辄上百万的参数量,简直轻量到不能再轻量了。论文中提到,最后一层再时间维度上共享参数,如此输出层的参数量为 3 x 3 = 9,总的参数量更少。
参考
- Phoneme Recognition Using Time-Delay Neural Network
- Time-Delay Neural Network
这篇关于Time-Delay Neural Network(TDNN)-上的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!