大牛讲堂|语音专题第三讲,声学模型

2023-11-28 00:30

本文主要是介绍大牛讲堂|语音专题第三讲,声学模型,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

雷锋网(公众号:雷锋网)按:本文作者牛建伟,地平线语音算法工程师。硕士毕业于西北工业大学,曾任百度语音技术部资深工程师。主要工作方向是语音识别中声学模型的算法开发和优化,负责深度学习技术在声学模型上的应用和产品优化。参与了百度最早的深度学习系统研发,负责优化语音搜索、语音输入法等产品;后负责百度嵌入式语音开发,其负责的离线语音识别性能超越竞品。现任地平线机器人语音识别算法工程师,深度参与地平线“安徒生”智能家居平台的研发。

声学模型

语音技术在近年来开始改变我们的生活和工作方式。对于某些嵌入式设备来说,语音成为了人机交互的主要方式。出现这种趋势的原因,首先是计算能力的不断提升,通用GPU等高计算能力设备的发展,使得训练更复杂、更强大的声学模型(Acoustic Model, AM)变得可能,高性能的嵌入式处理器的出现,使语音识别的终端应用变得可能。

大牛讲堂|语音专题第三讲,声学模型

声学模型是人工智能领域的几大基本模型之一,基于深度学习的声学模型发展对于人工智能的拓展和交互方式的延伸都有着十分重要的意义。本期的大牛讲堂,我们邀请到地平线的语音算法工程师牛建伟为大家重磅科普何为声学模型。

自动语音识别

自动语音识别(Automatic Speech Recognition, ASR)作为一个研究领域已经发展了五十多年。这项技术的目标是将语音识别作为可以使得人与人、人与机器更顺畅交流的桥梁。然而,语音识别技术在过去并没有真正成为一种重要的人机交流形式,一部分原因是源于当时技术的落后,语音技术在大多数实际用户使用场景下还不大可用;另一部分原因是很多情况下使用键盘、鼠标这样的形式交流比语音更有效、更准确,约束更小。

语音技术在近年来开始改变我们的生活和工作方式。对于某些嵌入式设备来说,语音成为了人机交互的主要方式。出现这种趋势的原因:

首先是计算能力的不断提升,通用GPU等高计算能力设备的发展,使得训练更复杂、更强大的声学模型(Acoustic Model, AM)变得可能,高性能的嵌入式处理器的出现,使得语音识别的终端应用变得可能;

其次,借助近乎无处不在的互联网和不断发展的云计算,我们可以得到海量的语音数据资源,真实场景的数据使得语音识别系统变得更加鲁棒;

最后,移动设备、可穿戴设备、智能家居设备、车载信息娱乐系统正变得越来越流行,在这些设备上,语音交互变成了一个无法避免的交互方式。

语音识别基本组成

语音识别系统主要有四部分组成:信号处理和特征提取、声学模型、语言模型(Language Model, LM)和解码器(Decoder)。

大牛讲堂|语音专题第三讲,声学模型

信号处理和特征提取部分以音频信号为输入,通过消除噪音、信道失真等对语音进行增强,将语音信号从时域转化到频域,并为后面的声学模型提取合适的特征。声学模型将声学和发音学的知识进行整合,以特征提取模块提取的特征为输入,生成声学模型得分。

语言模型估计通过重训练语料学习词之间的相互概率,来估计假设词序列的可能性,也即语言模型得分。如果了解领域或者任务相关的先验知识,语言模型得分通常可以估计得更准确。解码器对给定的特征向量序列和若干假设词序列计算声学模型得分和语言模型得分,将总体输出分数最高的词序列作为识别结果。

关于声学模型,主要有两个问题,分别是特征向量序列的可变长和音频信号的丰富变化性。可变长特征向量序列问题在学术上通常有动态时间规划(Dynamic Time Warping, DTW)和隐马尔科夫模型(Hidden Markov Model, HMM)方法来解决。

而音频信号的丰富变化性是由说话人的各种复杂特性或者说话风格与语速、环境噪声、信道干扰、方言差异等因素引起的。声学模型需要足够的鲁棒性来处理以上的情况。

在过去,主流的语音识别系统通常使用梅尔倒谱系数(Mel-Frequency Cepstral Coefficient, MFCC)或者线性感知预测(Perceptual Linear Prediction, PLP)作为特征,使用混合高斯模型-隐马尔科夫模型(GMM-HMM)作为声学模型。在近些年,区分性模型,比如深度神经网络(Deep Neural Network, DNN)在对声学特征建模上表现出更好的效果。基于深度神经网络的声学模型,比如上下文相关的深度神经网络-隐马尔科夫模型(CD-DNN-HMM)在语音识别领域已经大幅度超越了过去的GMM-HMM模型。

我们首先介绍传统的GMM-HMM声学模型,然后介绍基于深度神经网络的声学模型。

传统声学模型(GMM-HMM)

HMM模型对时序信息进行建模,在给定HMM的一个状态后,GMM对属于该状态的语音特征向量的概率分布进行建模。

1.混合高斯模型

如果一个连续随机变量服从混合高斯分布,则它的概率密度函数为:

大牛讲堂|语音专题第三讲,声学模型

混合高斯模型分布最明显的性质是它的多模态,这使得混合高斯模型可以描述很多显示出多模态性质的屋里数据,比如语音数据,而单高斯分布则不合适。数据中的多模态性质可能来自多种潜在因素,每一个因素决定分布中特定的混合成分。如果因素被识别出来,那么混合分布就可以被分解成有多个因素独立分布的集合。

那么将上面公式推广到多变量的多元混合高斯分布,就是语音识别上使用的混合高斯模型,其联合概率密度函数的形式如下:

大牛讲堂|语音专题第三讲,声学模型

在得到混合高斯模型的形式后,需要估计混合高斯模型的一系列参数变量:大牛讲堂|语音专题第三讲,声学模型,我们主要采用最大期望值算法(Expectation Maximization, EM)进行参数估计,公式如下:

大牛讲堂|语音专题第三讲,声学模型

其中,j是当前迭代轮数,大牛讲堂|语音专题第三讲,声学模型为t时刻的特征向量。GMM参数通过EM算法进行估计,可以使其在训练数据上生成语音观察特征的概率最大化。此外,GMM模型只要混合的高斯分布数目足够多,GMM可以拟合任意精度的概率分布。

2.隐马尔可夫模型

为了描述语音数据,在马尔可夫链的基础上进行了扩展,用一个观测的概率分布与马尔可夫链上的每个状态进行对应,这样引入双重随机性,使得马尔可夫链不能被直接观察,故称为隐马尔可夫模型。隐马尔可夫模型能够描述语音信号中不平稳但有规律可学习的空间变量。具体的来说,隐马尔可夫模型具有顺序排列的马尔可夫状态,使得模型能够分段的处理短时平稳的语音特征,并以此来逼近全局非平稳的语音特征序列。

隐马尔可夫模型主要有三部分组成。对于状态序列大牛讲堂|语音专题第三讲,声学模型

(1)转移概率矩阵大牛讲堂|语音专题第三讲,声学模型,描述马尔可夫链状态间的跳转概率:

大牛讲堂|语音专题第三讲,声学模型

(2)马尔可夫链的初始概率大牛讲堂|语音专题第三讲,声学模型,其中大牛讲堂|语音专题第三讲,声学模型

(3)每个状态的观察概率分布大牛讲堂|语音专题第三讲,声学模型,按照上一节的介绍,我们会采用GMM模型来描述状态的观察概率分布。在这种情况下,公式可以表述为:

大牛讲堂|语音专题第三讲,声学模型

隐马尔可夫模型的参数通过Baum-Welch算法(在HMM上EM算法的推广)进行估计。

大牛讲堂|语音专题第三讲,声学模型

CD-DNN-HMM

虽然GMM-HMM在以往取得了很多成功,但是随着深度学习的发展,DNN模型展现出了明显超越GMM模型的性能,替代了GMM进行HMM状态建模。不同于GMM模型,DNN模型为了获得更好的性能提升,引入了上下文信息(也即前后特征帧信息),所以被称为CD-DNN-HMM(Context-Dependent DNN-HMM)模型。在很多测试集上CD-DNN-HMM模型都大幅度超越了GMM-HMM模型。

大牛讲堂|语音专题第三讲,声学模型

首先简单介绍一下DNN模型,DNN模型是有一个有很多隐层的多层感知机,下图就是具有5层的DNN,模型结构上包括输入层、隐层和输出层。对于第大牛讲堂|语音专题第三讲,声学模型层,有公式:

大牛讲堂|语音专题第三讲,声学模型

其中大牛讲堂|语音专题第三讲,声学模型分别表示,L层的输出向量,权重矩阵,输入向量以及偏差向量(bias);大牛讲堂|语音专题第三讲,声学模型一般称为激活函数,常用的激活函数有sigmoid函数大牛讲堂|语音专题第三讲,声学模型或者整流线性单元(Rectifier Linear Unit)大牛讲堂|语音专题第三讲,声学模型。在语音识别上应用的DNN模型一般采用softmax将模型输出向量进行归一化,假设模型有L层,在特征向量为 大牛讲堂|语音专题第三讲,声学模型,输出分类数为大牛讲堂|语音专题第三讲,声学模型 的情况下,则第大牛讲堂|语音专题第三讲,声学模型 类的输出概率为:

大牛讲堂|语音专题第三讲,声学模型

大牛讲堂|语音专题第三讲,声学模型

相比于GMM模型,DNN模型具有一些明显的优势:

首先,DNN是一种判别模型,自身便带有区分性,可以更好区分标注类别;


其次,DNN在大数据上有非常优异的表现,伴随着数据量的不断增加,GMM模型在2000小时左右便会出现性能的饱和,而DNN模型在数据量增加到1万小时以上时还能有性能的提升;


另外,DNN模型有更强的对环境噪声的鲁棒性,通过加噪训练等方式,DNN模型在复杂环境下的识别性能甚至可以超过使用语音增强算法处理的GMM模型。

除此之外,DNN还有一些有趣的性质,比如,在一定程度上,随着DNN网络深度的增加,模型的性能会持续提升,说明DNN伴随模型深度的增加,可以提取更有表达性、更利于分类的特征;人们利用这一性质,提取DNN模型的Bottle-neck特征,然后在训练GMM-HMM模型,可以取得和DNN模型相当的语音识别效果。

DNN应用到语音识别领域后取得了非常明显的效果,DNN技术的成功,鼓舞着业内人员不断将新的深度学习工具应用到语音识别上,从CNN到RNN再到RNN与CTC的结合等等,伴随着这个过程,语音识别的性能也在持续提升,未来我们可以期望将可以和机器进行无障碍的对话。

雷锋网注:本文由大牛讲堂授权雷锋网发布,如需转载请联系原作者,并注明作者和出处,不得删减内容。有兴趣可以关注公号地平线机器人技术,了解最新消息。


本文作者:大牛讲堂


本文转自雷锋网禁止二次转载,原文链接

这篇关于大牛讲堂|语音专题第三讲,声学模型的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/428752

相关文章

如何在本地部署 DeepSeek Janus Pro 文生图大模型

《如何在本地部署DeepSeekJanusPro文生图大模型》DeepSeekJanusPro模型在本地成功部署,支持图片理解和文生图功能,通过Gradio界面进行交互,展示了其强大的多模态处... 目录什么是 Janus Pro1. 安装 conda2. 创建 python 虚拟环境3. 克隆 janus

本地私有化部署DeepSeek模型的详细教程

《本地私有化部署DeepSeek模型的详细教程》DeepSeek模型是一种强大的语言模型,本地私有化部署可以让用户在自己的环境中安全、高效地使用该模型,避免数据传输到外部带来的安全风险,同时也能根据自... 目录一、引言二、环境准备(一)硬件要求(二)软件要求(三)创建虚拟环境三、安装依赖库四、获取 Dee

DeepSeek模型本地部署的详细教程

《DeepSeek模型本地部署的详细教程》DeepSeek作为一款开源且性能强大的大语言模型,提供了灵活的本地部署方案,让用户能够在本地环境中高效运行模型,同时保护数据隐私,在本地成功部署DeepSe... 目录一、环境准备(一)硬件需求(二)软件依赖二、安装Ollama三、下载并部署DeepSeek模型选

Golang的CSP模型简介(最新推荐)

《Golang的CSP模型简介(最新推荐)》Golang采用了CSP(CommunicatingSequentialProcesses,通信顺序进程)并发模型,通过goroutine和channe... 目录前言一、介绍1. 什么是 CSP 模型2. Goroutine3. Channel4. Channe

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

C++11第三弹:lambda表达式 | 新的类功能 | 模板的可变参数

🌈个人主页: 南桥几晴秋 🌈C++专栏: 南桥谈C++ 🌈C语言专栏: C语言学习系列 🌈Linux学习专栏: 南桥谈Linux 🌈数据结构学习专栏: 数据结构杂谈 🌈数据库学习专栏: 南桥谈MySQL 🌈Qt学习专栏: 南桥谈Qt 🌈菜鸡代码练习: 练习随想记录 🌈git学习: 南桥谈Git 🌈🌈🌈🌈🌈🌈🌈🌈🌈🌈🌈🌈🌈�

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

【专题】2024飞行汽车技术全景报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p=37628 6月16日,小鹏汇天旅航者X2在北京大兴国际机场临空经济区完成首飞,这也是小鹏汇天的产品在京津冀地区进行的首次飞行。小鹏汇天方面还表示,公司准备量产,并计划今年四季度开启预售小鹏汇天分体式飞行汽车,探索分体式飞行汽车城际通勤。阅读原文,获取专题报告合集全文,解锁文末271份飞行汽车相关行业研究报告。 据悉,业内人士对飞行汽车行业