隐马尔科夫模型Hmm的研究

2024-03-25 05:18
文章标签 模型 研究 hmm 马尔科夫

本文主要是介绍隐马尔科夫模型Hmm的研究,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

隐马尔科夫模型Hmm的研究

摘要

  • 隐马尔可夫模型(Hidden Markov Model,HMM)作为一种统计分析模型,创立于20世纪70年代。80年代得到了传播和发展,成为信号处理的一个重要方向,现已成功地用于语音识别,行为识别,文字识别以及故障诊断等领域。
  • 本文主要从以下几个方面研究了hmm。第一,分析了hmm经典三大问题及其推导过程。第二,总结hmm在语音信号处理上一个经典的应用——应用hmm说话人识别系统的搭建。第三,完成了hmm仿真实验,并给出了实验结果的分析。

引言

  • 一般的,隐马尔可夫模型(HMM)可以用五个元素来描述,包括2个状态集合和3个概率矩阵:

  • 1、隐含状态 S:
    这些状态之间满足马尔可夫性质,是马尔可夫模型中实际所隐含的状态。这些状态通常无法通过直接观测而得到。(例如S1、S2、S3等等)

  • 2、可观测状态 O:
    在模型中与隐含状态相关联,可通过直接观测而得到。(例如O1、O2、O3等等,可观测状态的数目不一定要和隐含状态的数目一致。)
  • 3、初始状态概率矩阵 π:表示隐含状态在初始时刻t=1的概率矩阵,(例如t=1时,P(S1)=p1、P(S2)=P2、P(S3)=p3,则初始状态概率矩阵 π=[ p1 p2 p3 ].
  • 4、隐含状态转移概率矩阵 A:描述了HMM模型中各个状态之间的转移概率。
    其中Aij = P( Sj | Si ),1≤i,,j≤N.表示在 t 时刻、状态为 Si 的条件下,在 t+1 时刻状态是 Sj 的概率。
  • 5、观测状态转移概率矩阵B:
    令N代表隐含状态数目,M代表可观测状态数目,则:
    Bij = P( Oi | Sj ), 1≤i≤M,1≤j≤N.
    表示在 t 时刻、隐含状态是 Sj 条件下,观察状态为 Oi 的概率。
    总结:一般的,可以用λ=(A,B,π)三元组来简洁的表示一个隐马尔可夫模型。隐马尔可夫模型实际上是标准马尔可夫模型的扩展,添加了可观测状态集合和这些状态与隐含状态之间的概率关系。

  • 同样,一个hmm模型也可以通过下图简单概括。

  • 上图有s1,s2,s3三种状态,三种状态有5种转移过程,如图示箭头表示,状态间的转移概率分别标识在图上,如s1-s1的概率是0.3。将状态序列用矩阵形式表示:
    a=这里写图片描述

  • 同时,每次转移都输出一个符号a或者b,输出符号取决于相应的概率。如,s1-s1输出a概率为0.8,输出b为0.2。

  • 那么,隐马尔科夫的”隐”体现在哪呢?假如我们得知上图所示的hmm输出符号序列aab,且是由s1开始至s3结束,那么可能存在的状态转移及其输出aab的概率有:、

    s1-s1-s2-s3: 0.3*0.8 * 0.5*1.0 * 0.6*0.5=0.036
    s1-s2-s2-s3: 0.5*1.0 * 0.4*0.3 * 0.6*0.5=0.018
    s1-s1-s1-s3: 0.3*0.8 * 0.3*0.8 * 0.2*1.0=0.01152
    
  • 由此可知,当我们知道hmm输出的状态序列,即便在我们知道尾状态时(起始状态必须知道),仍然不可知其具体的状态转移过程(即所谓的状态序列)。隐马尔科夫的隐即体现在此,对于马尔科夫链的观察值和状态是存在明确的一一对应关系的。

hmm的三大问题

  • 总结起来,hmm核心是三大问题,hmm能解决的问题也是这三大问题。

Q1:求观察序列出现的概率

  • 回顾引言所述的求观察序列aab出现的概率,我们可以把所有可能的状态序列求出(0.036+0.018+0.01152=0.06552),并将对应的概率依次相加,即可得到某个观察序列出现的概率。
  • 实际上这种穷举的方法计算量是非常庞大的,可以想象的是我们会重复计算很多的乘积项。为了降低计算量,Baum等人提出了一个更为有效的算法——前后项算法。
1、前向算法
  • 为了便于展示,一些hmm常用概念的符号表示如下
    这里写图片描述

  • 为了要得到概率P(O/M),利用前向算法的求解过程如下:
    这里写图片描述
    这里写图片描述

  • 其中步骤2给出了前向算法的递推公式,当我们要求前向概率αt,必须得求出前向的前向概率αt-1,以此类推一直求到α0即可。

  • 下面利用前向算法求出符号序列aab的概率
    这里写图片描述

  • 如图所示,要计算

        α1(1)=α0(1) * a11 * b11(a)=1 * 0.3 *  0.8=0.24α2(1)=α1(1) * a11 * b11(a)=0.24 * 0.24=0.0576...
    
  • 前向算法节省运算成本的原理与动态规划类似,如计算α2(1)时直接调用α1(1)的值,从而省去了计算一些小的乘积项(0.3 * 0.8),即把需要重复计算的过程的结果保存,用时直接调用即可。
后项算法
  • 后项算法的步骤与前向算法恰好相反,先初始化后项,然后向前递推。

这里写图片描述
这里写图片描述

Q2: 求出最佳的状态序列

  • 当我们知道之前的hmm模型输出的观察序列为aab时,Q2问题实质就是求出一个最大概率出现此观察序列的状态序列。
  • 解决这个问题的算法就是维特比算法,其求解最佳状态序列的步骤如下:

这里写图片描述

Q3:求出最佳的hmm模型

  • Q3问题就是给定观察序列,确定一个hmm模型(M={A,B,π};π为初始状态),使得P(O/M)最大。
  • Baum-Welch算法可以用来解决此问题,此算法是通过EM推导出来的,而EM的结论是建立在最大似然估计的基础之上的。
Q3.1:最大似然估计

这里写图片描述

  • 对于最大似然估计法,对于已经取得了样本值x1,x2,..,xn。我们期望用一个概率模型(假设是高斯分布)去估计它们,而最终的目的就是确定这个概率模型的参数(高斯分布的参数就是u和σ^2)使这个估计达到最佳。
  • 首先我们需要构建一个似然函数,然后分别以概率模型的各个参数为变量求出当似然函数达到最大时这个参数为多少。

  • 下面通过一个最大似然函数的具体实例,其展示了最大似然估法对正态分布的估计
    这里写图片描述

  • 关于最大函数的极大值,通常是通过求导得到。 为了求导方便,我们常常会选择对数似然函数。
    这里写图片描述

Q3.2:EM算法

这里写图片描述

  • (2)-(3)使用了Jensen不等式,其中等式成立的条件
    这里写图片描述

  • 至此,一般的EM算法的步骤表示如下:
    这里写图片描述

  • 简单的概述一下EM算法:就是 (E):推测隐含变量z服从某种分布,然后, (M):不断优化这个分布的参数直至算法收敛。

  • 根据EM我们可以推导出HMM第三个问题的矩阵A和矩阵B的估计:

这里写图片描述

这里写图片描述

  • 有了这个重估公式,a矩阵和b矩阵的估计就可以得到了。实际上,通过EM求得的ab矩阵的估计就是Baum-Welch算法:
  • 此算法的求解步骤如下:
    1) 选择一个合适的aij, bij(k)的初始状态,实际应用中,我们要根据观测序列做出的最合理的ab矩阵预估值作为初始值。
    这里写图片描述

这里写图片描述

这里写图片描述

基于hmm的语音识别系统

  • 一个hmm与文本有关的语言识别系统结构如上图所示。
  • 首先,提取说话人的语音特征(如倒谱及△倒谱等)的时间序列。
  • 然后用hmm从左到右建立这些时间序列的声学模型。
  • 在识别阶段,先从输入语言信号提取特征矢量的时间序列,然后利用hmm计算输入序列的生产概率,并根据一定的相似性准则来判断输出结果。

hmm的仿真实验

  • 初始状态转移矩阵为TRANS,观测值概率矩阵为EMIS。各矩阵的值如下:

TRANS =

  `[0.9 0.1; 0.05 0.95;];`

EMIS =

    [1/6, 1/6, 1/6, 1/6, 1/6, 1/6;7/12, 1/12, 1/12, 1/12, 1/12, 1/12];
  • 由上述的hmm模型随机生成一个可观测序列seq以及状态转移序列states,其值如下:

seq =

 2     2     3     2     6     1     1     1     1     1

states =

 1     1     1     1     1     2     2     2     2     2
  • 利用维特比算法求出的预测状态转移序列

likelystates =

 1     1     1     1     1     2     2     2     2     2
  • 下面利用Baum-Welch算法得出TRANS及EMIS矩阵的预测,先给其一个初始化值:

TRANS_GUESS =

    [0.85 0.15; 0.1 0.9];

EMIS_GUESS =

    [0.17 0.16 0.17 0.16 0.17 0.17;0.6 0.08 0.08 0.08 0.08 0.08];
  • 最终,算法输出的预测值如下:

TRANS_GUESS =

0.8500    0.1500
0.1000    0.9000

EMIS_GUESS =

0.1700    0.1600    0.1700    0.1600    0.1700    0.1700
0.6000    0.0800    0.0800    0.0800    0.0800    0.0800
  • 可见,维特比算法和Baum-Welch算法的预测值与实际值相差无几。其中,观察序列的长度与TRANS及EMIS矩阵的初始化值对结果有比较大的影响。

这篇关于隐马尔科夫模型Hmm的研究的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/843933

相关文章

Golang的CSP模型简介(最新推荐)

《Golang的CSP模型简介(最新推荐)》Golang采用了CSP(CommunicatingSequentialProcesses,通信顺序进程)并发模型,通过goroutine和channe... 目录前言一、介绍1. 什么是 CSP 模型2. Goroutine3. Channel4. Channe

关于Java内存访问重排序的研究

《关于Java内存访问重排序的研究》文章主要介绍了重排序现象及其在多线程编程中的影响,包括内存可见性问题和Java内存模型中对重排序的规则... 目录什么是重排序重排序图解重排序实验as-if-serial语义内存访问重排序与内存可见性内存访问重排序与Java内存模型重排序示意表内存屏障内存屏障示意表Int

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言