概率图

发布时间：2023-06-08 作者：admin 来源：文学

概率图

基准折现率-tears钢琴谱

2023年2月23日发(作者：守护明天观后感)

第14章概率图模型-隐马尔可夫模型

14.1隐马尔可夫模型

机器学习最重要的任务：

根据⼀些已经观察到的证据（例如训练样本）来对感兴趣的未知变量（例如类别标记）进⾏估计和推测。

具体来说，假定所关⼼的变量集合为，可观测变量集合为，其它变量的集合为，“⽣成式”模型考虑联合分布，“判别式”模型考虑条件分

布。给定⼀组变量值，推断就是要由或得到条件概率分布。

直接利⽤概率求和规则消去变量显然不可⾏，因为即便每个变量仅有两种取指的简单问题，其复杂度已⾄少是。另⼀⽅⾯，属性变量之间往

往存在复杂的联系，因此概率模型的学习，即基于训练样本来估计变量分布的参数往往相当困难。为了便于研究⾼效的推断和学习算法，需

要有⼀套简洁紧凑地表达变量关系的⼯具。

名词解释

概率模型（ProbabilisticModel）：提供了⼀种描述框架，将学习任务归结于计算变量的概率分布。

推断：在概率模型中，利⽤已知变量来推测未知变量的分布称为推断。

概率图模型（ProbabilisticGraphicalModel）：是⼀类⽤图来表达变量相关关系的概率模型

隐马尔可夫模型（HiddenMarkovModel，简称HMM）：是结构最简单的动态贝叶斯⽹络（DynamicBayesianNetwork），这

是⼀种著名的有向图模型，主要⽤于时序数据建模，在语⾳识别、⾃然语⾔处理等领域有⼴泛应⽤。

图1隐马尔可夫模型的图结构

如图所⽰，隐马尔可夫模型中的变量可以分为两组，第⼀组是状态变量，其中表⽰第时刻的系统状态。通常假定状态变量是隐藏的、不可

被观测的，因此状态变量亦称隐变量（hiddenvariable）。第⼆组是观测变量，其中表⽰第时刻的观测值。在隐马尔可夫模型中，系统通

常在多个状态之间转换，因此状态变量的取值范围（称为状态空间）通常是有个可能取值的离散空间。观测变量可以是离散型也可以是连续

型，为了便于讨论，我们仅考虑离散型观测变量，并假定其取指范围为。

图1中的箭头表⽰了变量间的依赖关系。在任⼀时刻，观测变量的取值仅依赖于状态变量，即由确定，与其他状态变量及观测变量的取值⽆

关。同时，时刻的状态仅依赖于时刻的状态，与其余个状态⽆关。这就是所谓的“马尔可夫链（Markovchain）”，即：系统下⼀个时刻

的状态仅由当前状态决定，不依赖于以往的任何状态。基于这种依赖关系，所有变量的联合概率分布为

除了结构信息，欲确定⼀个隐马尔可夫模型还需要以下三组参数：

（1）状态转移概率：模型在各个状态间转换的概率，通常记为矩阵，其中

表⽰在任意时刻，若状态为，则在下⼀时刻状态为的概率。

（2）输出观测概率：模型根据当前状态获得各个观测值的概率，通常记为矩阵，其中

表⽰在任意时刻，若状态为，则在下⼀刻状态为的概率。

（3）初始状态概率：模型在初始时刻各状态出现的概率，通常记为，其中

表⽰模型的初始状态为的概率。

观测序列的产⽣过程：

通过指定状态空间、观测空间和上述三个参数，就能确定⼀个隐马尔可夫模型，通过⽤其参数来指代。给定隐马尔可夫模型，它按如

下过程产⽣观测序列：

（1）设置，并根据初始状态概率选择初始状态;

（2）根据状态和输出观测概率选择观测变量取值；

（3）根据状态和状态转移矩阵转移模型状态，即确定；

（4）若，设置，并转到第（2）步，否则停⽌。

其中和分别为第时刻的状态和观测值。

在实际应⽤中，⼈们常关注隐马尔可夫模型的三个基本问题：

（1）给定模型，如何有效计算其产⽣观测序列的概率？换⾔之，如何评价模型与观测序列之间的匹配程度？

（2）给定模型和观测序列，如何找到与此观测序列最匹配的状态序列？换⾔之，如何根据观测序列推断出隐藏的模型状态？

（3）给定观测序列，如何调整模型参数使得该序列出现的概率最⼤？换⾔之，如何训练模型使其能最好地描述观测数据？

上述问题在现实应⽤中⾮常重要。例如许多任务需要根据以往的观测序列来推测当前时刻最有可能的观测值，这显然可转化为求取概率，即

上述第⼀个问题；在语⾳识别等任务中，观测值为语⾳信号，隐藏状态为⽂字，⽬标就是根据观测信号来推断最有可能的状态序列（即对应

的⽂字），即上述第⼆个问题；在⼤多数现实应⽤中，⼈⼯指定模型参数已变得越来越不可⾏，如何根据训练样本学得最优的模型参数，恰

是上述第三个问题。值得庆幸的是，基于式（1）的条件独⽴性，隐马尔可夫模型的这三个问题均能被⾼效求解。

👁️ 阅读量：0

🔖 本文标签：

🔥 最新发布文章