天天看点

《深度学习导论及案例分析》一2.11概率图模型的推理

本节书摘来自华章出版社《深度学习导论及案例分析》一书中的第2章,第2.11节,作者李玉鑑 张婷,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

如果已经知道了概率图模型的结构和参数,就可以进行有关的推理(inference)。推理是指在给定观测结果时,评估变量的边际配置(marginal configuration)或最可能的配置(most likely configuration)。为了这个目标,需要把随机变量集x划分成三个互不相交子集o、q、h,即:

x=o∪q∪h

其中o代表观测节点集(或证据变量的集合),q代表查询变量集,h指既不属于o,也不属于q的节点集,也称为潜在变量集或隐含变量集。注意,它们的联合概率分布p(q,h,o)是一种生成模型,条件概率分布p(q,ho)则是一种判别模型。

推理有两种基本类型[119]:边际分布查询(marginalization query)和最大后验查询(maximum aposteriori query)。边际分布查询是在给定观察o的条件下,推理查询变量的边际分布,即计算:

其中,

最大后验查询是在给定某些证据的条件下,确定查询变量的最可能初值,即计算:

由于对概率图模型进行精确推理的计算复杂性会随着最大团的大小指数增加,所以在规模较大且连接紧密的概率图模型中实现精确推理是难解的,因此进行近似推理非常必要。

近似推理有三种基本策略[120]:变分方法(variational method)、消息传递(message passing)和采样方法(sampling method)。

变分方法的基本思想是在假定h=的前提下,用一个易于处理的替代分布g(q)对后验概率分布p(qo)进行近似。p(o)的对数形式可以分解如下:

其中kl(gp)≥0表示g(q)和p(qo)之间的kl散度,且根据杰森不等式[115],lb(g)是logp(o)的一个下界,即

因为logp(o)不依赖于g(q)和lb(g),且kl(gp)是非负的,所以最大化lb(g)等价于最小化kl(gp)。这意味着,关于g(q)最大化lb(g)就可以得到对后验概率分布p(qo)的最好近似。

在变分方法中,g(q)通常被限制为简单的可计算分布。比如,平均场近似(meanfield approxiamtion)是一种变分方法,最简单的情况要求g(q)具有如下可分解的形式:

消息传递算法在树结构的概率图模型上能够给出精确的推理结果,但是在带环或圈的任意图上并不能保证收敛性。而且即使收敛,得到的结果也可能只是精确解的近似。不过,令人吃惊的是,环状图上的消息传递常常收敛到稳定的后验或边际概率。最重要的突破在于发现对某些图结构来说,消息传递算法的不动点(fixed point)实际上就是贝蒂自由能(bethe free energy)的驻点(stationary point)[104]。这个发现澄清了消息传递的本质,建立了与大量物理文献的联系,并发展了广义信念传播算法(generalized belief propagation algorithm,gbp)。广义信念传播算法在节点区域上运行,同时在节点区域之间传递消息。环状信念传播算法(loopy belief propagation algorithm)的收敛性在许多应用中也得到了实验证实[122],并有大量相关的理论研究[123125]。

采样方法是从计算可行角度,通过蒙特卡罗程序(monte carlo procedure)计算兴趣量(quantities of interest)。最简单的情况是重要性采样(importance sampling)[126]和采样重要性重采样(sampling importance resampling)[127],用于估计函数的期望。在高维样本空间中,重要性采样存在很大的局限性。但是,马尔可夫链蒙特卡罗(markov chain monte carlo,mcmc)方法在各种不同维数的空间都能取得良好效果[128,129],其特殊情况是mh算法(metropolishastings algorithm)[130]和吉布斯采样(gibbs sampling)[131]。蒙特卡罗方法最主要的应用之一就是通过序列重要性采样(sequential importance sampling)建立非线性、非高斯粒子滤波器(particle filter)[132],其中后验分布用一组粒子(样本)表示。这种粒子滤波器推广了传统的线性高斯卡曼滤波器(kalman filter),在性能上优于经典的粒子滤波器。

继续阅读