天天看点

借一篇论文了解重要性采样

最近在看EMNLP上的一篇文章,Yang Y, Eisenstein J. A log-linear model for unsupervised text normalization[C]//Proc. of EMNLP. 2013.提到了用重要性采样解决隐状态搜索空间很大,因而无法用动归训练的无指导问题。文章就英文的Text Normalization任务提出这个方法,我觉得和中文NLP一些任务看成序列标准问题面临同样的问题,因此对该文的方法略做了了解。因为对重要性采样不甚了解,这篇文章看了很久,看完后觉得受益颇多。下面是对其他博客和wikipedia的理解之上的个人理解,或有‘毁人不倦’ 之嫌。

首先感谢两篇好文章:

如何理解重要性采样

说清楚重要性采样

下面是我根据论文整理的PPT的链接,个人理解,如果错误,还要继续改正:http://download.csdn.net/detail/girlhpp/6805345

总之,几句话重要性采样的关键在于:(摘自上面的ppt)

•引入了重要性密度函数,它的分布也被称为 建议分布 •P(x) 用一系列Q(x)采样的到的点 加权估计 •(w_k ) ̃=(P(x_k))/(Q(x_k)) •对Q(x)的要求:

  1.尽量好采样

  2.也尽量逼近P(x)

  The art of IS is Q(x)

•最优重要性密度函数:使得w_^k 方差最小

几句话总结序贯重要性采样SIS: SIS可以认为是IS的序列版本,建议重要性密度函数可以写成递推形式,所以sis的关键是设计递推表达式Q(t_n|t_n-1,s_n) •序贯蒙特卡洛对隐变量序列的进行采样 •适用于序列标准,也有其他broaduse •在SMC中,每个样本是一个序列t_(1:n)^k • •P(t|s) •直接采样是个非常非常高维的空间 不大可能采到 •SequentialImportance SamplingSIS 在Q(x) 下用少样本Particles逼近真实分布 •每一步每一个样本 都不断的更新wnk 以逼近px

继续阅读