Neyman-Pearson决策

前导知识

：

【贝叶斯决策理论】
【贝叶斯决策中的两类错误率分析】

1. 决策的引入

在某些应用中，有时希望保证某一类错误率为一个固定水平，在此前提下再考虑另一类错误率尽可能低。比如，如果检测出某一目标或者诊断出某种疾病非常重要，可能会要求确保漏报率即第二类错误率达到某一水平 ε 0 \varepsilon_0 ε0（比如0.1%，即灵敏度99.9%），在此前提下再追求误报率即第一类错误率尽可能低（特异性尽可能高）。

如果把 w 1 w_1 w1类看成是阴性而把 w 2 w_2 w2类看成是阳性，那么第一类错误率：

P 1 ( e ) = ∫ R 2 ρ ( x ∣ w 1 ) d x (1) P_1(e)=\int_{R_2} \rho(x|w_1) dx \tag 1 P1(e)=∫R2ρ(x∣w1)dx(1)

第二类错误率：

P 2 ( e ) = ∫ R 1 ρ ( x ∣ w 2 ) d x (2) P_2(e)=\int_{R_1} \rho(x|w_2) dx \tag 2 P2(e)=∫R1ρ(x∣w2)dx(2)

其中 R 1 , R 2 R_1,R_2 R1,R2分别是第一、二两类的决策域。

于是决策转化为如下最优化问题：（固定一类错误率，使另一类错误率尽可能小）

m i n P 1 ( e ) s . t . P 2 ( e ) − ε 0 = 0 (3) min \ P_1(e) \\ s.t. P_2(e)-\varepsilon_0=0 \tag 3 min P1(e)s.t.P2(e)−ε0=0(3)

2. 转化：拉格朗日（Language）乘子法

用拉格朗日（Language）乘子法把 ( 3 ) (3) (3)的有约束极值问题转化为：

m i n γ = P 1 ( e ) + λ ( P 2 ( e ) − ε 0 ) (4) min \ \gamma=P_1(e)+\lambda(P_2(e)-\varepsilon_0) \tag 4 min γ=P1(e)+λ(P2(e)−ε0)(4)

其中 λ \lambda λ是拉格朗日乘子，最小值是关于两类的分界面求解的。设 R 1 , R 2 R_1,R_2 R1,R2分别是两类的决策区域， R R R是整个特征空间， R 1 + R 2 = R R_1+R_2=R R1+R2=R，两个决策区域之间的边界称作决策边界或分界面（点） x 0 x_0 x0。考虑到概率密度函数的性质，有：

∫ R 2 ρ ( x ∣ w 1 ) d x = 1 − ∫ R 1 ρ ( x ∣ w 1 ) d x (5) \int_{R_2} \rho(x|w_1)dx=1-\int_{R_1}\rho(x|w_1)dx \tag 5 ∫R2ρ(x∣w1)dx=1−∫R1ρ(x∣w1)dx(5)

将 ( 1 ) (1) (1)、 ( 2 ) (2) (2)两式代入 ( 5 ) (5) (5)中，可以得到：

γ = ∫ R 2 ρ ( x ∣ w 1 ) d x + λ [ ∫ R 1 ρ ( x ∣ w 2 ) d x − ε 0 ] = ( 1 − λ ε 0 ) + ∫ R 1 [ λ ρ ( x ∣ w 2 ) − ρ ( x ∣ w 1 ) ] d x (6) \gamma=\int_{R_2} \rho(x|w_1)dx+\lambda[\int_{R_1}\rho(x|w_2)dx-\varepsilon_0] \\ = (1- \lambda \varepsilon_0)+\int_{R_1} [\lambda \rho(x|w_2) - \rho(x|w_1)]dx \tag 6 γ=∫R2ρ(x∣w1)dx+λ[∫R1ρ(x∣w2)dx−ε0]=(1−λε0)+∫R1[λρ(x∣w2)−ρ(x∣w1)]dx(6)

优化的目标是求解使式 ( 6 ) (6) (6)最小的决策边界 x 0 x_0 x0。将式 ( 6 ) (6) (6)分别对 λ \lambda λ和分界面 x 0 x_0 x0求导:

∂ γ ∂ x 0 = λ ρ ( x ∣ w 2 ) − ρ ( x ∣ w 1 ) ∂ γ ∂ λ = ∫ R 1 ρ ( x ∣ w 2 ) d x − ε 0 (7) \frac{\partial \gamma}{\partial x_0}=\lambda \rho(x|w_2) - \rho(x|w_1) \\ \frac{\partial \gamma}{\partial \lambda} = \int_{R_1} \rho(x|w_2)dx - \varepsilon_0 \tag 7 ∂x0∂γ=λρ(x∣w2)−ρ(x∣w1)∂λ∂γ=∫R1ρ(x∣w2)dx−ε0(7)

在 γ \gamma γ的极值处这两个导数都应该为0，即有在决策边界上应该满足：

λ = ρ ( x ∣ w 1 ) ρ ( x ∣ w 2 ) (8) \lambda=\frac{\rho(x|w_1)}{\rho(x|w_2)} \tag 8 λ=ρ(x∣w2)ρ(x∣w1)(8)

而这个决策边界应该使：

∫ R 1 ρ ( x ∣ w 2 ) d x = ε 0 (9) \int_{R_1} \rho(x|w_2)dx = \varepsilon_0 \tag 9 ∫R1ρ(x∣w2)dx=ε0(9)

在式 ( 6 ) (6) (6)中，要使 γ \gamma γ最小，应选择 R 1 R_1 R1使积分项内全为负值，因此 R 1 R_1 R1应该是所有使：

λ ρ ( x ∣ w 2 ) − ρ ( x ∣ w 1 ) < 0 (10) \lambda \rho(x|w_2) - \rho(x|w_1) < 0 \tag {10} λρ(x∣w2)−ρ(x∣w1)<0(10)

成立的 x x x的组成的区域。

所以决策规则为：

若 l ( x ) = ρ ( x ∣ w 1 ) ρ ( x ∣ w 2 ) > ( < ) λ ，则 x ∈ w 1 ( w 2 ) (11) 若l(x)=\frac{\rho(x|w_1)}{\rho(x|w_2)}>(<) \lambda，则x \in w_1(w_2) \tag {11} 若l(x)=ρ(x∣w2)ρ(x∣w1)>(<)λ，则x∈w1(w2)(11)

其中 λ \lambda λ是使决策区域满足式 ( 9 ) (9) (9)的一个阈值。

在这种限定下判断一个特征向量属于哪一类的决策规则如 ( 11 ) (11) (11)式所示，该规则称为Neyman-Pearson决策规则。

3. 阈值的求解：试探法

一般来说使式 ( 9 ) (9) (9)满足的 λ \lambda λ很难求得封闭解，需要用数值方法求解。

可以用似然比密度函数来确定 λ \lambda λ值。似然比为 l ( x ) = ρ ( x ∣ w 1 ) / ρ ( x ∣ w 2 ) l(x)=\rho(x|w_1) / \rho(x|w_2) l(x)=ρ(x∣w1)/ρ(x∣w2)，似然比密度函数为 ρ ( l ∣ w 2 ) \rho(l|w_2) ρ(l∣w2)，式 ( 6 ) (6) (6)可变为：

P 2 ( e ) = 1 − ∫ 0 λ ρ ( l ∣ w 2 ) d l = ε 0 (12) P_2(e)=1-\int_{0}^{\lambda} \rho(l|w_2)dl =\varepsilon_0 \tag {12} P2(e)=1−∫0λρ(l∣w2)dl=ε0(12)

由于 ρ ( l ∣ w 2 ) ≥ 0 \rho(l|w_2) \geq 0 ρ(l∣w2)≥0， P 2 ( e ) P_2(e) P2(e)是 λ \lambda λ的单调函数，即当 λ \lambda λ增加时， P 2 ( e ) P_2(e) P2(e)逐渐减小。

当 λ = 0 \lambda = 0 λ=0时，则 P 2 ( e ) = 1 P_2(e)=1 P2(e)=1；
当 λ → ∞ \lambda \rightarrow \infty λ→∞时，则 P 2 ( e ) → 0 P_2(e) \rightarrow 0 P2(e)→0

因此，采用试探法对几个不同的 λ \lambda λ值计算出 P 2 ( e ) P_2(e) P2(e)后，总可以找到一个合适的 λ \lambda λ值，它刚好能满足 P 2 ( e ) = ε 0 P_2(e)=\varepsilon_0 P2(e)=ε0的条件，又使 P 1 ( e ) P_1(e) P1(e)尽可能小。

4. 三种决策规则的比较

决策名称	含义
最小化分类错误率	先验概率比 P ( w 2 ) / P ( w 1 ) P(w_2) / P(w_1) P(w2)/P(w1)作阈值，达到总的错误率最小，即两类错误率加权之和最小
最小平均风险	阈值中考虑了对两类错误率不同的惩罚，实现风险最小
Neyman-Pearson决策	通过调整阈值，使一类的错误率为指定数值，而另一类的错误率求最小

Neyman-Pearson决策Neyman-Pearson决策

Neyman-Pearson决策

1. 决策的引入

2. 转化：拉格朗日（Language）乘子法

3. 阈值的求解：试探法

4. 三种决策规则的比较

继续阅读

pth 转 onnx 时出现的 gather、unsqueeze 等算子

图像处理基础一(转)第1章 Windows位图和调色板

【概率密度函数估计】--- 最大似然估计与Parzen窗函数画法【概率密度函数估计】— 最大似然估计与Parsen窗函数画法

详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

《Pattern Recognition and Machine Learning》学习笔记第一章（三）

OpenCV人脸检测与人脸识别

模式识别导论（实验三）基于感知器算法的数字识别

机器学习聚类之Mean Shift

插值与拟合（一）（小白必看）

模式识别期末总结

Tesseract-OCR 的安装与使用

应用移动端银行卡识别技术，实现APP端快捷绑定银行卡号

拓端tecdat|R语言代写如何找到患者数据中具有差异的指标？（PLS—DA分析）

竞争神经网络

支持向量机SVM学习笔记（五）——问题的描述2

四：SVMSVM