天天看点

Neyman-Pearson决策Neyman-Pearson决策

Neyman-Pearson决策

前导知识

  1. 【贝叶斯决策理论】
  2. 【贝叶斯决策中的两类错误率分析】

1. 决策的引入

在某些应用中,有时希望保证某一类错误率为一个固定水平,在此前提下再考虑另一类错误率尽可能低。比如,如果检测出某一目标或者诊断出某种疾病非常重要,可能会要求确保漏报率即第二类错误率达到某一水平 ε 0 \varepsilon_0 ε0​(比如0.1%,即灵敏度99.9%),在此前提下再追求误报率即第一类错误率尽可能低(特异性尽可能高)。

如果把 w 1 w_1 w1​类看成是阴性而把 w 2 w_2 w2​类看成是阳性,那么第一类错误率:

P 1 ( e ) = ∫ R 2 ρ ( x ∣ w 1 ) d x (1) P_1(e)=\int_{R_2} \rho(x|w_1) dx \tag 1 P1​(e)=∫R2​​ρ(x∣w1​)dx(1)

第二类错误率:

P 2 ( e ) = ∫ R 1 ρ ( x ∣ w 2 ) d x (2) P_2(e)=\int_{R_1} \rho(x|w_2) dx \tag 2 P2​(e)=∫R1​​ρ(x∣w2​)dx(2)

其中 R 1 , R 2 R_1,R_2 R1​,R2​分别是第一、二两类的决策域。

于是决策转化为如下最优化问题:(固定一类错误率,使另一类错误率尽可能小)

m i n   P 1 ( e ) s . t . P 2 ( e ) − ε 0 = 0 (3) min \ P_1(e) \\ s.t. P_2(e)-\varepsilon_0=0 \tag 3 min P1​(e)s.t.P2​(e)−ε0​=0(3)

2. 转化:拉格朗日(Language)乘子法

用拉格朗日(Language)乘子法把 ( 3 ) (3) (3)的有约束极值问题转化为:

m i n   γ = P 1 ( e ) + λ ( P 2 ( e ) − ε 0 ) (4) min \ \gamma=P_1(e)+\lambda(P_2(e)-\varepsilon_0) \tag 4 min γ=P1​(e)+λ(P2​(e)−ε0​)(4)

其中 λ \lambda λ是拉格朗日乘子,最小值是关于两类的分界面求解的。设 R 1 , R 2 R_1,R_2 R1​,R2​分别是两类的决策区域, R R R是整个特征空间, R 1 + R 2 = R R_1+R_2=R R1​+R2​=R,两个决策区域之间的边界称作决策边界或分界面(点) x 0 x_0 x0​。考虑到概率密度函数的性质,有:

∫ R 2 ρ ( x ∣ w 1 ) d x = 1 − ∫ R 1 ρ ( x ∣ w 1 ) d x (5) \int_{R_2} \rho(x|w_1)dx=1-\int_{R_1}\rho(x|w_1)dx \tag 5 ∫R2​​ρ(x∣w1​)dx=1−∫R1​​ρ(x∣w1​)dx(5)

将 ( 1 ) (1) (1)、 ( 2 ) (2) (2)两式代入 ( 5 ) (5) (5)中,可以得到:

γ = ∫ R 2 ρ ( x ∣ w 1 ) d x + λ [ ∫ R 1 ρ ( x ∣ w 2 ) d x − ε 0 ] = ( 1 − λ ε 0 ) + ∫ R 1 [ λ ρ ( x ∣ w 2 ) − ρ ( x ∣ w 1 ) ] d x (6) \gamma=\int_{R_2} \rho(x|w_1)dx+\lambda[\int_{R_1}\rho(x|w_2)dx-\varepsilon_0] \\ = (1- \lambda \varepsilon_0)+\int_{R_1} [\lambda \rho(x|w_2) - \rho(x|w_1)]dx \tag 6 γ=∫R2​​ρ(x∣w1​)dx+λ[∫R1​​ρ(x∣w2​)dx−ε0​]=(1−λε0​)+∫R1​​[λρ(x∣w2​)−ρ(x∣w1​)]dx(6)

优化的目标是求解使式 ( 6 ) (6) (6)最小的决策边界 x 0 x_0 x0​。将式 ( 6 ) (6) (6)分别对 λ \lambda λ和分界面 x 0 x_0 x0​求导:

∂ γ ∂ x 0 = λ ρ ( x ∣ w 2 ) − ρ ( x ∣ w 1 ) ∂ γ ∂ λ = ∫ R 1 ρ ( x ∣ w 2 ) d x − ε 0 (7) \frac{\partial \gamma}{\partial x_0}=\lambda \rho(x|w_2) - \rho(x|w_1) \\ \frac{\partial \gamma}{\partial \lambda} = \int_{R_1} \rho(x|w_2)dx - \varepsilon_0 \tag 7 ∂x0​∂γ​=λρ(x∣w2​)−ρ(x∣w1​)∂λ∂γ​=∫R1​​ρ(x∣w2​)dx−ε0​(7)

在 γ \gamma γ的极值处这两个导数都应该为0,即有在决策边界上应该满足:

λ = ρ ( x ∣ w 1 ) ρ ( x ∣ w 2 ) (8) \lambda=\frac{\rho(x|w_1)}{\rho(x|w_2)} \tag 8 λ=ρ(x∣w2​)ρ(x∣w1​)​(8)

而这个决策边界应该使:

∫ R 1 ρ ( x ∣ w 2 ) d x = ε 0 (9) \int_{R_1} \rho(x|w_2)dx = \varepsilon_0 \tag 9 ∫R1​​ρ(x∣w2​)dx=ε0​(9)

在式 ( 6 ) (6) (6)中,要使 γ \gamma γ最小,应选择 R 1 R_1 R1​使积分项内全为负值,因此 R 1 R_1 R1​应该是所有使:

λ ρ ( x ∣ w 2 ) − ρ ( x ∣ w 1 ) < 0 (10) \lambda \rho(x|w_2) - \rho(x|w_1) < 0 \tag {10} λρ(x∣w2​)−ρ(x∣w1​)<0(10)

成立的 x x x的组成的区域。

所以决策规则为:

若 l ( x ) = ρ ( x ∣ w 1 ) ρ ( x ∣ w 2 ) > ( < ) λ , 则 x ∈ w 1 ( w 2 ) (11) 若l(x)=\frac{\rho(x|w_1)}{\rho(x|w_2)}>(<) \lambda,则x \in w_1(w_2) \tag {11} 若l(x)=ρ(x∣w2​)ρ(x∣w1​)​>(<)λ,则x∈w1​(w2​)(11)

其中 λ \lambda λ是使决策区域满足式 ( 9 ) (9) (9)的一个阈值。

在这种限定下判断一个特征向量属于哪一类的决策规则如 ( 11 ) (11) (11)式所示,该规则称为Neyman-Pearson决策规则。

3. 阈值的求解:试探法

一般来说使式 ( 9 ) (9) (9)满足的 λ \lambda λ很难求得封闭解,需要用数值方法求解。

可以用似然比密度函数来确定 λ \lambda λ值。似然比为 l ( x ) = ρ ( x ∣ w 1 ) / ρ ( x ∣ w 2 ) l(x)=\rho(x|w_1) / \rho(x|w_2) l(x)=ρ(x∣w1​)/ρ(x∣w2​),似然比密度函数为 ρ ( l ∣ w 2 ) \rho(l|w_2) ρ(l∣w2​),式 ( 6 ) (6) (6)可变为:

P 2 ( e ) = 1 − ∫ 0 λ ρ ( l ∣ w 2 ) d l = ε 0 (12) P_2(e)=1-\int_{0}^{\lambda} \rho(l|w_2)dl =\varepsilon_0 \tag {12} P2​(e)=1−∫0λ​ρ(l∣w2​)dl=ε0​(12)

由于 ρ ( l ∣ w 2 ) ≥ 0 \rho(l|w_2) \geq 0 ρ(l∣w2​)≥0, P 2 ( e ) P_2(e) P2​(e)是 λ \lambda λ的单调函数,即当 λ \lambda λ增加时, P 2 ( e ) P_2(e) P2​(e)逐渐减小。

  1. 当 λ = 0 \lambda = 0 λ=0时,则 P 2 ( e ) = 1 P_2(e)=1 P2​(e)=1;
  2. 当 λ → ∞ \lambda \rightarrow \infty λ→∞时,则 P 2 ( e ) → 0 P_2(e) \rightarrow 0 P2​(e)→0

因此,采用试探法对几个不同的 λ \lambda λ值计算出 P 2 ( e ) P_2(e) P2​(e)后,总可以找到一个合适的 λ \lambda λ值,它刚好能满足 P 2 ( e ) = ε 0 P_2(e)=\varepsilon_0 P2​(e)=ε0​的条件,又使 P 1 ( e ) P_1(e) P1​(e)尽可能小。

4. 三种决策规则的比较

决策名称 含义
最小化分类错误率 先验概率比 P ( w 2 ) / P ( w 1 ) P(w_2) / P(w_1) P(w2​)/P(w1​)作阈值,达到总的错误率最小,即两类错误率加权之和最小
最小平均风险 阈值中考虑了对两类错误率不同的惩罚,实现风险最小
Neyman-Pearson决策 通过调整阈值,使一类的错误率为指定数值,而另一类的错误率求最小

继续阅读