Neyman-Pearson决策
前导知识
:
- 【贝叶斯决策理论】
- 【贝叶斯决策中的两类错误率分析】
1. 决策的引入
在某些应用中,有时希望保证某一类错误率为一个固定水平,在此前提下再考虑另一类错误率尽可能低。比如,如果检测出某一目标或者诊断出某种疾病非常重要,可能会要求确保漏报率即第二类错误率达到某一水平 ε 0 \varepsilon_0 ε0(比如0.1%,即灵敏度99.9%),在此前提下再追求误报率即第一类错误率尽可能低(特异性尽可能高)。
如果把 w 1 w_1 w1类看成是阴性而把 w 2 w_2 w2类看成是阳性,那么第一类错误率:
P 1 ( e ) = ∫ R 2 ρ ( x ∣ w 1 ) d x (1) P_1(e)=\int_{R_2} \rho(x|w_1) dx \tag 1 P1(e)=∫R2ρ(x∣w1)dx(1)
第二类错误率:
P 2 ( e ) = ∫ R 1 ρ ( x ∣ w 2 ) d x (2) P_2(e)=\int_{R_1} \rho(x|w_2) dx \tag 2 P2(e)=∫R1ρ(x∣w2)dx(2)
其中 R 1 , R 2 R_1,R_2 R1,R2分别是第一、二两类的决策域。
于是决策转化为如下最优化问题:(固定一类错误率,使另一类错误率尽可能小)
m i n P 1 ( e ) s . t . P 2 ( e ) − ε 0 = 0 (3) min \ P_1(e) \\ s.t. P_2(e)-\varepsilon_0=0 \tag 3 min P1(e)s.t.P2(e)−ε0=0(3)
2. 转化:拉格朗日(Language)乘子法
用拉格朗日(Language)乘子法把 ( 3 ) (3) (3)的有约束极值问题转化为:
m i n γ = P 1 ( e ) + λ ( P 2 ( e ) − ε 0 ) (4) min \ \gamma=P_1(e)+\lambda(P_2(e)-\varepsilon_0) \tag 4 min γ=P1(e)+λ(P2(e)−ε0)(4)
其中 λ \lambda λ是拉格朗日乘子,最小值是关于两类的分界面求解的。设 R 1 , R 2 R_1,R_2 R1,R2分别是两类的决策区域, R R R是整个特征空间, R 1 + R 2 = R R_1+R_2=R R1+R2=R,两个决策区域之间的边界称作决策边界或分界面(点) x 0 x_0 x0。考虑到概率密度函数的性质,有:
∫ R 2 ρ ( x ∣ w 1 ) d x = 1 − ∫ R 1 ρ ( x ∣ w 1 ) d x (5) \int_{R_2} \rho(x|w_1)dx=1-\int_{R_1}\rho(x|w_1)dx \tag 5 ∫R2ρ(x∣w1)dx=1−∫R1ρ(x∣w1)dx(5)
将 ( 1 ) (1) (1)、 ( 2 ) (2) (2)两式代入 ( 5 ) (5) (5)中,可以得到:
γ = ∫ R 2 ρ ( x ∣ w 1 ) d x + λ [ ∫ R 1 ρ ( x ∣ w 2 ) d x − ε 0 ] = ( 1 − λ ε 0 ) + ∫ R 1 [ λ ρ ( x ∣ w 2 ) − ρ ( x ∣ w 1 ) ] d x (6) \gamma=\int_{R_2} \rho(x|w_1)dx+\lambda[\int_{R_1}\rho(x|w_2)dx-\varepsilon_0] \\ = (1- \lambda \varepsilon_0)+\int_{R_1} [\lambda \rho(x|w_2) - \rho(x|w_1)]dx \tag 6 γ=∫R2ρ(x∣w1)dx+λ[∫R1ρ(x∣w2)dx−ε0]=(1−λε0)+∫R1[λρ(x∣w2)−ρ(x∣w1)]dx(6)
优化的目标是求解使式 ( 6 ) (6) (6)最小的决策边界 x 0 x_0 x0。将式 ( 6 ) (6) (6)分别对 λ \lambda λ和分界面 x 0 x_0 x0求导:
∂ γ ∂ x 0 = λ ρ ( x ∣ w 2 ) − ρ ( x ∣ w 1 ) ∂ γ ∂ λ = ∫ R 1 ρ ( x ∣ w 2 ) d x − ε 0 (7) \frac{\partial \gamma}{\partial x_0}=\lambda \rho(x|w_2) - \rho(x|w_1) \\ \frac{\partial \gamma}{\partial \lambda} = \int_{R_1} \rho(x|w_2)dx - \varepsilon_0 \tag 7 ∂x0∂γ=λρ(x∣w2)−ρ(x∣w1)∂λ∂γ=∫R1ρ(x∣w2)dx−ε0(7)
在 γ \gamma γ的极值处这两个导数都应该为0,即有在决策边界上应该满足:
λ = ρ ( x ∣ w 1 ) ρ ( x ∣ w 2 ) (8) \lambda=\frac{\rho(x|w_1)}{\rho(x|w_2)} \tag 8 λ=ρ(x∣w2)ρ(x∣w1)(8)
而这个决策边界应该使:
∫ R 1 ρ ( x ∣ w 2 ) d x = ε 0 (9) \int_{R_1} \rho(x|w_2)dx = \varepsilon_0 \tag 9 ∫R1ρ(x∣w2)dx=ε0(9)
在式 ( 6 ) (6) (6)中,要使 γ \gamma γ最小,应选择 R 1 R_1 R1使积分项内全为负值,因此 R 1 R_1 R1应该是所有使:
λ ρ ( x ∣ w 2 ) − ρ ( x ∣ w 1 ) < 0 (10) \lambda \rho(x|w_2) - \rho(x|w_1) < 0 \tag {10} λρ(x∣w2)−ρ(x∣w1)<0(10)
成立的 x x x的组成的区域。
所以决策规则为:
若 l ( x ) = ρ ( x ∣ w 1 ) ρ ( x ∣ w 2 ) > ( < ) λ , 则 x ∈ w 1 ( w 2 ) (11) 若l(x)=\frac{\rho(x|w_1)}{\rho(x|w_2)}>(<) \lambda,则x \in w_1(w_2) \tag {11} 若l(x)=ρ(x∣w2)ρ(x∣w1)>(<)λ,则x∈w1(w2)(11)
其中 λ \lambda λ是使决策区域满足式 ( 9 ) (9) (9)的一个阈值。
在这种限定下判断一个特征向量属于哪一类的决策规则如 ( 11 ) (11) (11)式所示,该规则称为Neyman-Pearson决策规则。
3. 阈值的求解:试探法
一般来说使式 ( 9 ) (9) (9)满足的 λ \lambda λ很难求得封闭解,需要用数值方法求解。
可以用似然比密度函数来确定 λ \lambda λ值。似然比为 l ( x ) = ρ ( x ∣ w 1 ) / ρ ( x ∣ w 2 ) l(x)=\rho(x|w_1) / \rho(x|w_2) l(x)=ρ(x∣w1)/ρ(x∣w2),似然比密度函数为 ρ ( l ∣ w 2 ) \rho(l|w_2) ρ(l∣w2),式 ( 6 ) (6) (6)可变为:
P 2 ( e ) = 1 − ∫ 0 λ ρ ( l ∣ w 2 ) d l = ε 0 (12) P_2(e)=1-\int_{0}^{\lambda} \rho(l|w_2)dl =\varepsilon_0 \tag {12} P2(e)=1−∫0λρ(l∣w2)dl=ε0(12)
由于 ρ ( l ∣ w 2 ) ≥ 0 \rho(l|w_2) \geq 0 ρ(l∣w2)≥0, P 2 ( e ) P_2(e) P2(e)是 λ \lambda λ的单调函数,即当 λ \lambda λ增加时, P 2 ( e ) P_2(e) P2(e)逐渐减小。
- 当 λ = 0 \lambda = 0 λ=0时,则 P 2 ( e ) = 1 P_2(e)=1 P2(e)=1;
- 当 λ → ∞ \lambda \rightarrow \infty λ→∞时,则 P 2 ( e ) → 0 P_2(e) \rightarrow 0 P2(e)→0
因此,采用试探法对几个不同的 λ \lambda λ值计算出 P 2 ( e ) P_2(e) P2(e)后,总可以找到一个合适的 λ \lambda λ值,它刚好能满足 P 2 ( e ) = ε 0 P_2(e)=\varepsilon_0 P2(e)=ε0的条件,又使 P 1 ( e ) P_1(e) P1(e)尽可能小。
4. 三种决策规则的比较
决策名称 | 含义 |
---|---|
最小化分类错误率 | 先验概率比 P ( w 2 ) / P ( w 1 ) P(w_2) / P(w_1) P(w2)/P(w1)作阈值,达到总的错误率最小,即两类错误率加权之和最小 |
最小平均风险 | 阈值中考虑了对两类错误率不同的惩罚,实现风险最小 |
Neyman-Pearson决策 | 通过调整阈值,使一类的错误率为指定数值,而另一类的错误率求最小 |