《统计推断第二版》笔记——假设检验

假设检验

- - 8.2.2 Bayes检验
  - 8.2.3 并-交检验与交-并检验
- 8.3 检验的评价方法
- - 8.3.1 错误概率与功效函数
  - 8.3.2 最大功效检验
  - 8.3.3 并-交检验与交-并检验的真是水平
  - 8.3.4 p-值
  - 8.3.5 损失函数最优性

8.2.2 Bayes检验

在一个建设检验问题中，后验分布可以用来计算 H 0 H_0 H0和 H 1 H_1 H1为真的概率。记住， π ( θ ∣ x ) \pi (\theta| \mathbf x) π(θ∣x)是一个关于随机变量的概率分布。因此，后验概率 P ( θ ∈ Θ 0 ∣ x ) = P ( H 0 为真 ∣ x ) P(\theta \in \Theta_0|\mathbf x) = P(H_0为真|\mathbf x) P(θ∈Θ0∣x)=P(H0为真∣x)与 P ( θ ∈ Θ 0 c ∣ x ) = P ( H 1 为真 ∣ x ) P(\theta \in \Theta_0^c|\mathbf x) = P(H_1为真|\mathbf x) P(θ∈Θ0c∣x)=P(H1为真∣x)都可以计算出来。

Bayes假设检验利用后验分布进行假设检验，一种可能的方法是：如果 P ( θ ∈ Θ 0 ∣ x ) ⩾ P ( θ ∈ Θ 0 c ∣ x ) P(\theta \in \Theta_0|\mathbf x)\geqslant P(\theta \in \Theta_0^c|\mathbf x) P(θ∈Θ0∣x)⩾P(θ∈Θ0c∣x)就接受 H 0 H_0 H0。用以假设检验的术语描述就是，检验统计量即样本的一个函数，取 P ( θ ∈ Θ 0 c ∣ x ) P(\theta \in \Theta_0^c|\mathbf x) P(θ∈Θ0c∣x)，而拒绝域就是 { x : P ( θ ∈ Θ 0 c ∣ x ) > 1 / 2 } \left \{ x:P(\theta \in \Theta_0^c|\mathbf x)>1/2 \right \} {x:P(θ∈Θ0c∣x)>1/2}. 另外一种利用后验分布的方法是，如果Bayes假设检验者希望防止错误地拒绝 H 0 H_0 H0，那么只有在 P ( θ ∈ Θ 0 c ∣ x ) P(\theta \in \Theta_0^c|\mathbf x) P(θ∈Θ0c∣x)超多某个大的数，例如0.99的时候才可能拒绝 H 0 H_0 H0.

《统计推断第二版》笔记——假设检验

8.2.3 并-交检验与交-并检验

在某些情况下，对复杂原假设的检验能够从对较简单的原假设的建业得到。我们讨论两种有关的方法：

用并-交方法构造检验，可能在原假设被方便地表示成一个交集时有用，设

H 0 : θ ∈ ⋂ γ ∈ Γ Θ γ \begin{aligned} H_0: \theta \in \bigcap_{\gamma \in \Gamma}\Theta_\gamma \end{aligned} H0:θ∈γ∈Γ⋂Θγ

其中 Γ \Gamma Γ是一个任意的指标集合，可能有限或无限，取决于问题。假定有了关于每一个检验问题 H 0 γ : θ ∈ Θ γ v s . H 1 γ : θ ∈ Θ γ c H_{0\gamma}:\theta \in \Theta_\gamma \ \ \ vs.\ \ \ H_{1\gamma}:\theta \in \Theta_\gamma^c H0γ:θ∈Θγ vs. H1γ:θ∈Θγc的检验， H 0 γ H_{0\gamma} H0γ的拒绝域是 { x : T γ ( x ) ∈ R γ } \left \{ x:T_\gamma(\mathbf x)\in R_{\gamma} \right \} {x:Tγ(x)∈Rγ}，则关于并-交检验的拒绝域就是

⋃ γ ∈ Γ { x : T γ ( x ) ∈ R γ } \begin{aligned} \bigcup_{\gamma\in\Gamma}\left \{ x:T_\gamma(\mathbf x)\in R_{\gamma} \right \} \end{aligned} γ∈Γ⋃{x:Tγ(x)∈Rγ}

这样做的原理是简单的。只有每一个 H 0 γ H_{0\gamma} H0γ都是真， H 0 H_0 H0才是真。假如任何一个假设 H 0 γ H_{0\gamma} H0γ被拒绝了， H 0 H_0 H0必须也被拒绝。

若每一个个别检验都具有 { x : T γ ( x ) > c } \left \{ x:T_\gamma(\mathbf x)>c\right \} {x:Tγ(x)>c}形式的拒绝域，其中 c c c不依赖于 γ \gamma γ. 这时，拒绝域可以表示成

⋃ γ ∈ Γ { x : T γ ( x ) > c } = { x : s u p γ ∈ Γ T γ ( x ) > c } \begin{aligned} \bigcup_{\gamma\in\Gamma}\left \{ x:T_\gamma(\mathbf x)>c\right \} = \left \{ x:\underset{\gamma \in \Gamma}{sup}\ T_\gamma(\mathbf x)>c\right \} \end{aligned} γ∈Γ⋃{x:Tγ(x)>c}={x:γ∈Γsup Tγ(x)>c}

这样，关于 H 0 H_0 H0的检验统计量就是 T ( x ) = s u p γ ∈ Γ T γ ( x ) T(\mathbf x)=\underset{\gamma \in \Gamma}{sup}T_\gamma(\mathbf x) T(x)=γ∈ΓsupTγ(x)

用并-交方法构造检验，在原假设被方便地表示成一个交集时时有用的。另外一种方法，即交-并方法，则当原假设被方便地表示成一个并集时可能是有用的。设要检验原假设

H 0 : θ ∈ ⋃ γ ∈ Γ Θ γ \begin{aligned} H_0: \theta \in \bigcup_{\gamma \in \Gamma}\Theta_\gamma \end{aligned} H0:θ∈γ∈Γ⋃Θγ

拒绝域为

⋂ γ ∈ Γ { x : T γ ( x ) ∈ R γ } \begin{aligned} \bigcap_{\gamma\in\Gamma}\left \{ x:T_\gamma(\mathbf x)\in R_{\gamma} \right \} \end{aligned} γ∈Γ⋂{x:Tγ(x)∈Rγ}

⋂ γ ∈ Γ { x : T γ ( x ) > c } = { x : i n f γ ∈ Γ T γ ( x ) > c } \begin{aligned} \bigcap_{\gamma\in\Gamma}\left \{ x:T_\gamma(\mathbf x)>c\right \} = \left \{ x:\underset{\gamma \in \Gamma}{inf}\ T_\gamma(\mathbf x)>c\right \} \end{aligned} γ∈Γ⋂{x:Tγ(x)>c}={x:γ∈Γinf Tγ(x)>c}

《统计推断第二版》笔记——假设检验

8.3 检验的评价方法

8.3.1 错误概率与功效函数

如果 θ ∈ Θ 0 \theta\in\Theta_0 θ∈Θ0但是假设检验不正确的判定拒绝 H 0 H_0 H0，于是检验就犯了第一类错误，其概率为 α = P ( X ∈ R ∣ H 0 ) \alpha = P(\mathbf X\in R|H_0) α=P(X∈R∣H0)

另一方面，如果 θ ∈ Θ 0 c \theta\in\Theta_0^c θ∈Θ0c但是假设检验不正确的判定接受 H 0 H_0 H0，于是检验就犯了第二类错误，其概率为 β = P ( X ∈ R ‾ ∣ H 1 ) \beta = P(\mathbf X\in \overline R|H_1) β=P(X∈R∣H1)

定义8.3.1 一个拒绝域为 R R R的假设检验的功效函数（power function）是由 g ( θ ) = P θ ( X ∈ R ) g(\theta)=P_{\theta}(\mathbf X \in R) g(θ)=Pθ(X∈R)所定义的函数

理想的功效函数对于所有 θ ∈ Θ 0 \theta\in\Theta_0 θ∈Θ0函数值是0，而对于所有 θ ∈ Θ 0 c \theta\in\Theta_0^c θ∈Θ0c函数值是1. 这种理想不可能达到。一个好的检验的功效函数在大多数的 θ ∈ Θ 0 c \theta\in\Theta_0^c θ∈Θ0c上接近于1而在大多数的 θ ∈ Θ 0 \theta\in\Theta_0 θ∈Θ0上接近于0.

有，

g ( θ ) = { α , θ ∈ Θ 0 , 1 − β , θ ∈ Θ 0 c . \begin{aligned}g(\theta)=\left\{\begin{matrix} \alpha, & \theta \in \Theta_0,\\ 1-\beta, & \theta \in \Theta_0^c. \end{matrix}\right.\end{aligned} g(θ)={α,1−β,θ∈Θ0,θ∈Θ0c.

一个功效函数依赖于样本量 n n n，这是有代表性的。如果 n n n可以由实验者选择，对功效函数进行考虑，就能够帮助其决定一个试验中取多大的样本量适合。也就是我们常说的在控制犯第一类错误或第二错误概率的情况下求样本量。

定义8.3.9 一个功效函数为 β ( θ ) \beta(\theta) β(θ)的检验是无偏的，如果对于每一个 θ ′ ∈ Θ 0 c \theta'\in\Theta_0^c θ′∈Θ0c和 θ ′ ′ ∈ Θ 0 \theta''\in\Theta_0 θ′′∈Θ0都有 β ( θ ′ ) ⩾ β ( θ ′ ′ ) \beta(\theta')\geqslant \beta(\theta'') β(θ′)⩾β(θ′′)

简单的说定义8.3.9表述额这样的一个性质：一个检验在 θ ∈ Θ 0 c \theta\in\Theta_0^c θ∈Θ0c时比 θ ∈ Θ 0 \theta\in\Theta_0 θ∈Θ0时更倾向于拒绝 H 0 H_0 H0

8.3.2 最大功效检验

我们在前面描述了几个假设检验类，这些类中有的控制犯第一类错误的概率，如水平为 α \alpha α的检验对所有 θ ∈ Θ 0 \theta\in\Theta_0 θ∈Θ0，犯第一类错误的概率至多为 α \alpha α. 在这样一个类中，一个好检验犯第二类错误的概率也应当小，即当 θ ∈ Θ 0 c \theta\in\Theta_0^c θ∈Θ0c时它的功效函数比较大。如果一个检验犯第一类错误的概率比这类中所有其他检验更小，它理应是这类中的最优检验，下面给出一个形式化的定义：

定义8.3.11 设 C \mathcal C C是一个关于 H 0 : θ ∈ Θ 0 v s . H 1 : θ ∈ Θ 0 c H_0:\theta\in\Theta_0 \ \ \ vs.\ \ \ H_1:\theta\in\Theta_0^c H0:θ∈Θ0 vs. H1:θ∈Θ0c的检验类。 C \mathcal C C中一个功效函数为 β ( θ ) \beta(\theta) β(θ)的检验是一个一致最大功效 C \mathcal C C类检验（uniformly most powerful（UMP）class C \mathcal C C test），如果对于每个 θ ∈ Θ 0 c \theta\in\Theta_0^c θ∈Θ0c与每个 C \mathcal C C的检验功效函数 β ′ ( θ ) \beta'(\theta) β′(θ)，都有 β ( θ ) ⩾ β ′ ( θ ) \beta(\theta)\geqslant\beta'(\theta) β(θ)⩾β′(θ)

定义8.3.11描述的检验就叫做一个UMP水平为 α \alpha α的检验。定义8.3.11的要求条件过强以至于在很多实际问题中UMP检验不存在。但是，在有UMP检验的问题中，一个UMP检验理应被考虑为该类中的最优检验。这样，我们希望如果UMP检验存在，就能够识别他们。下面的著名定理清楚地描述了在原假设和备择假设都只含有一个关于样本的概率分布的情况（即 H 0 H_0 H0和 H 1 H_1 H1都是简单假设），那些检验是UMP水平为 α \alpha α的检验。

定理8.3.12（奈曼-皮尔逊引理）考虑检验 H 0 : θ = θ 0 v s . H 1 : θ = θ 1 H_0:\theta=\theta_0 \ \ \ vs.\ \ \ H_1:\theta = \theta_1 H0:θ=θ0 vs. H1:θ=θ1，其中对应于 θ i \theta_i θi的概率密度函数或者概率质量函数是 f ( x ∣ θ i ) i = 0 , 1 f(x|\theta_i)i=0,1 f(x∣θi)i=0,1，利用一个拒绝域为 R R R的检验， R R R满足对某个 k ⩾ 0 k\geqslant0 k⩾0

若 f ( x ∣ θ 1 ) > k f ( x ∣ θ 0 ) , 则 x ∈ R (8.3.1) \begin{aligned}若f(\mathbf x|\theta_1)>kf(\mathbf x|\theta_0)&,& 则\mathbf x\in R \tag{8.3.1} \end{aligned} 若f(x∣θ1)>kf(x∣θ0),则x∈R(8.3.1)

和

若 f ( x ∣ θ 1 ) < k f ( x ∣ θ 0 ) , 则 x ∈ R c (8.3.1) \begin{aligned}若f(\mathbf x|\theta_1)<kf(\mathbf x|\theta_0)&,& 则\mathbf x\in R^c\tag{8.3.1}\end{aligned} 若f(x∣θ1)<kf(x∣θ0),则x∈Rc(8.3.1)

而且

α = P θ 0 ( X ∈ R ) (8.3.2) \begin{aligned}\alpha = P_{\theta_0}(\mathbf X\in R)\tag{8.3.2}\end{aligned} α=Pθ0(X∈R)(8.3.2)

a. （充分性）任意满足条件（8.3.1）和条件（8.3.2）的检验，是一个UMP水平为 α \alpha α的检验。

b. （必要性）如果存在一个满足条件（8.3.1）和条件（8.3.2）的检验，其中 k > 0 k>0 k>0，则每一个UMP水平为 α \alpha α的检验是真实水平为 α \alpha α的检验，而且每一个UMP水平为 α \alpha α的检验必满足条件（8.3.1）除去一个使 P θ 0 ( X ∈ A ) = P θ 1 ( X ∈ A ) = 0 P_{\theta_0}(\mathbf X \in A)=P_{\theta_1}(\mathbf X \in A)=0 Pθ0(X∈A)=Pθ1(X∈A)=0的集合 A A A上可能不满足。

推论8.3.13 考虑定理8.3.12中提出的假设问题。设 T ( X ) T(\mathbf X) T(X)是一个关于 θ \theta θ的充分统计量， g ( t ∣ θ i ) g(t|\theta_i) g(t∣θi)是 T T T的相应于 θ i \theta_i θi的概率密度函数或者概率质量函数， i = 0 , 1 i=0,1 i=0,1. 则任何一个基于 T T T拒绝域是 S S S（ T T T的样本空间的一个子集）的检验，如果满足对某个 k ⩾ 0 k\geqslant0 k⩾0

若 g ( x ∣ θ 1 ) > k g ( x ∣ θ 0 ) , 则 t ∈ S (8.3.4) \begin{aligned}若g(\mathbf x|\theta_1)>kg(\mathbf x|\theta_0)&,& 则\mathbf t\in S\tag{8.3.4} \end{aligned} 若g(x∣θ1)>kg(x∣θ0),则t∈S(8.3.4)

和

若 g ( x ∣ θ 1 ) < k g ( x ∣ θ 0 ) , 则 t ∈ S c (8.3.4) \begin{aligned}若g(\mathbf x|\theta_1)<kg(\mathbf x|\theta_0)&,& 则\mathbf t\in S^c\tag{8.3.4}\end{aligned} 若g(x∣θ1)<kg(x∣θ0),则t∈Sc(8.3.4)

而且

α = P θ 0 ( T ∈ S ) (8.3.5) \begin{aligned}\alpha = P_{\theta_0}(T\in S)\tag{8.3.5}\end{aligned} α=Pθ0(T∈S)(8.3.5)

当我们导出一个满足不等式（8.3.1）或不等式（8.3.4）的检验，从而是一个UMP水平为 α \alpha α的检验时，通常易于把不等式写成如 f ( x ∣ θ 1 ) f ( x ∣ θ 0 ) > k \frac{f(\mathbf x|\theta_1)}{f(\mathbf x|\theta_0)}>k f(x∣θ0)f(x∣θ1)>k的形式。

《统计推断第二版》笔记——假设检验

有很大一类有UMP水平为 α \alpha α的检验问题牵涉到单侧建设和具有单调似然比性质的概率密度函数或概率质量函数。

定义8.3.16 称一元随机变量 T T T的概率密度函数或概率质量函数的族 { g ( t ∣ θ ) : θ ∈ Θ } \left \{ g(t|\theta):\ \theta\in\Theta \right \} {g(t∣θ): θ∈Θ}关于实值参数 θ \theta θ具有单调似然比，如果对于每一个 θ 2 > θ 1 \theta_2>\theta_1 θ2>θ1， g ( t ∣ θ 2 ) / g ( t ∣ θ 1 ) g(t|\theta_2)/g(t|\theta_1) g(t∣θ2)/g(t∣θ1)在 { t : g ( t ∣ θ 1 ) > 0 o r g ( t ∣ θ 2 ) > 0 } \left \{ t:g(t|\theta1)>0 \ or \ g(t|\theta_2)>0 \right \} {t:g(t∣θ1)>0 or g(t∣θ2)>0}上都是 t t t的单调函数。注意如果 0 < c 0<c 0<c定义 c / 0 c/0 c/0为 ∞ \infty ∞.

定理8.3.17（Karlin-Rubin）考虑检验 H 0 : θ ⩽ θ 0 v s . H 1 : θ > θ 0 H_0:\theta\leqslant\theta_0 \ \ \ \ vs.\ \ \ \ H_1:\theta >\theta_0 H0:θ⩽θ0 vs. H1:θ>θ0. 设 T T T是一个关于 θ \theta θ的充分统计量并且 T T T的概率密度函数或概率质量函数的族 { g ( t ∣ θ ) : θ ∈ Θ } \left \{ g(t|\theta):\ \theta\in\Theta \right \} {g(t∣θ): θ∈Θ}关于 θ \theta θ具有MLR. 则对于任何 t 0 t_0 t0，“当且仅当 T > t 0 T>t_0 T>t0时拒绝 H 0 H_0 H0” 的检验是一个UMP水平为 α \alpha α的检验，其中 α = P θ 0 ( T > t 0 ) \alpha = P_{\theta_0}(T>t_0) α=Pθ0(T>t0)

同理，“拒绝 H 0 : θ ⩾ θ 0 H_0:\theta \geqslant\theta_0 H0:θ⩾θ0而选择 H 1 : θ < θ 0 H_1:\theta<\theta_0 H1:θ<θ0当且仅当 T < t 0 T<t_0 T<t0” 的检验是一个UMP水平为 α = P θ 0 ( T < t 0 ) \alpha = P_{\theta_0}(T<t_0) α=Pθ0(T<t0)的检验

《统计推断第二版》笔记——假设检验

虽然对于大多数试验者来说，如果知道UMP水平为 α \alpha α的检验存在，则愿意选择用它，遗憾的是对很多问题，不存在UMP水平为 α \alpha α的检验，因为水平为 α \alpha α的检验类太大了以至于没有一个检验在功效上对其他所有检验占优势，从而UMP不存在。

在这种情况，一个通用的继续寻找好检验的方法就是考虑水平为 α \alpha α的检验类的某个子集，并在这个子集中尝试求出一个UMP检验。下面我们将阐述如何把注意力限制在由无偏检验组成的子集上以至能够求出一个最佳检验。

首先我们考虑一个栗子，它说明了一种典型情况，在这种情况下不存在一个UMP水平为 α \alpha α的检验。

《统计推断第二版》笔记——假设检验

8.3.3 并-交检验与交-并检验的真是水平

因为它们是由简单的方法构建出来的，并-交检验（UIT）与交-并检验（IUT）的真实水平经常能够以某个其他检验的真是水平为上界。

先考虑UIT. 我们是检验一个这种形式的原假设： H 0 : θ ∈ Θ 0 H_0: \theta \in \Theta_0 H0:θ∈Θ0，其中 Θ 0 = ⋂ γ ∈ Γ Θ γ \Theta_0 = \underset{\gamma \in \Gamma}{\bigcap}\Theta_\gamma Θ0=γ∈Γ⋂Θγ. 为了方便讨论，设 λ γ ( x ) \lambda_{\gamma}(\mathbf x) λγ(x)是关于检验 H 0 γ : θ ∈ Θ γ v s . H 1 γ : θ ∈ Θ γ c H_{0\gamma}: \theta \in \Theta_{\gamma }\ \ \ \ vs.\ \ \ \ H_{1\gamma}: \theta \in \Theta_{\gamma }^c H0γ:θ∈Θγ vs. H1γ:θ∈Θγc的LRT统计量，并设 λ ( x ) \lambda(\mathbf x) λ(x)是关于检验 H 0 : θ ∈ Θ 0 v s . H 1 : θ ∈ Θ 0 c H_{0}: \theta \in \Theta_0 \ \ \ \ vs.\ \ \ \ H_{1}: \theta \in \Theta_{0}^c H0:θ∈Θ0 vs. H1:θ∈Θ0c的LRT统计量。则我们有一下连接全面LRT和基于 λ γ ( x ) \lambda_{\gamma}(\mathbf x) λγ(x)的UIT之间关系的定理。

定理8.3.21 考虑检验 H 0 : θ ∈ Θ 0 v s . H 1 : θ ∈ Θ 0 c H_{0}: \theta \in \Theta_0 \ \ \ \ vs.\ \ \ \ H_{1}: \theta \in \Theta_{0}^c H0:θ∈Θ0 vs. H1:θ∈Θ0c，其中 Θ 0 = ⋂ γ ∈ Γ Θ γ \Theta_0 = \underset{\gamma \in \Gamma}{\bigcap}\Theta_\gamma Θ0=γ∈Γ⋂Θγ，而 λ γ ( x ) \lambda_{\gamma}(\mathbf x) λγ(x)由前面所定义。定义 T = i n f γ ∈ Γ λ γ ( x ) T=\underset{\gamma\in\Gamma}{inf}\lambda_{\gamma}(\mathbf x) T=γ∈Γinfλγ(x)并且组成UIT，其拒绝域是

{ x : 对于某 γ ∈ Γ , λ γ ( x ) < c } = { x : T ( x ) < c } \begin{aligned}\left \{ \mathbf x:对于某\gamma\in\Gamma, \lambda_{\gamma}(\mathbf x)<c\right \} = \left\{\mathbf x:T(\mathbf x)<c\right\}\end{aligned} {x:对于某γ∈Γ,λγ(x)<c}={x:T(x)<c}

又考虑通常的以 { x : λ ( x ) < c } \left\{\mathbf x:\lambda(\mathbf x)<c\right\} {x:λ(x)<c}为拒绝域的LRT，则

a. 对于每个 x \mathbf x x，有 T ( x ) ⩾ λ ( x ) T(\mathbf x)\geqslant\lambda(\mathbf x) T(x)⩾λ(x);

b. 若 β T ( θ ) \beta_T(\theta) βT(θ)和 β λ ( θ ) \beta_\lambda(\theta) βλ(θ)分别是依赖于 T T T和 λ \lambda λ的检验的功效函数，则对于每一个 θ ∈ Θ \theta\in\Theta θ∈Θ，有 β T ( θ ) ⩽ β λ ( θ ) \beta_T(\theta)\leqslant\beta_\lambda(\theta) βT(θ)⩽βλ(θ)；

c. 如果此LRT是一个水平为 α \alpha α的检验，则此UIT是一个水平为 α \alpha α的检验。

在某些情况时，定理8.3.21中的 T ( x ) = λ ( x ) T(\mathbf x)=\lambda(\mathbf x) T(x)=λ(x). 这时，由一个个单独LRT构建出来的UIT和全面LRT相同。

既然定义8.3.21中LRT一致地比UIT功效强，也许我们会问为什么要用UIT呢？一个理由是UIT对于每个 θ ∈ Θ 0 \theta\in\Theta_0 θ∈Θ0，犯第一类错误的概率更小。此外，如果 H 0 H_0 H0被拒绝，我们可能想考虑单独的检验 H 0 γ H_{0\gamma} H0γ以了解为什么被拒绝。

现在我们研究IUT的真实水平。IUT的真实水平的一个简单的界涉及到用以定义IUT的单独的检验的真实水平。

定义8.3.23 设 α γ \alpha_{\gamma} αγ是以 R γ R_{\gamma} Rγ为拒绝域的检验 H 0 γ H_{0\gamma} H0γ的真实水平，则以 R = ⋂ γ ∈ Γ R γ R=\underset{\gamma\in\Gamma}{\bigcap}R_{\gamma} R=γ∈Γ⋂Rγ为拒绝域的IUT是一个水平为 α = s u p γ ∈ Γ α γ \alpha=\underset{\gamma\in\Gamma}{sup}\alpha_{\gamma} α=γ∈Γsupαγ的检验。

R γ R_{\gamma} Rγ的典型取法是使 α γ = α \alpha_{\gamma}=\alpha αγ=α对于所有 γ ∈ Γ \gamma\in\Gamma γ∈Γ都成立。在这一情形下，由定理8.3.23知，作为结果的IUT是一个水平为 α \alpha α的检验。

定理8.2.23给IUT的真是水平提供了一个上界，这比定理8.3.21略微更有用一些，后者给UIT的真实水平提供了一个上界。定理8.3.21只能应用于似然比检验构建的UIT，而定理8.3.23可以应用于任意的IUT.

定理8.3.21里的界是LRT的真实水平，在一个复杂的问题中，可能难以计算。然而定理8.3.23,不需要用其LRT获得上界，任何一个具有已知真实水平 α γ \alpha_{\gamma} αγ的对 H 0 γ H_{0\gamma} H0γ的检验都可用，并且IUT的真实水平的上界就根据已知的 α γ , γ ∈ Γ \alpha_{\gamma},\gamma\in\Gamma αγ,γ∈Γ给出。

定理8.3.23中的IUT是一个水平为 α \alpha α的检验，但是这个IUT的真实水平可能远小于 α \alpha α，这个UIT可能是非常保守的。下面的定理给出了这个IUT的真实水平严格等于 α \alpha α而且这个IUT不是太过保守的条件。

定理8.3.24 考虑检验 H 0 : θ ∈ ⋃ j = 1 k Θ j H_0:\theta\in\bigcup_{j=1}^{k}\Theta_j H0:θ∈⋃j=1kΘj其中 k k k是一个有限的正整数。对于每一个 j = 1 , ⋯ , k j=1,\cdots,k j=1,⋯,k，设 R j R_j Rj是 H 0 j H_{0j} H0j的一个水平为 α \alpha α检验的拒绝域。若有某个 i = 1 , ⋯ , k i=1,\cdots,k i=1,⋯,k，存在一列参数点 θ l ∈ Θ i , l = 1 , 2 , ⋯ \theta_l\in\Theta_i, l=1, 2, \cdots θl∈Θi,l=1,2,⋯，以使得

i. l i m l → ∞ P θ l ( X ∈ R i ) = α \underset{l\rightarrow\infty}{lim}P_{\theta_l}(\mathbf X\in R_i) =\alpha l→∞limPθl(X∈Ri)=α，

ii. 对于每一个 j = 1 , ⋯ , k , j ≠ i , l i m l → ∞ P θ l ( X ∈ R j ) = 1 j=1,\cdots,k, j\neq i, \underset{l\rightarrow\infty}{lim}P_{\theta_l}(\mathbf X\in R_j) = 1 j=1,⋯,k,j=i,l→∞limPθl(X∈Rj)=1

则以 R = ⋂ j = 1 k R j R=\bigcap_{j=1}^{k}R_j R=⋂j=1kRj作为拒绝域的IUT是一个真实水平为 α \alpha α的检验。

8.3.4 p-值

做完假设检验之后，必须用具有统计意义的方式报告出结论。一种报告假设检验结果的方法是报告检验所用的真实水平 α \alpha α，以及拒绝或者接受 H 0 H_0 H0的判决。如果 α \alpha α大，判拒绝 H 0 H_0 H0就不是很令人信服了，因为检验做出的这个判决不正确的概率也大。另一种报告假设检验结果的方法是报告一种叫做p-值的统计量的值。

定义8.3.26（p-值） p ( X ) p(\mathbf X) p(X)是一个满足对每一个样本点 x \mathbf x x，都有 0 ⩽ p ( x ) ⩽ 1 0\leqslant p(\mathbf x)\leqslant 1 0⩽p(x)⩽1，如果 p ( X ) p(\mathbf X) p(X)的值小则可作为 H 1 H_1 H1为真的证据。一个p-值称为有效的，如果对于每一个 θ ∈ Θ 0 \theta\in\Theta_0 θ∈Θ0和每一个 0 ⩽ α ⩽ 1 0\leqslant\alpha\leqslant 1 0⩽α⩽1，都有

P θ ( p ( X ) ⩽ α ) ⩽ α (8.3.8) \begin{aligned}P_{\theta}( p(\mathbf X)\leqslant\alpha)\leqslant\alpha\tag{8.3.8}\end{aligned} Pθ(p(X)⩽α)⩽α(8.3.8)

如果 p ( X ) p(\mathbf X) p(X)是一个有效的p-值，基于 p ( X ) p(\mathbf X) p(X)易构建出一个水平为 α \alpha α的检验。根据（8.3.8），当且仅当 p ( X ) ⩽ α p(\mathbf X)\leqslant\alpha p(X)⩽α时拒绝 H 0 H_0 H0的检验就是一个水平为 α \alpha α的检验。

通过p-值报告检验结果的一个优点是每位读者能够选择他认为适当的 α \alpha α，然后那报告的 p ( x ) p(x) p(x)去和 α \alpha α比较，并且知道这些数据导致接受还是拒绝 H 0 H_0 H0. 因此，p-值以一个更连续的尺度报告出一个检验的结论，它胜于仅分成两种决策结果的接受 H 0 H_0 H0或拒绝 H 0 H_0 H0.

最普通的定义一个p-值的方法由定理8.3.27给出。

定理8.3.27 设 W ( X ) W(\mathbf X) W(X)是这样一个检验统计量，如 W W W的值大则可作为 H 1 H_1 H1为真的依据。对于每个样本点 x \mathbf x x，定义

p ( x ) = s u p θ ∈ Θ 0 P θ ( W ( X ) ⩾ W ( x ) ) (8.3.9) \begin{aligned}p(\mathbf x) = \underset{\theta\in\Theta_0}{sup}P_{\theta}(W(\mathbf X)\geqslant W(\mathbf x))\tag{8.3.9}\end{aligned} p(x)=θ∈Θ0supPθ(W(X)⩾W(x))(8.3.9)

则 p ( X ) p(\mathbf X) p(X)是一个有效的p-值。

计算（8.3.9）中的上确界可能是困难的。下面两个例子说明的是不太困难的普通情况。第一个例子不需要上确界；第二个例子中，易于确定出达到上确界的 θ \theta θ的值。

《统计推断第二版》笔记——假设检验

令外一种可以用来替代（8.3.9）定义有效p-值的方法，涉及给定一个充分统计量时的条件概率。

设 S ( X ) S(\mathbf X) S(X)是一个关于模型 { f ( x ∣ θ ) : θ ∈ Θ 0 } \left\{f(x|\theta):\theta\in\Theta_0\right\} {f(x∣θ):θ∈Θ0}的充分统计量。（为避免低功效检验， S S S仅关于原假设模型而不是全模型 { f ( x ∣ θ ) : θ ∈ Θ } \left\{f(x|\theta):\theta\in\Theta\right\} {f(x∣θ):θ∈Θ}充分，这一点很重要）如果原假设为真，则给定条件 S = s S=s S=s下 X \mathbf X X的条件分布不依赖于 θ \theta θ. 仍设 W ( X ) W(\mathbf X) W(X)表示一个检验统计量，它的值大给出 H 1 H_1 H1为真的依据。那么，对于每个样本点 x \mathbf x x，定义

p ( x ) = P θ ( W ( X ) ⩾ W ( x ) ∣ S = S ( x ) ) (8.3.10) \begin{aligned}p(\mathbf x) =P_{\theta}(W(\mathbf X)\geqslant W(\mathbf x)|S=S(\mathbf x))\tag{8.3.10}\end{aligned} p(x)=Pθ(W(X)⩾W(x)∣S=S(x))(8.3.10)

对于 ∀ α : 0 ⩽ α ⩽ 1 \forall\alpha: 0\leqslant\alpha\leqslant 1 ∀α:0⩽α⩽1， P ( p ( X ) ⩽ α ∣ S = s ) ⩽ α P(p(\mathbf X)\leqslant\alpha|S=s)\leqslant\alpha P(p(X)⩽α∣S=s)⩽α

因此，对于 ∀ θ ∈ Θ 0 \forall\theta\in\Theta_0 ∀θ∈Θ0，无条件地我们有

P θ ( p ( x ) ⩽ α ) = ∑ s P ( p ( x ) ⩽ α ∣ S = s ) P θ ( S = s ) ⩽ ∑ s α P θ ( S = s ) ⩽ α \begin{aligned}P_{\theta}(p(\mathbf x)\leqslant\alpha)=\underset{s}{\sum}P(p(\mathbf x)\leqslant\alpha|S=s)P_{\theta}(S=s)\leqslant \underset{s}{\sum}\alpha P_{\theta}(S=s)\leqslant\alpha\end{aligned} Pθ(p(x)⩽α)=s∑P(p(x)⩽α∣S=s)Pθ(S=s)⩽s∑αPθ(S=s)⩽α

这样，由（8.3.10）定义的 p ( x ) p(\mathbf x) p(x)是一个有效p-值。对于连续的 S S S，求和可以换成求积分，但是这种方法通常用于离散的 S S S.

《统计推断第二版》笔记——假设检验

8.3.5 损失函数最优性

如果使用判决分析的方法比较假设检验，那么我们就必须指明关于假设检验问题的行为空间和损失函数。

在一个假设检验问题中，只允许两个行为，接受 H 0 H_0 H0或拒绝 H 0 H_0 H0，这两个行为可以分别记作 a 0 a_0 a0和 a 1 a_1 a1. 假设检验的行为空间是两点集 A = { a 0 , a 1 } A=\left\{a_0, a_1\right\} A={a0,a1}，一个判决法则 δ ( x ) \delta(\mathbf x) δ(x)（一个假设检验）是 X \mathbf X X上的一个只取 a 0 a_0 a0和 a 1 a_1 a1两个值的函数。集合 { x : δ ( x ) = a 1 } \left\{\mathbf x: \delta(\mathbf x)=a1\right\} {x:δ(x)=a1}是检验的拒绝域。

设一个假设检验问题的损失函数为 L ( θ , a ) L(\theta, a) L(θ,a)， L ( θ , a 0 ) L(\theta, a_0) L(θ,a0)是当作出接受 H 0 H_0 H0的判决时，关于不同 θ \theta θ所招致的损失，而 L ( θ , a 1 ) L(\theta, a_1) L(θ,a1)是当作出拒绝 H 0 H_0 H0的判决时，关于不同 θ \theta θ所招致的损失。

在一个假设检验问题中最简单的一种损失函数叫做0-1损失，定义为

L ( θ , a 0 ) = { 0 , θ ∈ Θ 0 , 1 , θ ∈ Θ 0 c . \begin{aligned}L(\theta, a_0)=\left\{\begin{matrix} 0, & \theta \in \Theta_0,\\ 1, & \theta \in \Theta_0^c. \end{matrix}\right.\end{aligned} L(θ,a0)={0,1,θ∈Θ0,θ∈Θ0c.

L ( θ , a 1 ) = { 1 , θ ∈ Θ 0 , 0 , θ ∈ Θ 0 c . \begin{aligned}L(\theta, a_1)=\left\{\begin{matrix} 1, & \theta \in \Theta_0,\\ 0, & \theta \in \Theta_0^c. \end{matrix}\right.\end{aligned} L(θ,a1)={1,0,θ∈Θ0,θ∈Θ0c.

一种比之稍实际一点的损失叫做广义0-1损失，它对于两类错误给予不同的代价

L ( θ , a 0 ) = { 0 , θ ∈ Θ 0 , c 2 , θ ∈ Θ 0 c . \begin{aligned}L(\theta, a_0)=\left\{\begin{matrix} 0, & \theta \in \Theta_0,\\ c_2, & \theta \in \Theta_0^c. \end{matrix}\right.\end{aligned} L(θ,a0)={0,c2,θ∈Θ0,θ∈Θ0c.

L ( θ , a 0 ) = { c 1 , θ ∈ Θ 0 , 0 , θ ∈ Θ 0 c . \begin{aligned}L(\theta, a_0)=\left\{\begin{matrix} c_1, & \theta \in \Theta_0,\\ 0, & \theta \in \Theta_0^c. \end{matrix}\right.\end{aligned} L(θ,a0)={c1,0,θ∈Θ0,θ∈Θ0c.

实际在比较检验的时候，我们真正比较的是 c 2 c 1 \frac{c2}{c_1} c1c2，如果 c 2 = c 1 c_2=c_1 c2=c1，我们本质上用的是0-1损失。

在判决分析中，风险函数（期望损失）被用来评价一个假设检验的过程。一个检验的风险函数和它的功效函数密切相关。

设 β ( θ ) \beta(\theta) β(θ)是一个基于判决法则 δ \delta δ的检验的功效函数。就是说，若拒绝域为 R = { x : δ ( x ) = a 1 } R=\left\{\mathbf x: \delta(\mathbf x)=a_1\right\} R={x:δ(x)=a1}，则

β ( θ ) = P θ ( X ∈ R ) = P θ ( δ ( x ) = a 1 ) \begin{aligned}\beta(\theta)=P_{\theta}(\mathbf X \in R) = P_{\theta} (\delta(\mathbf x)=a_1)\end{aligned} β(θ)=Pθ(X∈R)=Pθ(δ(x)=a1)

因为对于任何的 θ ∈ Θ \theta\in\Theta θ∈Θ， L ( θ , a ) L(\theta, a) L(θ,a)仅取两个值，若 θ ∈ Θ 0 \theta\in\Theta_0 θ∈Θ0取 0 0 0与 c 1 c_1 c1而 θ ∈ Θ 0 c \theta\in\Theta_0^c θ∈Θ0c取 0 0 0与 c 2 c_2 c2，故风险函数为

R ( θ , δ ) = 0 P θ ( δ ( X ) = a 0 ) + c 1 P θ ( δ ( X ) = a 1 ) = c 1 β ( θ ) 若 θ ∈ Θ 0 \begin{aligned}R(\theta, \delta)=0P_{\theta}(\delta(\mathbf X)=a_0)+c_1P_{\theta}(\delta(\mathbf X)=a_1)=c_1\beta(\theta) \ \ 若\theta\in\Theta_0\end{aligned} R(θ,δ)=0Pθ(δ(X)=a0)+c1Pθ(δ(X)=a1)=c1β(θ) 若θ∈Θ0

R ( θ , δ ) = c 2 P θ ( δ ( X ) = a 0 ) + 0 P θ ( δ ( X ) = a 1 ) = c 2 ( 1 − β ( θ ) ) 若 θ ∈ Θ 0 c \begin{aligned}R(\theta, \delta)=c_2P_{\theta}(\delta(\mathbf X)=a_0)+0P_{\theta}(\delta(\mathbf X)=a_1)=c_2(1-\beta(\theta)) \ \ 若\theta\in\Theta_0^c\end{aligned} R(θ,δ)=c2Pθ(δ(X)=a0)+0Pθ(δ(X)=a1)=c2(1−β(θ)) 若θ∈Θ0c

《统计推断第二版》笔记——假设检验

0-1损失函数仅仅鉴定判决的对错。但是在某些情况下，我们希望损失函数能够反映出某些错误判决比别的严重。假如我们在检验 H 0 : θ ⩾ θ 0 v s . H 1 : θ < θ 0 H_{0}: \theta \geqslant \theta_0 \ \ \ \ vs.\ \ \ \ H_{1}: \theta < \theta_{0} H0:θ⩾θ0 vs. H1:θ<θ0的时候，如果 θ \theta θ稍大于 θ 0 \theta_0 θ0而拒绝了 H 0 H_0 H0，这犯了第一类错误，但这也许不是一个非常严重的错误，反之，如果 θ \theta θ比 θ 0 \theta_0 θ0大得多而结果拒绝了 H 0 H_0 H0，那就可能非常坏。

一个反映这种情况的损失函数是

L ( θ , a 0 ) = { 0 , θ ⩾ θ 0 , b ( θ 0 − θ ) 2 , θ < θ 0 . \begin{aligned}L(\theta, a_0)=\left\{\begin{matrix} 0, & \theta \geqslant \theta_0,\\ b(\theta_0-\theta)^2, & \theta < \theta_0. \end{matrix}\right.\end{aligned} L(θ,a0)={0,b(θ0−θ)2,θ⩾θ0,θ<θ0.

L ( θ , a 1 ) = { c ( θ − θ 0 ) 2 , θ ⩾ θ 0 , 0 , θ < θ 0 . \begin{aligned}L(\theta, a_1)=\left\{\begin{matrix} c(\theta-\theta_0)^2, & \theta \geqslant \theta_0,\\ 0, & \theta < \theta_0. \end{matrix}\right.\end{aligned} L(θ,a1)={c(θ−θ0)2,0,θ⩾θ0,θ<θ0.

其中 b b b和 c c c是正常数。

对于上面的损失函数，其期望损失为

R ( θ , δ ) = L ( θ , a 0 ) P θ ( δ ( X ) = a 0 ) + L ( θ , a 1 ) P θ ( δ ( X ) = a 1 ) = L ( θ , a 0 ) ( 1 − β ( θ ) ) + L ( θ , a 1 ) β ( θ ) \begin{aligned}R(\theta, \delta)=L(\theta, a_0)P_{\theta}(\delta(\mathbf X)=a_0)+L(\theta, a_1)P_{\theta}(\delta(\mathbf X)=a_1)=L(\theta, a_0)(1-\beta(\theta)) +L(\theta, a_1)\beta(\theta)\end{aligned} R(θ,δ)=L(θ,a0)Pθ(δ(X)=a0)+L(θ,a1)Pθ(δ(X)=a1)=L(θ,a0)(1−β(θ))+L(θ,a1)β(θ)

《统计推断第二版》笔记——假设检验

假设检验

8.2.2 Bayes检验

8.2.3 并-交检验与交-并检验

8.3 检验的评价方法

8.3.1 错误概率与功效函数

8.3.2 最大功效检验

8.3.3 并-交检验与交-并检验的真是水平

8.3.4 p-值

8.3.5 损失函数最优性

继续阅读

《You Don't Know JS》第一部：《You don't know JS: this & Object prototype》

建模笔记——标准化和归一化标准化和归一化的区别

《Java编程思想》第四版笔记第一章对象导论

读《Pragmatic Thinking and Learning》笔记及摘录

浏览<Pragmatic Thinking and Learning:Refactor Your “Wetware”>笔记

从0到1 zero to one大纲&摘录大纲摘录

读《断舍离》部分摘录

算法图解读书笔记第8章贪婪算法

《算法图解》读书笔记

《啊哈！算法》读书笔记

算法图解读书笔记第3章递归

【读书笔记】【linux kernel development】【从内核出发】

原则-读书笔记-想要与事实的辨析和连接

《断舍离》笔记二

投资学第二章 Asset Classes and Financial Instruments

投资学第一章 investments-introduction