天天看點

數理統計11:區間估計,t分布,F分布

區間估計,t分布,F分布

在之前的十篇文章中,我們用了九篇文章的篇幅讨論了點估計的相關知識,現在來稍作回顧。

首先,我們讨論了正态分布兩個參數——均值、方差的點估計,給出了它們的分布資訊,并指出它們是互相獨立的;然後,我們讨論到其他的分布族,介紹了點估計的評判标準——無偏性、相合性、有效性;之後,我們基于無偏性和相合性的讨論給出了常用分布的參數點估計,并介紹了兩種常用于尋找點估計量的方法——矩法與極大似然法;最後,我們對點估計的有效性進行了讨論,給出了一些驗證、尋找UMVUE的方法,并介紹了CR不等式,給出了無偏估計效率的定義。以上就是我們在前九篇文章中提到的主要内容,還順便介紹了一些常用的分布:\(\Gamma\)分布、\(\beta\)分布、\(\chi^2\)分布。

今天開始,我們将進入區間估計與假設檢驗部分。由于本系列為我獨自完成的,缺少審閱,如果有任何錯誤,歡迎在評論區中指出,謝謝!

Part 1:什麼是區間估計

區間估計同樣是參數估計的一種方法,不同于點估計用樣本計算出的一個統計量直接作為原始參數的估計,區間估計會根據抽取出的樣本,計算出一個基于樣本觀測值的區間。簡單說來,如果對總體\(f(x;\theta)\)中的參數\(\theta\)作估計,則首先從總體中獲得樣本\(\boldsymbol{X}=(X_1,\cdots,X_n)\),并确定兩個具有确定大小關系的統計量\(\hat g_1(\boldsymbol{X})\le \hat g_2(\boldsymbol{X})\),根據樣本觀測值計算出的區間\([\hat g_1(\boldsymbol{X}),\hat g_2(\boldsymbol{X})]\)就是待估參數\(\theta\)的區間估計。

由此,我們可以看出,區間估計依然是依賴于統計量的,并且往往需要不止一個統計量。區間估計相比于點估計的特點是,區間估計給出了一個相對“粗糙”的範圍,這就導緻你需要使用這個參數時,不像點估計一樣能直接把估計值拿來用;但是,區間估計具有涵蓋參數真值的可能,因為當參數空間\(\Theta\)的取值連續時,點估計\(\hat\theta\)與真值相等的可能性\(\mathbb{P}(\hat\theta=\theta)=0\),但是區間估計包含真值的可能性\(\mathbb{P}(\theta\in[\hat g_1(\boldsymbol{X}),\hat g_2(\boldsymbol{X})])>0\),這使得區間估計比起點估計而言,增加了一定的可靠性。

這麼說可能比較抽象,讓我們舉一個實際的例子,還記不記得第一篇文章中yhh送我們的橙子?廠家聲稱一箱子橙子的平均重量是80斤,而我們稱量後發現橙子的平均重量是79.9斤,我們不能說廠家的聲稱是錯誤的,因為點估計與真值相等的機率為0。然而,我們通過某種手段得到了橙子重量的區間估計是\([79.5,80.5]\)斤,則你可能就會認為,橙子的重量極可能就落在這個範圍内,與80斤相差不大,是以廠家的聲稱是可以接受的。

區間估計還有另一方面的可靠性。在上面的讨論中,我們得到的點估計是79.9斤,如果換一箱橙子,它的重量不可能還是79.9斤了。但是,新一箱橙子的重量可能是70斤嗎?可能性有多大?可能是80.1斤嗎?可能性又有多大?點估計無法給出直覺的感受,它隻會讓你覺得,80.1斤的機率要比70斤大點兒。但是,如果我們獲得了這樣的一個區間估計:\([79.5,80.5]\),則你就會覺得80.1斤出現的可能性比較大點,而70斤幾乎不可能出現。假如區間估計是\([60, 100]\),則70斤和80.1斤就都很有可能出現了。這就是區間估計帶來的好處,能讓我們對預測的可能取值有更直覺的感受。

除了這種雙側都用統計量表示的區間估計,還存在一種單側區間估計,即形如\((-\infty,u(\boldsymbol{X})]\)或者\([l(\boldsymbol{X}),+\infty)\)的區間估計。這一般代表我們隻關注參數的一側,而不關注另一側,我們稱這種區間估計為單側區間估計。不過,這種區間估計不是我們所要關注的重點。

Part 2:如何評價區間估計

最早接觸過的,用一個區間來表示估計範圍的,應該是高中所學的\(3\sigma\)原則:正态分布的取值落在\([\mu-3\sigma,\mu+3\sigma]\)之外的機率小于0.01。雖然這并非區間估計(務必注意這不是區間估計),但我們也能據此來感受區間估計的兩大評價名額:精度、可靠度。

精度用區間估計的平均長度來度量。為什麼要加入“平均”二字呢?因為區間估計的上界和下界都是統計量,而統計量自身具有兩重性,故區間長度\(\hat g_2(\boldsymbol{X})-\hat g_1(\boldsymbol{X})\)也是一個随機變量,其平均長度就是

\[\mathbb{E}[\hat g_2(\boldsymbol{X})-\hat g_1(\boldsymbol{X})].

\]

可靠度指的是待估參數\(\theta\)被包含在區間\([\hat g_1(\boldsymbol{X}),\hat g_2(\boldsymbol{X})]\)内的可能性,其量度不像精度那麼容易度量,這裡需要引入置信水準(置信度)與置信系數的概念。置信水準指的是\([\hat g_1(\boldsymbol{X}),\hat g_2(\boldsymbol{X})]\)包含待估參數\(\theta\)的機率,一般說來這個機率可能與\(\theta\)有關,在這種情況下,置信系數則是置信水準在\(\theta\in\Theta\)上的下确界。這樣,即使置信水準是一個關于\(\theta\)的函數,置信系數也是一個\([0,1]\)之間的常數,不過我們之後經常會取置信水準本身就是常數的區間作為待估參數的區間估計。

顯然,精度和可靠度是互相制約的,如果樣本容量一定,精度低了可靠度就高,為使置信系數達到\(1\),這個區間估計一般是\(\mathbb{R}\)。我們應當在精度和可靠度中互相權衡,來挑選合适的置信區間,為此,常使用Neyman建議的方案:在保證置信系數達到指定要求的前提下,盡可能提高精度。即,首先我們需要對區間估計有一個預期的表現,在這個預期表現之下選擇平均長度最小的區間估計。當然,預期的表現要合理,不能要一個\(100\%\)包含待估參數的蠻橫要求,這樣區間估計就會很尴尬。現行的教材一般要求這個置信系數是\(95\%\),将其一般化,可以提出如下置信區間的概念。

設\([\hat \theta_1,\hat \theta_2]\)是參數\(\theta\)的一個區間估計,其中\(\hat\theta_1=\hat\theta_1(\boldsymbol{X})\),\(\hat\theta_2=\hat\theta_2(\boldsymbol{X})\)。若對于給定的\(0<\alpha<1\)(常取\(\alpha=0.05\)),有

\[\mathbb{P}(\theta\in[\hat\theta_1,\hat\theta_2])\ge 1-\alpha,\quad \forall\theta\in\Theta,

\]

則稱\([\hat\theta_1,\hat\theta_2]\)是\(\hat\theta\)的置信水準為\(1-\alpha\)的置信區間,該區間的置信系數就是\(\inf\limits_{\theta\in\Theta}\mathbb{P}(\theta\in[\hat\theta_1,\hat\theta_2])\)。

我想,大多數讀者應該此前已經聽說過置信區間這個名詞,隻是不知道其官方定義是什麼。注意到,置信區間的定義是基于Neyman建議的,即首要條件是保證置信水準,盡可能讓精度小(不一定需要)。如果\(\mathbb{P}(\theta\in[\hat\theta_1,\hat\theta_2])\)在\(\theta\in\Theta\)上是一個常數,則置信度就是置信系數,這也是我們更經常處理的情況。

對于單側區間估計的情形,我們稱滿足\(\mathbb{P}(\theta\in[\hat\theta_l,\infty))\ge 1-\alpha\)或\(\mathbb{P}(\theta\in(-\infty,\hat\theta_u])\)的單側置信區間端點\(\hat\theta_l,\hat\theta_u\)為置信水準為\(1-\alpha\)的置信限。也就是說,“限”即上限或下限,描述的是單側的置信區間。

這樣,我們就把區間估計部分的基本概念給闡釋了一遍,但至于如何尋找區間估計,相信大多數讀者依然不明白。這沒有關系,閱讀以上的部分,你隻要明白Neyman的建議,以及什麼叫置信區間、置信水準即可。

Part 3:\(t\)分布和\(F\)分布

在開始區間估計的尋找之前,我們需要介紹正态分布的另外兩個衍生分布:\(t\)分布和\(F\)分布,它們在尋找正态分布區間估計的過程中會發揮重要的作用。

首先是\(t\)分布。設随機變量\(X\sim N(0,1)\),\(Y\sim \chi^2(n)\),且\(X\)和\(Y\)互相獨立,則

\[T\xlongequal{def}\frac{X}{\sqrt{Y/n}}\sim t(n),

\]

其中\(n\)為***度。形式上,分子是标準正态随機變量,分母是\(\chi^2\)變量除以其***度并開根号,\(t\)分布的***度即\(\chi^2\)分布的***度。

書上提到,\(t(n)\)分布的密度函數是

\[p_n(x)=\frac{\Gamma(\frac{n+1}{2})}{\Gamma(\frac{n}{2})\sqrt{n\pi}}\left(1+\frac{x^2}{n} \right)^{-\frac{n+1}{2}},

\]

這不是一個需要記憶的結論,證明也比較複雜,故在此不給出。

需要注意的是\(t\)分布的一些性質:

  1. \(t\)分布關于原點對稱,即其密度函數是偶函數。
  2. 随着***度\(n\)增大,\(t(n)\)分布趨近于标準正态分布。
  3. 若\(T\sim t(n)\),則\(\mathbb{E}(T^r)\)隻有當\(r<n\)時存在。特别當\(n\ge 2\)時,

    \[\mathbb{E}(T)=0,

    \]

    當\(n\ge 3\)時,

    \[\mathbb{D}(T)=\frac{n}{n-2}.

    \]

    顯然其矩特征随着\(n\)增大,也趨近于\(N(0,1)\)的矩特征。

  4. ***度為\(1\)的\(t(1)\)分布就是柯西分布,密度為

    \[p(x)=\frac{1}{\pi(1+x^2)}.

    \]

    其任意階矩不存在,常用于構***例。

接下來介紹\(F\)分布。設随機變量\(X\sim \chi^2(m)\),\(Y\sim \chi^2(n)\),且\(X,Y\)互相獨立,則

\[F\xlongequal{def}\frac{X/m}{Y/n}\sim F(m,n),

\]

其中\(m,n\)稱為\(F\)分布的***度,分子的***度在前,分母的***度在後。同樣,\(F\)分布具有一些常用的性質:

  1. 若\(Z\sim F(m,n)\),則\(1/Z\sim F(n,m)\),這由定義顯然。
  2. 若\(t\sim t(n)\),則\(t^2\sim F(1,n)\),這由定義顯然。

這樣,結合之前已經介紹過的\(\chi^2\)分布,我們就将正态分布的三大衍生分布介紹完畢了,盡管它們各自具有一定的性質,但其構造方式是最重要的。這三大分布,都可以由正态分布随機變量構造而成(\(\chi^2\)變量也可以視為正态變量),結合正态分布所自帶的變換性質,可以呈現出各種各樣的變化。

比如,如果\(X_1,\cdots,X_n\)是從正态總體\(N(\mu,\sigma^2)\)所抽取的簡單随機樣本,這裡\(\mu,\sigma^2\)未知,是以\(\bar X,S^2\)的分布中肯定都帶有未知參數,如果我們想消除未知參數的影響,可以參考正态分布的标準化過程:\((U-\mu)/\sigma\sim N(0,1)\)構造出不含未知參數的統計量。

首先,由于\(\bar X\sim N(\mu,\sigma^2/n)\),是以

\[\frac{\sqrt{n}(\bar X-\mu)}{\sigma}\sim N(0,1),

\]

又由于

\[\frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1),

\]

是以有

\[\frac{\frac{\sqrt{n}(\bar X-\mu)}{\sigma}}{\sqrt{\frac{(n-1)S^2}{\sigma^2}/(n-1)}}=\frac{\sqrt{n}(\bar X-\mu)}{S}\sim t(n-1).

\]

神奇的是,未知參數\(\sigma\)被消除了,是以我們得到了一個具有确定分布的統計量。這個方法,在下一篇文章中将發揮重要的作用,其他的變換我們也以後再展開。

本文的前兩個部分是區間估計的基本知識介紹,第三部分是正态分布的另外兩個衍生分布,在下一篇文章中,我們将探索構造區間估計的方法。