天天看點

t檢驗與F檢驗 /統計常識 / 統計學筆記(2)--随機抽樣與統計推斷的邏輯

t檢驗與F檢驗 /統計常識 / 統計學筆記(2)--随機抽樣與統計推斷的邏輯

 1,T檢驗和F檢驗的由來

一般而言,為了确定從樣本(sample)統計結果推論至總體時所犯錯的機率,我們會利用統計學家所開發的一些統計方法,進行統計檢定。

通過把所得到的統計檢定值,與統計學家建立了一些随機變量的機率分布(probability distribution)進行比較,我們可以知道在多少%的機會下會得到目前的結果。倘若經比較後發現,出現這結果的機率很少,亦即是說,是在機會很少、很罕有的情況下才出現;那我們便可以有信心的說,這不是巧合,是具有統計學上的意義的(用統計學的話講,就是能夠拒絕虛無假設null hypothesis,Ho)。相反,若比較後發現,出現的機率很高,并不罕見;那我們便不能很有信心的直指這不是巧合,也許是巧合,也許不是,但我們沒能确定。

F值和t值就是這些統計檢定值,與它們相對應的機率分布,就是F分布和t分布。統計顯著性(sig)就是出現目前樣本這結果的機率。

2,統計學意義(P值或sig值)

結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,p值為結果可信程度的一個遞減名額,p值越大,我們越不能認為樣本中變量的關聯是總體中各變量關聯的可靠名額。p值是将觀察結果認為有效即具有總體代表性的犯錯機率。如p=0.05提示樣本中變量關聯有5%的可能是由于偶然性造成的。即假設總體中任意變量間均無關聯,我們重複類似實驗,會發現約20個實驗中有一個實驗,我們所研究的變量關聯将等于或強于我們的實驗結果。(這并不是說如果變量間存在關聯,我們可得到5%或95%次數的相同結果,當總體中的變量存在關聯,重複研究和發現關聯的可能性與設計的統計學效力有關。)在許多研究領域,0.05的p值通常被認為是可接受錯誤的邊界水準。

3,T檢驗和F檢驗

至於具體要檢定的内容,須看你是在做哪一個統計程式。

舉一個例子,比如,你要檢驗兩獨立樣本均數差異是否能推論至總體,而行的t檢驗。

兩樣本(如某班男生和女生)某變量(如身高)的均數并不相同,但這差别是否能推論至總體,代表總體的情況也是存在著差異呢?

會不會總體中男女生根本沒有差别,隻不過是你那麼巧抽到這2樣本的數值不同?

為此,我們進行t檢定,算出一個t檢定值。

與統計學家建立的以「總體中沒差别」作基礎的随機變量t分布進行比較,看看在多少%的機會(亦即顯著性sig值)下會得到目前的結果。

若顯著性sig值很少,比如<0.05(少於5%機率),亦即是說,「如果」總體「真的」沒有差别,那麼就隻有在機會很少(5%)、很罕有的情況下,才會出現目前這樣本的情況。雖然還是有5%機會出錯(1-0.05=5%),但我們還是可以「比較有信心」的說:目前樣本中這情況(男女生出現差異的情況)不是巧合,是具統計學意義的,「總體中男女生不存差異」的虛無假設應予拒絕,簡言之,總體應該存在著差異。

每一種統計方法的檢定的内容都不相同,同樣是t-檢定,可能是上述的檢定總體中是否存在差異,也同能是檢定總體中的單一值是否等於0或者等於某一個數值。

至於F-檢定,方差分析(或譯變異數分析,Analysis of Variance),它的原理大緻也是上面說的,但它是透過檢視變量的方差而進行的。它主要用于:均數差别的顯著性檢驗、分離各有關因素并估計其對總變異的作用、分析因素間的互動作用、方差齊性(Equality of Variances)檢驗等情況。

4,T檢驗和F檢驗的關系

t檢驗過程,是對兩樣本均數(mean)差别的顯著性進行檢驗。惟t檢驗須知道兩個總體的方差(Variances)是否相等;t檢驗值的計算會因方差是否相等而有所不同。也就是說,t檢驗須視乎方差齊性(Equality of Variances)結果。是以,SPSS在進行t-test for Equality of Means的同時,也要做Levene's Test for Equality of Variances 。

1.

在Levene's Test for Equality of Variances一欄中 F值為2.36, Sig.為.128,表示方差齊性檢驗「沒有顯著差異」,即兩方差齊(Equal Variances),故下面t檢驗的結果表中要看第一排的資料,亦即方差齊的情況下的t檢驗的結果。

2.

在t-test for Equality of Means中,第一排(Variances=Equal)的情況:t=8.892, df=84, 2-Tail Sig=.000, Mean Difference=22.99

既然Sig=.000,亦即,兩樣本均數差别有顯著性意義!

3.

到底看哪個Levene's Test for Equality of Variances一欄中sig,還是看t-test for Equality of Means中那個Sig. (2-tailed)啊?

答案是:兩個都要看。

先看Levene's Test for Equality of Variances,如果方差齊性檢驗「沒有顯著差異」,即兩方差齊(Equal Variances),故接著的t檢驗的結果表中要看第一排的資料,亦即方差齊的情況下的t檢驗的結果。

反之,如果方差齊性檢驗「有顯著差異」,即兩方差不齊(Unequal Variances),故接著的t檢驗的結果表中要看第二排的資料,亦即方差不齊的情況下的t檢驗的結果。

4.

你做的是T檢驗,為什麼會有F值呢?

就是因為要評估兩個總體的方差(Variances)是否相等,要做Levene's Test for Equality of Variances,要檢驗方差,故是以就有F值。

另一種解釋:

t檢驗有單樣本t檢驗,配對t檢驗和兩樣本t檢驗。

單樣本t檢驗:是用樣本均數代表的未知總體均數和已知總體均數進行比較,來觀察此組樣本與總體的差異性。

配對t檢驗:是采用配對設計方法觀察以下幾種情形,1,兩個同質受試對象分别接受兩種不同的處理;2,同一受試對象接受兩種不同的處理;3,同一受試對象處理前後。

F檢驗又叫方差齊性檢驗。在兩樣本t檢驗中要用到F檢驗。

從兩研究總體中随機抽取樣本,要對這兩個樣本進行比較的時候,首先要判斷兩總體方差是否相同,即方差齊性。若兩總體方差相等,則直接用t檢驗,若不等,可采用t'檢驗或變量變換或秩和檢驗等方法。

其中要判斷兩總體方差是否相等,就可以用F檢驗。

若是單組設計,必須給出一個标準值或總體均值,同時,提供一組定量的觀測結果,應用t檢驗的前提條件就是該組資料必須服從正态分布;若是配對設計,每對資料的內插補點必須服從正态分布;若是成組設計,個體之間互相獨立,兩組資料均取自正态分布的總體,并滿足方差齊性。之是以需要這些前提條件,是因為必須在這樣的前提下所計算出的t統計量才服從t分布,而t檢驗正是以t分布作為其理論依據的檢驗方法。

簡單來說就是實用T檢驗是有條件的,其中之一就是要符合方差齊次性,這點需要F檢驗來驗證。

1、問:自由度是什麼?怎樣确定?

答:(定義)構成樣本統計量的獨立的樣本觀測值的數目或自由變動的樣本觀測值的數目。用df表示。

自由度的設定是出于這樣一個理由:在總體平均數未知時,用樣本平均數去計算離差(常用小s)會受到一個限制——要計算标準差(小s)就必須先知道樣本平均數,而樣本平均數和n都知道的情況下,資料的總和就是一個常數了。是以,“最後一個”樣本資料就不可以變了,因為它要是變,總和就變了,而這是不允許的。至于有的自由度是n-2什麼的,都是同樣道理。

    在計算作為估計量的統計量時,引進一個統計量就會失去一個自由度。

    通俗點說,一個班上有50個人,我們知道他們國文成績平均分為80,現在隻需要知道49個人的成績就能推斷出剩下那個人的成績。你可以随便報出49個人的成績,但是最後一個人的你不能瞎說,因為平均分已經固定下來了,自由度少一個了。

    簡單點就好比你有一百塊,這是固定的,已知的,假設你打算買五件東西,那麼前四件你可以随便買你想買的東西,隻要還有錢的話,比如說你可以吃KFC可以買筆,可以買衣服,這些花去的錢數目不等,當你隻剩2塊錢時,或許你最多隻能買一瓶可樂了,當然也可以買一個肉松蛋卷,但無論怎麼花,你都隻有兩塊錢,而這在你花去98塊那時就已經定下來了。 (這個例子舉的真不錯!!)

2、問:X方檢驗中自由度問題

答:在正态分布檢驗中,這裡的M(三個統計量)為N(總數)、平均數和标準差。

    因為我們在做正态檢驗時,要使用到平均數和标準差以确定該正态分布形态,此外,要計算出各個區間的理論次數,我們還需要使用到N。

    是以在正态分布檢驗中,自由度為K-3。(這一條比較特别,要記住!)

    在總體分布的配合度檢驗中,自由度為K-1。

    在交叉表的獨立性檢驗和同質性檢驗中,自由度為(r-1)×(c-1)。

3、問:t檢驗和方差分析有何差別

答:t檢驗适用于兩個變量均數間的差異檢驗,多于兩個變量間的均數比較要用方差分析。

        用于比較均值的t檢驗可以分成三類,第一類是針對單組設計定量資料的;第二類是針對配對設計定量資料的;第三類則是針對成組設計定量資料的。後兩種設計類型的差別在于事先是否将兩組研究對象按照某一個或幾個方面的特征相似配成對子。無論哪種類型的t檢驗,都必須在滿足特定的前提條件下應用才是合理的。

若是單組設計,必須給出一個标準值或總體均值,同時,提供一組定量的觀測結果,應用t檢驗的前提條件就是該組資料必須服從正态分布;若是配對設計,每對資料的內插補點必須服從正态分布;若是成組設計,個體之間互相獨立,兩組資料均取自正态分布的總體,并滿足方差齊性。之是以需要這些前提條件,是因為必須在這樣的前提下所計算出的t統計量才服從t分布,而t檢驗正是以t分布作為其理論依據的檢驗方法。

值得注意的是,方差分析與成組設計t檢驗的前提條件是相同的,即正态性和方差齊性。

t檢驗是目前醫學研究中使用頻率最高,醫學論文中最常見到的處理定量資料的假設檢驗方法。t檢驗得到如此廣泛的應用,究其原因,不外乎以下幾點:現有的醫學期刊多在統計學方面作出了要求,研究結論需要統計學支援;傳統的醫學統計教學都把t檢驗作為假設檢驗的入門方法進行介紹,使之成為廣大醫學研究人員最熟悉的方法;t檢驗方法簡單,其結果便于解釋。簡單、熟悉加上外界的要求,促成了t檢驗的流行。但是,由于某些人對該方法了解得不全面,導緻在應用過程中出現不少問題,有些甚至是非常嚴重的錯誤,直接影響到結論的可靠性。将這些問題歸類,可大緻概括為以下兩種情況:不考慮t檢驗的應用前提,對兩組的比較一律用t檢驗;将各種實驗設計類型一律視為多個單因素兩水準設計,多次用t檢驗進行均值之間的兩兩比較。以上兩種情況,均不同程度地增加了得出錯誤結論的風險。而且,在實驗因素的個數大于等于2時,無法研究實驗因素之間的互動作用的大小。

問:統計學意義(P值)

答:結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,P值為結果可信程度的一個遞減名額,P值越大,我們越不能認為樣本中變量的關聯是總體中各變量關聯的可靠名額。P值是将觀察結果認為有效即具有總體代表性的犯錯機率。如P=0.05提示樣本中變量關聯有5%的可能是由于偶然性造成的。即假設總體中任意變量間均無關聯,我們重複類似實驗,會發現約20個實驗中有一個實驗,我們所研究的變量關聯将等于或強于我們的實驗結果。(這并不是說如果變量間存在關聯,我們可得到5%或95%次數的相同結果,當總體中的變量存在關聯,重複研究和發現關聯的可能性與設計的統計學效力有關。)在許多研究領域,0.05的P值通常被認為是可接受錯誤的邊界水準。

4、問:如何判定結果具有真實的顯著性

答:在最後結論中判斷什麼樣的顯著性水準具有統計學意義,不可避免地帶有武斷性。換句話說,認為結果無效而被拒絕接受的水準的選擇具有武斷性。實踐中,最後的決定通常依賴于資料集比較和分析過程中結果是先驗性還是僅僅為均數之間的兩兩>比較,依賴于總體資料集裡結論一緻的支援性證據的數量,依賴于以往該研究領域的慣例。通常,許多的科學領域中産生P值的結果≤0.05被認為是統計學意義的邊界線,但是這顯著性水準還包含了相當高的犯錯可能性。結果 0.05≥P>0.01被認為是具有統計學意義,而0.01≥P≥0.001被認為具有高度統計學意義。但要注意這種分類僅僅是研究基礎上非正規的判斷正常。

5、問:所有的檢驗統計都是正态分布的嗎?

答:并不完全如此,但大多數檢驗都直接或間接與之有關,可以從正态分布中推導出來,如t檢驗、F檢驗或卡方檢驗。這些檢驗一般都要求:所分析變量在總體中呈正态分布,即滿足所謂的正态假設。許多觀察變量的确是呈正态分布的,這也是正态分布是現實世界的基本特征的原因。當人們用在正态分布基礎上建立的檢驗分析非正态分布變量的資料時問題就産生了,(參閱非參數和方差分析的正态性檢驗)。這種條件下有兩種方法:一是用替代的非參數檢驗(即無分布性檢驗),但這種方法不友善,因為從它所提供的結論形式看,這種方法統計效率低下、不靈活。另一種方法是:當确定樣本量足夠大的情況下,通常還是可以使用基于正态分布前提下的檢驗。後一種方法是基于一個相當重要的原則産生的,該原則對正态方程基礎上的總體檢驗有極其重要的作用。即,随着樣本量的增加,樣本分布形狀趨于正态,即使所研究的變量分布并不呈正态。

6、問:假設檢驗的内涵及步驟

答:在假設檢驗中,由于随機性我們可能在決策上犯兩類錯誤,一類是假設正确,但我們拒絕了假設,這類錯誤是“棄真”錯誤,被稱為第一類錯誤;一類是假設不正确,但我們沒拒絕假設,這類錯誤是“取僞”錯誤,被稱為第二類錯誤。一般來說,在樣本确定的情況下,任何決策無法同時避免兩類錯誤的發生,即在避免第一類錯誤發生機率的同時,會增大第二類錯誤發生的機率;或者在避免第二類錯誤發生機率的同時,會增大第一類錯誤發生的機率。人們往往根據需要選擇對那類錯誤進行控制,以減少發生這類錯誤的機率。大多數情況下,人們會控制第一類錯誤發生的機率。     發生第一類錯誤的機率被稱作顯著性水準,一般用α表示,在進行假設檢驗時,是通過事先給定顯著性水準α的值而來控制第一類錯誤發生的機率。在這個前提下,假設檢驗按下列步驟進行:

    1)、确定假設;

    2)、進行抽樣,得到一定的資料;

    3)、根據假設條件下,構造檢驗統計量,并根據抽樣得到的資料計算檢驗統計量在這次抽樣中的具體值;

    4)、依據所構造的檢驗統計量的抽樣分布,和給定的顯著性水準,确定拒絕域及其臨界值;

    5)、比較這次抽樣中檢驗統計量的值與臨界值的大小,如果檢驗統計量的值在拒絕域内,則拒絕假設;

到這一步,假設檢驗已經基本完成,但是由于檢驗是利用事先給定顯著性水準的方法來控制犯錯機率的,是以對于兩個資料比較相近的假設檢驗,我們無法知道那一個假設更容易犯錯,即我們通過這種方法隻能知道根據這次抽樣而犯第一類錯誤的最大機率(即給定的顯著性水準),而無法知道具體在多大機率水準上犯錯。計算 P值有效的解決了這個問題,P值其實就是按照抽樣分布計算的一個機率值,這個值是根據檢驗統計量計算出來的。通過直接比較P值與給定的顯著性水準α的大小就可以知道是否拒絕假設,顯然這就代替了比較檢驗統計量的值與臨界值的大小的方法。而且通過這種方法,我們還可以知道在p值小于α的情況下犯第一類錯誤的實際機率是多少,p=0.03<α=0.05,那麼拒絕假設,這一決策可能犯錯的機率是0.03。需要指出的是,如果P>α,那麼假設不被拒絕,在這種情況下,第一類錯誤并不會發生。

7、問:卡方檢驗的結果,值是越大越好,還是越小越好?

答:與其它檢驗一樣,所計算出的統計量越大,在分布中越接近分布的尾端,所對應的機率值越小。

如果試驗設計合理、資料正确,顯著或不顯著都是客觀反映。沒有什麼好與不好。

8、問:配對樣本的T檢驗和相關樣本檢驗有何差别?

答:配對樣本有同源配對(如動物實驗中雙胞胎)、條件配對(如相同的環境)、自身配對(如醫學實驗中個體的用藥前後)等。(好像沒有解釋清楚啊,同問這個,到底什麼差別呢?)

9、問:在比較兩組資料的率是否相同時,二項分布和卡方檢驗有什麼不同?

答:卡方分布主要用于多組多類的比較,是檢驗研究對象總數與某一類别組的觀察頻數和期望頻數之間是否存在顯著差異,要求每格中頻數不小于5,如果小于5則合并相鄰組。二項分布則沒有這個要求。

如果分類中隻有兩類還是采用二項檢驗為好。

如果是2*2表格可以用fisher精确檢驗,在小樣本下效果更好。

10、問:如何比較兩組資料之間的差異性

答:從四個方面來回答,

    1).設計類型是完全随機設計兩組資料比較,不知道資料是否是連續性變量?

    2).比較方法:如果資料是連續性資料,且兩組資料分别服從正态分布&方差齊(方差齊性檢驗),則可以采用t檢驗,如果不服從以上條件可以采用秩和檢驗。

    3).想知道兩組資料是否有明顯差異?不知道這個明顯差異是什麼意思?是問差别有無統計學意義(即差别的機率有多大)還是兩總體均數內插補點在哪個範圍波動?如果是前者則可以用第2步可以得到P值,如果是後者,則是用均數內插補點的置信區間來完成的。當然兩者的結果在SPSS中均可以得到。

11、問:回歸分析和相關分析的聯系和差別

答:回歸分析(Regression):Dependant variable is defined and can be forecasted by independent variable.相關分析(Correlation):The relationship btw two variables. --- A dose not define or determine B.

回歸更有用自變量解釋因變量的意思,有一點點因果關系在裡面,并且可以是線性或者非線形關系;

相關更傾向于解釋兩兩之間的關系,但是一般都是指線形關系,特别是相關指數,有時候圖像顯示特别強二次方圖像,但是相關指數仍然會很低,而這僅僅是因為兩者間不是線形關系,并不意味着兩者之間沒有關系,是以在做相關指數的時候要特别注意怎麼解釋數值,特别建議做出圖像觀察先。

不過,無論回歸還是相關,在做因果關系的時候都應該特别注意,并不是每一個顯著的回歸因子或者較高的相關指數都意味着因果關系,有可能這些因素都是受第三,第四因素制約,都是另外因素的因或果。

對于此二者的差別,我想通過下面這個比方很容易了解:

對于兩個人關系,相關關系隻能知道他們是戀人關系,至于他們誰是主導者,誰說話算數,誰是跟随者,一個打個噴嚏,另一個會有什麼反應,相關就不能勝任,而回歸分析則能很好的解決這個問題

回歸未必有因果關係。回歸的主要有二:一是解釋,一是預測。在於利用已知的自變項預測未知的依變數。相關係數,主要在了解兩個變數的共變情形。如果有因果關係,通常會進行路徑分析(path analysis)或是線性結構關係模式。

我覺得應該這樣看,我們做回歸分析是在一定的理論和直覺下,通過自變量和因變量的數量關系探索是否有因果關系。樓上這位仁兄說“回歸未必有因果關系……如果有因果關系,通常進行路徑分析或線性結構關系模式”有點值得商榷吧,事實上,回歸分析可以看成是線性結構關系模式的一個特例啊。

我覺得說回歸是探索因果關系的并沒錯,因為實際上最後我們并不是完全依據統計的結果來判斷因果性,隻有在統計結果和理論及現實比較吻合的基礎上我們才肯定這種因果關系。任何統計方法隻是一種工具,但是不能完全依賴于這種工具。即使是SEM,我們也不能說完全認定其準确性,因為即使方法是好的,但是變量的複雜關系呈現的方式也是多種多樣的,可能統計隻能告訴你一個方向上的最優解,可未必是最符合實際的,更何況抽樣資料的品質好壞也會使得結果不符合事實,進而導緻人們懷疑統計方法的準确性。

統計隻說明統計關聯。

不證明因素關系。

回歸有因果關系,相關未必。

回歸分析是處理兩個及兩個以上變量間線性依存關系的統計方法。此類問題很普遍,如人頭發中某種金屬元素的含量與血液中該元素的含量有關系,人的體表面積與身高、體重有關系;等等。回歸分析就是用于說明這種依存變化的數學關系。

任何事物的存在都不是孤立的,而是互相聯系、互相制約的。身高與體重、體溫與脈搏、年齡與血壓等都存在一定的聯系。說明客觀事物互相間關系的密切程度并用适當的統計名額表示出來,這個過程就是相關分析.        

統計學筆記(2)--随機抽樣與統計推斷的邏輯

前天麥小兜問我怎樣構造置信區間,在電話裡我似乎沒有解釋清楚,這裡重新整理出一份筆記。同時有感于在國内做課題時,同行們的窘态曆曆在目(他們不知道如何去檢驗一個變量是否符合正态分布),故記之,以勉勵自己盡力思考清楚所學所用之物。   學過統計學的人都知道可以對一個未知總體(population)進行随機抽樣,通過對樣本(sample)的描述、計算(例如計算樣本均值、樣本方差),進而推斷總體的一些特征(對某些假設進行檢驗,構造置信區間等等)。當然,很多現代的推斷方法都是“菜單(cook book)”性質的,不需要非專業人士進行詳細掌握,例如,搞經濟學的人往往在不知道什麼是F分布的情況下也能知道如何檢驗F統計量并對結論進行解釋,甚至不用親手計算F統計量。但是,如果仔細思考一下其中的關系,可以看到這種随機抽樣--推斷中包含着某種哲學,而這種哲學在某些地方的确顯式出了人類的智慧。   本質上,這種方法是用一組我們掌握了100%資訊的資料(樣本),對一組我們幾乎不掌握資訊或隻掌握部分資訊的資料(總體),進行拟合的過程。換句話說,以有知推未知的過程。因為是對“未知”的推斷,我們不可能有100%的把握,但同時是用“有知”的資料,是以我們不會一點把握都沒有。也許通過一個極為簡單例子我們可以看到背後的這種思維。下面就開始這個練習。   [例子]:假設一個學校有20000名學生,從中随機抽取1000名學生,問,這個學校20000名學生的某門課的平均成績是否為70/100?注意,這裡并沒有作出有關總體的分布的假設。   [問題1]:我們能夠用樣本進行統計推斷了嗎? 似乎還不可以,邏輯上缺一步。這裡值得注意的是,所抽取的1000學生是否是“随機樣本”?答案是否定的。   随機抽樣的思想是:抽出來的樣本(sample)的分布是和總體(population)的分布是一緻的,這一點對于每一個觀測值而言,能夠成立。但随機樣本還要求每個觀測值(observation)互相獨立(independent),在這裡狹義的了解便是,每一個觀察值被取到的機率是相同的。但是在上面例子裡,這個條件顯然并不能被滿足(很多囫囵的學者往往忽略這個條件)。如果你收集了1000個學生的成績單,那麼這1000個學生的成績被抽到機率取決于其被取到的順序。由于一次抽取1000個學生的成績,每個學生被抽到的次數隻是一次,不能被重複抽樣。于是,樣本中第一個學生被抽到的機率是1/20000,第二個學生被抽到的機率則是1/19999,第三個學生是1/19998,……第1000個學生為1/19000。也就是說,在一些學生被抽走之後,下一個學生被抽到的機率絕對不會等于1/20000。隻有在有放回(with replacement)的抽樣中,我們才能說每個學生被抽中的機率是1/20000,也才能保證,我們抽取的是随機樣本(random sample)。但是那樣的話,我們又很可能抽不到1000個樣本,因為一個學生被抽到大于一次重複的可能性不是零。   幸運的是,注意到這一千個機率值相差并不大(因為總體值夠大),那麼,可以近似地認為這1000個學生的成績是随機樣本(random sample)。在做了這樣的近似之後,我們方可以進行統計推斷。這種近似在統計學中很普遍。例如,中心極限定理(central limit Theorem)說的是,大多數分布可以近似的看作正态(normal)分布,這使得正态分布在統計學中占有極為重要的地位。這些分布的一個重要特征便是,變量可以看成是觀測值的和(的函數),例如,二項分布可以看成是一組伯努裡試驗(bernolli tiral)結果的和。另外,例如泊松(poisson)分布可以看成是二項(binomial)分布,而後者又可近似看作正态分布。   但是,完成了這個近似,我們還需要更多的假設才能進行統計推斷和檢驗(inference and test)。例如,我們必須了解總體的分布情況,即使不知道所有參數的具體值。(目前假設我們隻讨論參數(parametric)方法)   [情形一]:我們确切知道這20000學生的成績符合(正态)分布,均值未知(unkown mean)但是方差已知(known variance)。   [問題2] 對于符合任意分布的樣本,樣本均值和樣本方差符合什麼樣的規律?   利用簡單的數學期望的性質可以得到如下關系: (1)樣本均值的期望=總體均值。 (2)樣本均值的方差=總體方差/樣本數(樣本均值的波動沒有單個觀測值變化大)   通過這些變量,我們可以構造統計量Z: (3)Z=(樣本均值- 總體均值)/根号(總體方差/樣本數)。根據(1)(2)和中心極限定理,對于 任何總體,Z統計量符合 标準正态分布。值得注意的是,對于這個Z統計量,我們掌握了大量的資訊。例如,對于任意給定的A值,我們完全可以計算出符合 (4)Pr(Z<|z|)=A%的z值。 但是由于Z是變量,我們并未掌握100%的資訊。   注意(3)和(4)式的含義,由于我們可以算出樣本均值和樣本方差,總體方差,那麼z便是由總體均值唯一決定的函數。于是,我們可以 反算出總體均值的函數表達式,因為總體均值僅僅是z的 反函數。給定A,我們知道z的取值範圍,也就知道了 總體均值的變化範圍。這個變化範圍就是我們所說的 置(自) 信區間(confidence interval),例如Pr(c1<總體均值<c2)=90%,c1是5%百分位(percentile)的數值,c2是95%百分位的數值。也就是說,總體均值落在c1,c2區間的機率是90%。   于是我們可以進行假設檢驗:H0:總體均值=70    VS  H1:not H0。(assume:size=10%)。 這個時候,我們知道Pr(c1<總體均值<c2)=90%,那麼隻要 總體均值<c1或者 總體均值>c2我們就可以在10%的水準上推翻H0。   [情形二]我們不知道總體方差,也不知道總體均值。 再看式子(3),我們知道不能用正态分布來進行推斷了,于是得用新的方法,即t分布。   根據定義,樣本方差=sum(觀測值i-樣本均值)^2;i=1,2,1000。 樣本均值=sum(觀測值i)/樣本數 i=1,2,……1000。   可以證明(過程複雜,需要用到正交矩陣運算),(樣本方差/總體方差)符合(樣本值-1)個自由度的卡方(chi-squared)分布。同時,樣本方差和樣本均值是獨立變量。   那麼構造新的t變量:t=Z/根号(卡方/自由度)。   值得注意,分子分母各是一個分式,各自的分母都帶有一個未知數,即總體方差。但幸運的是,這兩者互相銷去。于是,t隻是由 總體均值唯一決定的函數。   那麼我們又可以進行構造置信區間的練習。這裡需要指出的是,(i)對于符合任意分布的總體而言,Z符合标準正态分布,因為樣本均值是所有觀測值的“和”(乘以一個常數),隻要樣本數夠大,中心極限定理保證了其近似于标準正态分布。(ii)但是,如果總體不符合正态部分,那麼我們無法進行t檢驗。因為無法保證樣本方差符合卡方分布,于是也就無法保證t符合t分布。     總結一下這裡的哲學。我們用了一個掌握了100%資訊的樣本,計算了幾個值(樣本均值,樣本方差)。然後構造出了一個我們掌握了很大資訊的統計量Z,或t。再用這些資訊去了解我們掌握了少數資訊的總體。耐人尋味的地方在于,這個符合标準正态分布的統計量Z,和t,其中的資訊一些來自樣本,一些來自于總體。這個我們了解一部分的量,恰恰成為我們這種統計推斷的橋梁。因為直接分析總體的話,我們的資訊不夠--我們幾乎什麼都不知道。而直接分析樣本,盡管我們有充分資訊,這個樣本卻與總體均值的關系不夠緊密,我們隻知道(1)式和(2)式。于是Z和t變量便起到了“曲線救國”的作用。但是,正因為如此,我們隻能說,我們有A%的把握相信,總體均值落在(c1,c2)區間内。   當缺乏更多的資訊時,我們就需要增加更多的步驟,例如,構造t變量需要證明樣本均值和樣本方差是獨立變量,還需要了解卡方分布。但是,前人們已經發現了這樣一些分布,為這種方法鋪平了道路。在我看來,這些人真真正正地極大推動了人類思想史的發展。這些人如何想出卡方分布這樣一個分布?如何找到正态分布和t分布之間的關系?這些本身就值得驚歎。   [情形三]我們不知道總體的分布,也不知道任何參數。   前面說過,如果不知道總體的分布,隻要知道總體方差,Z變量符合标準正态分布。但現在我們不知道總體方差,我們就甚至連參數方法都不能用了,應該采用非參數方法(nonparametic method)或半參數方法(semi-parametric method)。但是邏輯仍然是一緻的,即需要通過一個中間的統計量來聯系樣本和總體,例如,位序檢驗(rank test),規模檢驗(size test)都需要構造一個新的統計量。這些方法對麥小兜的課題沒有幫助,略去。

繼續閱讀