本節書摘來自異步社群出版社《統計會犯錯——如何避免資料分析中的統計陷阱》一書中的第2章,第2.2節,作者:【美】alex reinhart(亞曆克斯·萊因哈特),更多章節内容可以通路雲栖社群“異步社群”公衆号檢視。
考慮下面一個試驗:在相同條件下,比較fixitol和solvix這兩種不同的藥物,以确定哪種藥物更加安全。由于藥物的副作用比較罕見,是以即使分别在100名患者身上測試這兩種藥物,在每一群體裡,也隻要在少數患者身上産生嚴重的副作用。正如同我們難以區分兩枚正面向上機率分别為 50%和 51%的硬币,如果兩種藥物的副作用發生率分别為 3%和 4%,那麼也難以把它們差別開來。如果有 4 名服用fixitol的患者産生了嚴重的副作用,而隻有 3 名服用solvix的患者産生了副作用,此時你并不能得到fixitol更有可能産生副作用的結論,這是因為此時檢驗的功效較低。
如果一個試驗不能有效地識别出某種效應,那麼我們就說這個試驗低功效。
你也許認為,對于醫學試驗而言,計算功效是必需的一個步驟;新藥開發人員為了檢驗一種藥物的效果,應确定召集多少名患者來參與這個試驗,而通過計算一下功效就可以得到答案。令科學家感到滿意的試驗的功效是80%或者比這更高,這也就意味着能夠有80%或更高的機率檢測到一種特定大小的真實效應。
然而,鮮有科學家計算統計功效,也很少有期刊論文提及統計功效。在最權威的期刊《科學》和《自然》上,在開展研究之前計算統計功效的文章少于3%1。實際上,許多試驗的結論是:“雖然兩組效果具有大的差異,但是在統計上并沒有顯著性”。這些試驗絲毫不提及,可能是因為沒有收集到足夠的資料,是以它們的功效較低,發現差異卻沒能得到顯著性的結論2。如果有些試驗是在比較兩種藥物的副作用,那麼以上錯誤結論就意味着,兩種藥物都是同樣安全的,而事實上,其中某種藥物可能比另一種更加危險。
你也許認為上述問題隻在副作用發生機率很低或者副作用影響不大時才會産生。事實上絕非如此。我們收集了1975~1990年在權威醫學期刊上發表的一些試驗,發現在那些報告沒有顯著性差異的試驗中,約有4/5的試驗沒有收集足夠的資料,來檢測治療組與對照組之間25%的效果差異。也就是說,即使一種藥物比另一種藥物能将病狀降低25%,卻由于沒有足夠的資料,仍然不能作出上述結論。另外,約有2/3的試驗的功效較低, 未能檢測出50%的效果差異3。
在最近關于癌症試驗的一項研究中,有類似的結論:在那些得到陰性結論的研究中,僅有一半有足夠的功效能識别出主要結果的差異,其他研究均因功效過低沒有得到有用發現4。在這些低功效的研究中,隻有不到10%解釋了為什麼選取的樣本容量如此之少。類似的低功效問題在醫藥研究的其他領域也時常發生5,6。
以上問題在神經科學的研究中尤為突出。每項神經科學研究收集了過少的資料,以至于平均每項研究隻有20%的功效。為了彌補低功效的不足,你可以将研究同一效應的所有論文資料整理在一起進行分析。既然神經科學研究都以動物作為研究對象,是以就産生了倫理問題。如果一項研究功效較低,那麼隻有完成更多的研究,使用更多的動物作為研究對象,才能發現真正的效應7。倫理道德委員會不應支援開展那些功效較低、不能發現目标效應的研究。
低功效的原因
奇怪的是,低功效問題由來已久,但現在仍然非常普遍。1960年,jacob cohen分析了發表在《journal of abnormal and social psychology》8上試驗的功效,他發現平均而言,這些試驗能夠檢測出中等效應的功效隻有48%[1]。jacob cohen的研究被引用上百次,而且類似的評論也接踵而至,一緻要求進行試驗時需計算功效并擴大樣本容量。1989年,一篇評論指出,在cohen得到以上分析結論後的10年裡,平均的研究功效實際上又下降了9!這是因為,研究人員開始意識到多重假設檢驗問題,而在解決多重假設檢驗問題的過程中,研究的功效進一步降低了(我們将在第4章讨論多重假設檢驗問題,那時你将會看到我們必須在研究功效和多重假設檢驗修正之間做出取舍)。
為什麼我們經常忽視功效計算?原因之一是樣本大小和功效結果給我們的直覺感受不一樣。即使在功效極低的情況下,我們經常認為試驗對象已經足夠多了。舉個例子,假如你在測試一項新的心髒病治療方案,希望将死亡風險從20%降低至10%。你可能會這樣想:如果對50名患者采用這項新的方案,沒有發現明顯差别,那麼新治療方案就沒帶來多少好處。但是為了使功效達到80%,你實際上需要多達400名患者,每個治療組裡有200名患者而不是50名患者10。臨床醫生往往未意識到他們的樣本容量太小。
在數學上準确計算功效難度較大,甚至有時無法計算,這是忽視功效計算的另外一個原因。在統計課堂上,一般不會講授計算功效的方法,并且一些商用軟體中也沒有計算功效的函數。當然,你也可以不用數學而是利用随機模拟的方法計算功效。首先模拟具有你所期待效應的成千上萬個資料集,然後在每一個資料集上進行統計檢驗,得到顯著性檢驗結果的比例就是功效。但是這種方法需要程式設計經驗,而且模拟現實資料也充滿技巧。
盡管計算困難,但你可能認為科學家應該注意到了功效問題并試圖進行改進:連續5次或6次試驗都顯示不顯著的結果,科學家就應懷疑在某些地方出了問題。然而,一般的研究并不隻做單個假設檢驗而是很多、很有可能得到顯著性的結果 11。隻要該顯著性的結果非常有趣,就可以看成是論文的亮點,這名科學家此時早已忘記研究功效較低的問題。
低功效并非意味着,當科學家們聲稱兩組之間沒有顯著性差異時,他們在說謊。但是如果認為這些結果表明确實不存在差異,那這就是誤導了。差異甚至一個非常重要的差異可能是存在的,隻是由于研究的規模太小沒能發現這種差異。下面,我們考慮生活中的一個例子。
遇紅燈時錯誤轉彎
20世紀70年代,美國許多地方開始允許司機遇到紅燈時右轉。而在很多年以前,城市道路規劃人員認為,允許紅燈右轉會帶來安全隐患,引起更多的交通事故和行人死亡。但是1973年的石油危機促使交通管理部門考慮實施這項政策,因為這樣就能減少等待紅燈時的汽油浪費。最終,國會要求各州實施該政策,并把它作為一項能源節約措施,就像建築物隔熱有效采光措施一樣。
一些研究考察了該政策帶來的安全影響。其中,弗吉尼亞公路與運輸局的咨詢部門對比了政策變化前後,州内 20 個交叉路口的交通事故發生情況。他們發現,在允許紅燈右轉之前,這些交叉路口發生了 308 次事故,而在允許紅燈右轉之後,相同時間内發生了 337 次事故。他們的報告指出,雖然事故發生率增加了,但這種差異在統計上是不顯著的。在看到這份報告後,公路與運輸局的官員寫道:“我們可以相信,紅燈右轉政策并未給汽車駕駛員或行人帶來顯著的危險隐患”12。顯然,官員們把統計上的不顯著直接當作現實中的不顯著。
後續研究有類似的發現:相撞事故次數略有增加,但并沒有足夠的資料表明這種增加是顯著的。正如一份報告所指出的:沒有理由懷疑在實施“紅燈右轉”後,行人被撞事件的次數增加了。
顯然,以上研究均是低功效的。但是越來越多的州和城市開始允許紅燈右轉,在整個美國這種做法也變得非常普遍。沒有人嘗試将各項研究的資料整理在一起,形成一個更有用的資料集。與此同時,越來越多的行人被撞傷,越來越多的汽車被撞毀。沒有人收集足夠的資料來說明這種情況,直至若幹年後,一些研究才發現,由于右轉,汽車撞毀頻率比以前提高 20%,行人被撞的頻率比以前高 60%,幾乎是騎自行車的人被撞頻率的 2倍13,14,[2]。
然而,交通安全部門并沒有吸取教訓。例如, 2002 年的一項研究考察鋪砌的路牙對鄉村公路交通事故發生率的影響。不出意外,路牙降低了事故風險,但沒有足夠的資料說明這種下降在統計上是顯著的,是以研究人員的結論是,鋪砌路牙子的花費是不值得的。他們混淆了不顯著的差異和完全沒有差異,盡管資料已經表明鋪砌的路牙可以改善交通安全12。一個更好的分析的結論似乎應該是這樣的,鋪砌路牙的好處在統計上是“不顯著”的,但是資料表明鋪砌路牙确實帶來了巨大好處。這就是置信區間的分析方法。