天天看點

統計學權威盤點過去50年最重要的統計學思想,因果推理、bootstrap等上榜

統計學權威盤點過去50年最重要的統計學思想,因果推理、bootstrap等上榜

作者 | 陳彩娴、Mr Bear

編輯 | 青暮

近日,圖靈獎得主、“貝葉斯網絡之父”Judea Pearl在Twitter上分享了一篇新論文“What are the most important statistical ideas of the past 50 years?”(過去50年中最重要的統計思想是什麼?)

這篇論文由哥倫比亞大學統計學教授Andrew Gelman和阿爾托大學計算機科學系副教授Aki Vehtari所著,他們根據自己的研究和文獻閱讀經驗總結出了過去半個世紀以來最重要的8個統計思想,并表示:“它們是獨立的概念,涵蓋了統計方面不同的發展。這些思想都在1970年前的理論統計文獻和各個應用領域的實踐中就已經出現。但是在過去的五十年中,它們各自已經發展到足以成為新事物的程度。”

他們認為,過去半個世紀中最重要的統計思想是:反事實因果推理,基于bootstrapping(自助抽樣法)和基于模拟的推理,超參數化模型和正則化,多層模型,泛型計算算法(generic computation algorithms),自适應決策分析,魯棒推理和探索性資料分析(未按時間順序,排序不分先後)。

在這篇論文中,他們将讨論這些思想的共同特征、它們與現代計算和大資料的關系以及在未來幾十年中如何發展。“本文的目的是引起有關統計和資料科學研究更大主題的思考和讨論。”

值得一提的是,Judea Pearl在推文中表示,“對作者将因果推理列入其中感到欣慰,這與Stigler在《統計學七支柱》中的總結截然不同,後者完全沒有提到因果推理。”另外,他也對大學統計專業很少安排因果推理課程感到擔憂,“統計學可以期待複興或改革嗎?不幸的是,統計系中提供因果推理課程的非常少,更不用提教'The First Law'的,簡直是無窮少。”

統計學權威盤點過去50年最重要的統計學思想,因果推理、bootstrap等上榜

論文:What are the most important statistical ideas of the past 50 years?

統計學權威盤點過去50年最重要的統計學思想,因果推理、bootstrap等上榜

論文位址:https://arxiv.org/pdf/2012.00174.pdf

作者簡介:

統計學權威盤點過去50年最重要的統計學思想,因果推理、bootstrap等上榜

Andrew Gelman,美國統計學家,哥倫比亞大學統計學和政治學教授。他1986年獲得麻省理工學院數學和實體學博士學位。随後,他獲得了博士學位。在哈佛大學統計學榮譽退休教授Donald Rubin的指導下,于1990年從哈佛大學獲得統計學博士學位。他是美國統計協會與數理統計學會的院士,曾三度獲得美國統計協會頒發的“傑出統計應用獎”,谷歌學術顯示,他的論文總引用量超過12萬,h-index為110。

統計學權威盤點過去50年最重要的統計學思想,因果推理、bootstrap等上榜

Aki Vehtari,阿爾托大學計算機科學系副教授,主要研究領域為貝葉斯機率理論和方法、貝葉斯工作流、機率程式設計、推理方法(例如Laplace,EP,VB,MC)、推理和模型診斷、模型評估和選擇、高斯過程以及分層模型。谷歌學術顯示,他的論文總引用量近4萬。他和Andrew Gelman都是《貝葉斯資料分析》的作者,這本書因在資料分析、研究解決難題方面的可讀性、實用性而廣受讀者好評,被認為是貝葉斯方法領域的優秀之作。

以下是全文編譯:

1

過去50年最重要的統計思想

1.1 反事實因果推理

在這裡,我們首先要介紹在統計學、計量經濟學、心理測量、流行病學和計算機科學領域出現的一些重要思想,它們都圍繞着因果推理面臨的挑戰展開,并且都在某種程度上彌平了「對觀測推理的因果解釋」和「認識到關聯關系并不意味着因果關系」這兩方面的差距。

核心的思想在于,在某些假設情況下,我們可以識别出因果關系,而且我們可以嚴謹地聲明這些假設,并且通過設計和分析以各種方式解決它們。

到目前為止,關于如何将因果模型應用于真實資料的具體問題上的争論仍在繼續。然而,在過去的五十年中,這一領域的工作進展使因果推理所需要的這些假設變得精确得多,進而反過來又促進了解決這些問題的統計方法的相關工作。

研究人員針對各個領域研發出了各種各樣的因果推理方法:在計量經濟學領域中,人們主要關注對線性模型的因果估計的可解釋性;在流行病學領域中,人們主要關注基于觀測資料的推理;心理學家已經意識到互動和各種處理效應的重要性;在統計學領域中,出現了一系列有關比對和其它調整并衡量實驗組和對照組之間差别的方法;在計算機科學領域中,湧現出有關多元因果歸隐模型的研究工作。

在上述所有工作中,有一條研究主線,即從反事實或可能得到的結果的層面上對因果問題進行模組化,這相較于之前沒有明确區分描述性推理和因果推理的标準方法是一個巨大的飛躍。

在這個研究方向上,具有裡程碑意義的工作包括 Neyman (1923),Welch (1937),Rubin (1974),Haavelmo (1973) 等人的研究成果,更加詳細的研究背景請參閱 Heckman 和 Pinto 于 2015 年發表的論文「Causal analysis after Haavelmo」。

反事實因果推理的思想和方法在統計學以及相關的應用研究和政策分析領域都有深遠影響。

1.2 bootstrap與基于模拟的推理

在過去的50年中,用計算取代數學分析是統計學的一大發展趨勢。這一變化甚至在「大資料」分析出現之前就開始了。

bootstrap是最純粹的基于計算定義的統計方法之一,它定義了一些估計量,并将其應用于一組随機重采樣資料集。其思想是将估計值視為資料的一個近似的充分統計量,并将自助分布視為對資料的采樣分布的近似。在概念層面上,人們推崇将預測和重新抽樣作為基本原則,可以推導出諸如偏差校正和收縮等統計學操作。

曆史上,這一方向誕生了「刀切法」和「交叉驗證」等方法。此外,由于bootstrap思想的通用性及其簡單的計算實作方式,bootstrap立刻被廣泛用于各種傳統的解析近似方法效果不佳應用,進而産生了巨大的影響。時至今日,充足的計算資源也起到了幫助作用,使得對許多重采樣得到的資料集進行反複的推理變得十分容易。

計算資源的增加也使得其它重采樣和基于模拟的方法流行了起來。在置換檢驗中,我們通過随機打亂排列真實值(target)來打破預測值和真實值之間的依賴關系,進而生成重采樣資料集。參數化的bootstrap、先驗和後驗預測檢查、基于模拟的校正都是根據模型建立了複制資料集,而不是直接從資料中重采樣。在分析複雜模型和算法時,根據已知的資料生成機制采樣的做法往往被用于建立模拟實驗,用于補充或替代數學理論。

1.3 過參數化模型和正則化

自 20 世紀 70 年代以來,統計學受個方面的影響,發生了一個重大的變化,即用一些正則化過程得到穩定的估計和良好的預測結果,進而拟合具有大量參數(有時參數比資料點更多)的模型。該思想旨在在避免過拟合問題的同時,獲得一種非參數化的或高度參數化的方法。我們可以通過針對參數或預測曲線的懲罰函數來實作正則化。

早期的高度參數化的模型包括「馬爾科夫随機場」、「樣條函數」、「高斯過程」,随後又出現了「分類和回歸決策樹」、「神經網絡」、「小波收縮」、「Lasso 和 Horseshoe 等最小二乘的替代方法」、「支援向量機及相關理論」。

上述所有模型都會随着樣本規模的增加而擴大,其參數往往也不能被直接解釋,它們是一個更大的預測系統的一部分。在貝葉斯方法中,我們可以首先在函數空間中考慮先驗,然後間接推導出相應的模型參數的先驗。

在人們能夠容易地獲得充足的計算資源之前,這些模型的使用還十分有限。此後,圖像識别、深度神經網絡領域中的過參數化模型持續發展。Hastie、Tibshirani 以及 Wainwright 于 2015 年将許多該領域的工作定義為對稀疏結構的估計。

但是在本文作者看來,正則化技術更為通用,這是因為它使稠密的模型能夠适應資料支援的程度。在統計學領域以外, 這方面也産出了許多成果,例如:非負矩陣分解、非線性降維、生成對抗網絡、自編碼器。它們都是可以尋找結構和分解結果的無監督學習方法。

随着統計方法得到了發展,并被應用于更大的資料集上,研究者們還研發了一些調優、自适應,以及組合來自多個拟合結果的推理(包括 stacking 內建、貝葉斯模型平均、boosting 內建、梯度提升、随機森林)的方法。

1.4 多層模型

多層模型的參數因組而異,它使模型可以适應于叢集抽樣、縱向研究、時間序列橫斷面資料、元分析以及其它結構化的環境。在回歸問題中,一個多層模型可以被看做特定參數化的協方差結構,或者是一個參數數量随資料比例增加的機率分布。

多層模型可以被看做一種貝葉斯模型,它們包含未知潛在特征或變化參數的機率分布。反過來,貝葉斯模型也有一種多層結構,包含給定參數的資料和超參數的參數的分布。

對局部和一般資訊進行池化(pooling)的思想是根據帶有噪聲的資料進行預測的固有數學原理。這一思想可以追溯到拉普拉斯和高斯,高爾頓也隐式地表達了這種思想。

部分池化的思想已經被應用于一些特定應用領域(例如:動物育種)。部分池化與統計估計問題中的多重性的一般關系由于 James 和 Stein 等人的工作而得到了理論上的重要進展。最終,這啟發了心理學、藥理學、抽樣調查等領域的研究。Lindley 和 Smith 于 1972 年發表的論文,以及 Lindley 和 Novick 于 1981 年發表的論文提供了一種基于估計多變量正态分布的超參數的數學結構,而 Efron 和 Morris 等人則給出了相應的決策理論方面的解釋,接着這些思想被融入了回歸模組化并被應用于廣泛的使用結構化資料的問題。

從另一個方向來看,Donoho 等人于 1995 年給出了多元參數收縮的資訊論解釋。我們更傾向于将多層模型看做将不同的資訊源進行組合的架構,而不是一個特定的統計模型或計算過程。是以,每當我們想要根據資料的子集進行推理(小面積估計)或将資料泛化到新問題(元分析)上的時候,就可以使用這種模型。類似地,貝葉斯推理的可貴之處在于,它不僅僅是一種将先驗資訊和資料組合起來的方法,也是一種解釋推理和決策的不确定性的方法。

1.5 泛型計算方法

前文中讨論過的模組化方面的研究進展高度依賴于現代計算科學,這不僅僅指的是更大的記憶體、更快的 CPU、高效的矩陣計算、對使用者友好的語言,以及其它計算科學方面的創新。用于高效計算的統計算法方面的進展也是一個關鍵的因素。

在過去的 50 年中,在統計問題的結構方面出現了許多具有創新性的統計算法。EM 算法、Gibbs 采樣、粒子濾波、變分推斷、期望傳播以不同的方式利用了統計模型的條件獨立結構。

而 Metropolis 算法、混合或 Hamiltonian 蒙特卡洛算法則并沒有直接受到統計問題的啟發,它們最初被提出用于計算實體學中的高維機率分布,但是它們已經适應了統計計算,這與在更早的時候被用于計算最小二乘以及最大似然估計的優化算法相同。

當似然的解析形式很難求解或計算開銷非常大時,被稱為近似貝葉斯計算的方法(通過生成式模型仿真、而不是對似然函數進行估計得到後驗推理)是十分有效的。

縱觀統計學的曆史,資料分析的發展、機率模組化和計算科學是共同發展的。新的模型會激發具有創新性的計算算法,而新的計算技術又為更加複雜的模型和新的推理思想開啟了大門(例如,高維正則化、多層模組化、自助抽樣法)。通用的自動推理算法使我們可以将模型的研發解耦開來,這樣一來變更模型并不需要對算法實作進行改變。

1.6 自适應決策分析

自 20 世紀 40 年代至 20 世紀 60 年代,決策理論往往被認為是統計學的基石,代表性的工作包括:效用最大化、錯誤率控制、以及經驗貝葉斯分析。

近年來,沿着上述工作的方向,研究人員在貝葉斯決策理論、錯誤發現率分析等領域也取得了一系列成果。決策理論還受到了有關人類決策中的啟發與偏見的心理學研究的影響。

決策也是統計學的應用領域之一。在統計決策分析領域的領域中,重要的研究成果包括:貝葉斯優化、強化學習,這與工業中的 A/B 測試的實驗設計的複興以及許多工程應用中的線上學習有關。

計算科學的最新進展使我們可以将高斯過程和神經網絡這些高度參數化的模型用作自适應決策分析中的函數的先驗,還可以在仿真環境中進行大規模的強化學習,例如:創造能夠控制機器人、生成文本、以及參與圍棋等遊戲。

1.7 魯棒的推理

魯棒性思想是現代統計學的核心,它指的是:即使在假設錯誤的前提條件下,我們也可以使用模型。實際上,開發出能夠在違背上述假設的真實場景下良好運作的模型對于統計理論來說是十分重要的。

Tukey 曾于 1960 年在論文「A survey of sampling from contaminated distributions」中對該領域的工作進行了綜述,Stigler 也于 2010 年在論文「The changing history of robustness」中進行了回顧。

受到 Huber 等人工作的影響,研究者們開發出了一系列在現實生活中(尤其是經濟學領域,人們對統計模型的缺陷有深刻的認識)具有一定影響力的魯棒方法。在經濟學理論中,存在「as if」分析和簡化模型的概念,是以計量經濟學家會對在一系列假設下還能運作良好的統計程式十分感興趣。例如,經濟學和其它社會科學領域的應用研究人員廣泛使用魯棒标準誤差以及部分識别。

一般來說,正如在 Bernardo 和 Smith 于 1994 年所提出的 「M-開放世界」(在這個世界中,資料生成過程不屬于拟合的機率模型)下評估統計過程的想法一樣,統計研究中的魯棒性的主要影響并不在于對特定方法的發展。Greenland 認為,研究者需要顯式地解釋傳統統計模型中沒有考慮的誤差來源。對魯棒性的關注與高度參數化的模型相關,這是現代統計學的特點,對模型評估有更普遍的影響。

1.8 探索性資料分析

上文讨論的統計思想都涉及密集的理論和計算的結合。從另一個完全不同的方向來看,研究人員們進行了一種具有影響力的「回歸到本質」的探索,他們跳出機率模型,重點關注資料的圖形可視化。

Tukey 和 Tufte 等人在他們的著作中曾對統計圖的優點進行了讨論,而許多這樣的思想通過他們在資料分析環境 S(目前在統計學及其應用領域占據主導地位的 R 語言的前身)中的實作開展了統計實踐。

在 Tukey 之後,探索性資料分析的擁趸重點說明了漸進理論的局限性以及開放式探索和通信的好處,并且闡明了超越統計理論的對統計科學的更一般的觀點。這與更加關注發現而非檢驗固定假設的統計模組化觀點不謀而合。

同時,它不僅在特定的圖形化方法的發展中十分具有影響力,也從科學的資料中學習,将統計學從定理證明轉向更開放、更健康的角度。舉例而言,在醫學統計學領域中,Bland 和 Altman 于 1986 年發表的一篇高被引論文推薦人們将圖形化方法用于資料對比,進而替換關聯性和回歸分析。

此外,研究人員試圖形式化定義探索性資料分析:Gelman 将資料展示與貝葉斯預測檢查的可視化相結合,Wilkinson 形式化定義了統計圖中固有的對比和資料結構,而 Wickham 通過這種方式得以實作了一個極具影響力的 R 語言程式包,進而在許多領域中改變了統計學實踐。

計算的進步使從業者們能夠快速建構大型的複雜模型,其中在了解資料、拟合的模型、預測結果之間的關系時,統計圖是十分有用的。「探索性模型分析」有時被用來擷取資料分析過程的實驗特性。研究人員們也一直進行着将可視化囊括在模型建構和資料分析過程中的研究工作。

2

相同點與不同點

2.1 思想能産生方法與工作流程

我們之是以認為上面列出的思想重要,是因為它們不僅解決了現有問題,還建立了新的統計思維方式和資料分析方式。換句話說,上述的每一種思想都是一部法典,其方法不僅局限于統計學,而更像是一種“研究品味”或“哲學思想”:

• 反事實機制将因果推理置于統計或預測的架構中,其中,因果估量(causal estimands)可以根據統計模型中未觀察到的資料精确定義和表達,并與調查抽樣和缺失資料推算的思想聯系起來。

• Boostrap 打開了隐式非參數模組化(implicit nonparametric modeling)的大門。

• 過參數化的模型和正則化基于從資料中估計模型參數的能力,将限制模型大小的現有做法形式化和泛化,這與交叉驗證和資訊标準有關。

• 多層模型将從資料估計先驗分布的“經驗貝葉斯”技術形式化,使這種方法在類别更廣泛的問題中使用時具備更高的計算與推理穩定性。

• 泛型計算算法使實踐者能夠快速拟合用于因果推理、多層次分析、強化學習和其他許多領域的進階模型,使核心思想在統計學和機器學習中産生更廣泛的影響。

• 自适應決策分析将最佳控制的工程問題與統計學習領域聯系在一起,遠遠超出了經典的實驗設計。

• 魯棒推理将對推理穩定性的直覺形式化,在表達這些問題時可以對不同程式進行正式評估和模組化,以處理對異常值和模型錯誤說明的潛在擔憂。此外,魯棒推理的思想也為非參數估計提供了資訊。

• 探索性資料分析使圖形技術和發現成為統計實踐的主流,因為這些工具正好可以用于更好地了解和診斷正在與資料進行拟合的機率模型的新型複雜類别。

2.2. 計算上的進步

元算法(利用現有模型和推理步驟的工作流)在統計學中被廣泛使用,比如最小二乘法,矩估計(the method of moments),最大似然,等等。

在過去 50 年裡所開發的許多機器學習元算法都有一個特征,就是它們會以某種方式拆分資料或模型。學習元算法(Learning Meta-Algorithms)與分治計算方法相關,最著名的是變分貝葉斯和期望傳播算法。

元算法和疊代計算在統計學中之是以重要,主要是有兩個原因:1)除了最初開發的元算法示例以外,通過多個來源整合資訊,或通過整合弱分類器(weak learner)來建立強分類器的通用想法可以得到廣泛應用;2)自适應算法在線上學習中發揮了很好的作用,最終被認為代表了現代統計觀點:資料和計算分開,資訊交換和計算架構是元模型或推理過程的一部分。

新方法使用新技術工具并不稀奇:随着計算速度越快、計算範圍越廣,統計學家不再局限于具備解析方案的簡單模型與簡單的封閉式算法(如最小二乘法)。我們可以簡要說一下上述思想是如何利用現代計算:

• 一些思想(boostrapping,超參數化模型和機器學習元分析)直接利用了計算速度,這在計算機出現之前難以想象。例如,直到引入高效的GPU卡和雲計算之後,神經網絡才更加流行起來。

• 除了計算能力以外,計算資源的分散也很重要:台式計算機能讓統計學家和計算機科學家嘗試新方法,然後由從業人員使用這些新方法。

• 探索性資料分析最初是從紙筆圖形開始,但随着計算機圖形學的發展,探索性資料分析已經曆徹底改變。

• 過去,貝葉斯推理僅限于可以通過分析解決的簡單模型。随着計算能力的提高,變分和馬爾可夫鍊模拟方法使得模型建構和推理算法開發的分離成為可能,機率程式設計也是以允許不同領域的專家能夠專注于模型建構并自動完成推理。這導緻了貝葉斯方法在1990年開始在許多應用領域變得普及。

• 自适應決策分析,貝葉斯優化和線上學習應用于計算和資料密集型問題,例如優化大型機器學習和神經網絡模型,實時圖像處理和自然語言處理。

• 魯棒的統計學不一定需要大量計算,但它的使用在一定程度上由計算驅動,與封閉式估計(如最小二乘法)有所差別。Andrews等人曾使用大量計算進行了一項模拟研究,促進了對魯棒方法的開發和了解。

• 減少多元推理的合理性不僅可以通過統計效率來證明,還可以從計算層面證明:激發了一種新的漸近理論。

• 反事實因果推理的關鍵思想與理論相關,而不是計算相關。但是,近年來,因果推理在使用計算密集的非參數方法後已有了發展,促進了統計學、經濟學和機器學習中因果和預測模型的統一。

2.3 大資料

除了為統計分析開拓發展空間以外,現代計算還啟發了新統計方法的應用和開發,進而産生了大資料,例子有:基因陣列,流圖像和文本資料,以及線上控制問題,如自動駕駛汽車。事實上,“資料科學”流行的原因之一就是因為,在此類問題中,資料處理和高效計算是與用于拟合資料的統計方法一樣重要的。

這與 Hal Stern 的觀點相關:統計分析最重要的方面不是對資料進行的操作,而是你所使用的資料是什麼。與先前的方法相比,本文讨論的所有思想都有一個共同特征,即有助于使用更多的資料:

• 反事實架構允許使用用于對受控實驗模組化的相同結構從觀測資料中進行因果推斷。

• Bootstrapping 可用于糾正偏差,與在分析計算無法進行的複雜調查、實驗設計和其他資料結構上進行方差估計。

• 正則化允許使用者在模型中加入更多預測變量,而不必擔心過度拟合。

• 多層模型使用部分彙集來合并來源不同的資訊,進而更廣泛應用元分析的原理。

• 泛型計算算法允許使用者拟合更大的模型,這對将可用資料連接配接到重要的基本問題來說可能是有必要的。

• 自适應決策分析利用在數值分析中開發的随機優化方法。

• 魯棒推理可以更正常地使用具有異常值、相關性和其他可能阻礙正常統計模組化的資料。

• 探索性資料分析為複雜資料集的可視化打開了大門,并推動了整潔資料分析(tidy data analysis)的發展,以及統計分析、計算和通信的內建。

在過去的50 年裡,統計程式設計環境也有了很大的發展,最著名的是S語言、R語言,還有以 BUGS 開頭命名的通用推理引擎及其後繼者。近日,數值分析、自動推理和統計計算的思想開始以可複制的研究環境(如Jupyter notebook)和機率程式設計環境(如Stan,Tensorflow和Pyro)的形式混合在一起。是以,我們至少可以預計推理和計算方法的部分統一,例如使用自動微分進行優化、采樣和靈敏度分析。

2.4 這些思想的關聯與互動

Stigler 在 2016 年提出,一些明顯不同的統計領域背後存在某些共同主題的相關性。這一互相聯系的思想也可以用于最近的發展。例如,魯棒統計學(側重于偏離特定模型假設)和探索性資料分析(傳統上被認為對模型根本不感興趣)之間有什麼聯系?

探索性方法(如殘差圖和 hanging rootograms )可以從特定的模型分類(分别是累計回歸和泊松分布)中獲得,但是,它們的價值在很大程度上是在于其可解釋性,即無需參考啟發它們的模型。

同樣,你可以單獨将一種方法(如最小二乘法)看作對資料的運算,然後研究表現好的資料生成過程的類别,再使用這種理論分析的結果來提出更魯棒的程式,能夠拓展無論是基于故障點(breakdown point),極小化極大風險或其他方式定義的适用範圍。相反,純粹的計算方法(例如蒙特卡洛積分估算)可以被有效解釋為統計推理問題的解決方案。

另一個聯系是,因果推理的潛在結果架構對人群中的每個單元都有不同的處理效應,是以自然而然就采用了一種元分析方法将效應多樣化,并使用在實驗或觀察性研究分析中使用多層次回歸進行模組化。

回過頭來看,研究 bootstrap 可以為我們提供一種新觀點:将經驗貝葉斯(多層次)推理看作非透視方法。在該方法中,正态分布或其他參數模型用于部分彙集,但最終估計值不局限于任何參數形式。對小波(wavelets)和其他豐富參數化模型進行正則化的研究與在魯棒背景下開發的穩定推理程式之間存在意想不到的聯系。

其他方法論的聯系更為明顯。正則化的過參數化模型使用機器學習元算法進行了優化,反過來又可以得出對 contamination 具有魯棒性的推論。這些連接配接可以用其他方式表示,魯棒回歸模型對應混合分布,混合分布可以視為多層次模型,還可以使用貝葉斯推理進行拟合。深度學習模型與一種多層次邏輯回歸相關,也與複現核心的 Hilbert 空間(在樣條中使用,支援向量機)相關。

高度參數化的機器學習方法可以建構為貝葉斯分層模型,其中将懲罰函數正則化與超先驗相一緻,無監督學習模型也可以被建構為具有未知組員的混合模型。在許多情況下,是否使用貝葉斯生成架構是取決于計算,這也是雙向進行:貝葉斯計算方法可以幫助掌握推理和預測中的不确定性,高效優化算法也可以用于近似基于模型的推理 。

許多被廣泛讨論的思想都涉及到豐富的參數化,并伴随一些用于正則化的統計或計算工具。是以,它們可以被認為是經篩選思想的更廣泛實作:随着可用資料的增加,模型會變得更大。

2.5 理論促進應用,反之亦然

可以說所有這些方法的共同特征是易記的名稱和良好的傳播。但是作者懷疑這些方法的名稱僅在回顧時會引起注意。諸如“反事實”、“引導程式”、“堆疊”和“增強”之類的術語聽起來很專業,而不是令人印象深刻,作者認為是方法的價值使這些名字變得響亮。

創新的想法經常會遇到阻力,這也是本文中讨論的這些有影響力的想法的命運。如果一個新思想起源于一個應用領域,那麼要說服理論家相信它的價值可能會遇到很大挑戰。相反,批評新方法在理論上是有用的,但在實踐中沒有用,倒是很容易。

我們應該澄清,所謂“反對”不一定意味着積極反對。與其他一些學術領域相比,統計資料不是很政治化:學術界、政府和行業内部對統計領域的發展很寬容,甚至邊緣思想也被允許發展。此處讨論的許多方法(例如引導程式,lasso和多層模型)在統計和各種應用領域中都立即流行起來,但即使是這些思想也面臨着阻力,即局外人需要确信其應用的必要性。

理論統計學是應用統計學的理論,這在一定程度上得益于諸如Cox的“Planning of Experiments”,Box and Tiao的“Bayesian Inference in Statistical Analysis”,Cox and Hinkley的“Theoretical Statistics”,Box,Hunter和Hunter的“Statistics for Experimenters”等有影響力的著作,幫助我們跨越了理論和應用之間的鴻溝。

不同于純數學,不存在純粹的統計。沒錯,一些統計思想是深刻而優美的,并且與數學一樣,這些思想也具有基本的聯系。例如,回歸和均值之間的聯系,最小二乘和部分池化之間的聯系,但它們仍與特定主題相關。就像摘下的蘋果一樣,脫離其營養來源後,理論統計研究趨于枯竭。數學也是如此,但是純數學中的思想似乎可以存在更長的時間,并且能以孤立的研究存在,而統計學思想則無法如此。

應用統計理論帶來的好處是顯而易見的。人們可以将理論視為計算的捷徑。我們總是需要這樣的捷徑:模組化的需求不可避免地随着計算能力的增長而增加,是以我們需要分析壓縮和逼近的價值。此外,理論可以幫助我們了解統計方法的工作原理,而數學邏輯可以啟發新的模型和資料分析方法。

2.6 和統計領域其他進展的關聯

特定的統計模型與這些重要思想是什麼聯系?在這裡,作者考慮的是有影響力的工作,例如風險回歸、廣義線性模型、空間自回歸、結構方程模型、潛在分類、高斯過程和深度學習。如上所述,在過去的半個世紀中,統計推斷和計算領域出現了許多重要的發展,這些發展都受到了上面讨論的新模型和推斷思想的啟發和推動。模型、方法、應用程式和計算都結合在一起。

讨論不同概念發展之間的聯系,并不意味着關于适當使用和解釋統計方法的争論仍然存在。例如,錯誤發現率(false discovery rate)與多層模型之間存在雙重性,但是基于這些不同原理的過程可以給出不同的結果。通常使用貝葉斯方法來拟合多層模型,并且在後驗分布中,沒有任何東西會一直收斂到零。

相反,錯誤發現率方法通常使用p值門檻值,目的是識别少量統計上顯著的非零結果。再例如,在因果推理中,人們越來越關注密集參數化的機器學習預測,然後進行後分層(poststratification)以獲得特定的因果估計,但是在更開放的環境中,需要發現非零因果關系。同樣,根據目标是密集預測還是稀疏預測,使用了不同的方法。

最後,我們可以将統計方法的研究與科學和工程學中統計應用的趨勢聯系起來。在這裡,作者提到了生物學、心理學、經濟學和其他科學領域的複現危機或可複現性革命,這些領域的變異範圍足夠大,需要根據統計證據得出結論。

在可複現性革命中,具有裡程碑意義的論文包括:

Meehl發表的“Theoretical risks and tabular asterisks: Sir Karl, Sir Ronald, and the slow progress of soft psychology”,概述了在原假設重要性檢驗的标準用法中提出科學主張的哲學缺陷。

Ioannidis發表的“Why most published research findings are false”,其認為,醫學上大多數已發表的研究都在使得結論不受其統計資料的支援。

Simmons,Nelson和Simonsohn發表的“False-positive psychology: Undisclosed flexibility in data collection and analysis allow presenting anything as significant ”,解釋了“研究人員的自由度”如何使研究人員即使從純噪聲資料中也能正常獲得統計意義。

一些補救措施是程式性的,例如Amrhein,Greenland和McShane發表的“Scientists rise up against statistical significance”。

但也有人建議可以使用多層模型解決不可複現研究的某些問題,将估計值部分歸零以更好地反映研究中的效應總量,例如van Zwet,Schwab和Senn發表的“The statistical properties of RCTs and a proposal for shrinkage”。

可再現性和穩定性問題也直接涉及到引導程式和可靠的統計資料,參見Yu. B.發表的“Stability.”。

3

未來幾十年的重要統計思想會是什麼?

3.1 回顧

在考慮自1970年以來最重要的發展時,回顧一下1920-1970年的重要統計思想(包括品質控制、潛在變量模組化、抽樣理論、實驗設計、經典和貝葉斯決策分析、置信區間和假設檢驗、最大似然、方差分析和客觀貝葉斯推理)也很有意義。當然還有1870年至1920年(機率分布分類、均值回歸、資料現象學模組化),以及Stigler在《The History of Statistics》中提到的更早年代的統計思想。

在本文中,作者試圖提供一個廣泛的視角,以反映不同的觀點。但是其他人可能對過去五十年來最重要的統計思想有自己的看法。确實,問這個問題主要是引起人們對統計學觀念的重要性的讨論。在本文中,作者避免了使用引文計數或其他數值方法對論文進行排名,但是他們隐含地以類似page-rank的方式來衡量影響力,因為他們試圖将注意力集中在那些影響了統計實踐的方法發展的思想上。

3.2 展望

接下來會發生什麼?作者同意卡爾·波普爾(Karl Popper)的觀點,即人們無法預見所有未來的科學發展,但是我們可能對目前的趨勢将如何持續有比較可靠的見解。

繼續閱讀