實驗室實驗:政治科學研究的一種有效方法?
提要:
目前,因果推斷已成為政治科學研究的重要發展方向。在開展因果推斷的各類方法中,實驗室實驗又以其設計嚴格遵循因果邏輯而被譽為因果推斷的
“理想模式”。本文系統闡釋了實驗室實驗的設計規範和實施邏輯,展現了這一方法在政治經濟學、政治心理學、政治行為學等領域的應用模式和亮點,并讨論了實驗室實驗方法的研究效度“内高外低”這一常見認識的片面性。本文指出,基于科學研究方法的效度理論,實驗室實驗設計可以實作内部效度和外部效度“雙高”,并進一步讨論了達到這一目标所需遵循的設計要求和技術條件。本文還結合中國政治學研究的實際指出該方法在推進中國學術界在政治行為、政治認知等方面的研究潛力,并闡明了它與前沿資料科學和大資料技術相結合的發展路徑。
作者簡介:
胡悅,清華大學社會科學學院
文獻來源:
《國外理論動态》2021年第6期
*Political理論志周末版正式改版,周六僅推送一篇在社會學、政治學、國際政治和政經學科具有一定代表性意義的最新研究成果
本文作者 胡悅
一、引言
政治科學發展至今,始終伴随着對研究設計的科學性的探索和對研究方法的革新。進入21世紀以來,政治科學研究明顯呈現出由相關性研究轉向因果性研究的趨勢。政治學者們愈發不滿足于僅對各種要素間的關系強弱進行确認,而逐漸投身于對變量間的因果效應以及機制的探讨之中。諸如時間序列分析、斷點回歸、雙重差分法等研究方法也得到快速傳播和廣泛應用。其中,實驗法這一源于自然科學的因果推斷方法,因其設計邏輯明确、科學性強,尤為引人注目。迄今為止,已有多本專著介紹和讨論實驗方法在政治學領域的應用。在2016—2020年間,政治學三大國際頂刊《美國政治科學評論》(American Political Science Review)、《美國政治科學雜志》(The American Journal of Political Science)以及《政治學雜志》(Journal of Politics) 上發表的研究和應用實驗 方法的文章也已多達 268 篇。
與此同時,中國國内研究者對實驗方法也表現出了極大熱情,國内期刊發表了許多引介和應用這一方法的文章。但有趣的是,現有文章多集中于調查實驗(survey experiment)和田野實驗(field experiment)這兩種從實驗方法派生出來的模式;而對實驗方法的根本模式——實驗室實驗(laboratory experiment)——的讨論和應用卻并不多見。人們對實驗室實驗仍存在一些常見的認識謬誤。特别是,很多教科書和研究設計者認為,實驗室實驗"雖然内部效度高,但外部效度低”,因而無法真實反映政治現實并得出對政治實踐有借鑒意義的結論。殊不知,實驗室實驗的外部效度并不一定低于其他方法,同樣,也并不是所有實驗都能保證内部效度高。
針對這些常見的謬誤,本文系統讨論了實驗室研究設計的基本邏輯和原則,以期展示其在政治實證研究領域的應用潛力。文章着重讨論了兩個基本問題:第一,實驗室政治研究是如何對政治現象或因素展開因果推斷的?第二,研究者應如何正确了解實驗室實驗的效度優勢并在設計中加以應用?本文提出,根據研究效度理論,那種認為實驗室實驗的效度“内高外低”的看法并不全面。雖然這種方法确有其局限性,但隻要精心設計、妥善實施,仍能為因果推斷研究提供強有力的支援,是值得在政治科學乃至整個社會科學領域進行推廣的一種重要方法,在有關中國政治的實證研究中更是具有廣泛的應用空間。同時,本文也提出,方法論學者也應在清楚認識實驗室實驗的優勢和局限的基礎上,不斷與資料科學、大資料技術等前沿理論和方法相結合,以擴大實驗室實驗的應用領域,推動其為實際政治問題研究做出貢獻。
二、實驗邏輯與政治學實驗室實驗
實驗是建立在遵循“反事實”(counterfactual)邏輯之上的因果推斷方法。實驗室實驗則是依照該邏輯在特定範圍(實驗室)内構架反事實對照的一種研究設計模式。是以,了解實驗邏輯是了解和應用實驗方法以及實驗室實驗模式的重要前提和基礎。
(一) 實驗邏輯
實驗邏輯是在自然科學研究中常見的研究設計邏輯。耶日·内曼(Jerzy Splawa Neyman)和唐納德·魯賓(Donald Rubin)将其進行數學規範化,提出了因果推斷的重要理論——内曼—魯賓因果理論(Neyman-Rubin Causality Theory),也被稱為魯賓因果模型(Rubin Causality Model,RCM)。這一模型被引入社會科學後,它很快就成為該領域進行因果關系研究的基礎性理論。魯賓因果模型将作用因素或幹預因素(treatment variable)對個體 i 的因果效應定義為該因素存在時發生的結果Y1i與它不存在時可能發生但實際并未發生的結果(即反事實結果)Y0i之間的差異δi,即
δi=Y1i-Y0i
然而,這一定義在實證層面不是自足的,需要依靠特殊的假定才能成立。這是因為在實際觀察中,幹預因素要麼存在,要麼不存在,是以研究者不可能同時觀察到 Y0i 和 Y1i 。在這種情況下,幹預因素對單一個體的因果效應δi是無法被直接觀測到的。是以,研究者隻能謀求在群體層次上對因果效應進行估測。而若想這種估測在統計學上可行,就需要引入一個 關于個體的強假定———魯賓稱之為“個體處理穩定性假定”(Stable Unit Treatment Value Assumption,SUTVA)。“個體處理穩定性假定”規定,幹預因素對群體内個體的作用具有針對性和同質性。此假定之是以是一個強假定,在于它對觀測因果效應的對象和環境都有嚴格的限制。首先,它要求幹預因素具有針對性,即幹預因素隻會改變單一個體,而與其他個體是否受到作用無關。其次,對單一個體的這種作用對于每個個體的影響又必須是同質的,差别僅是個體受影響的大小而已。唯有這樣,我們才能合理運用統計學,通過對多個受幹預個體的觀察來估測效果,并将其與未受幹預群體進行比較。再次,“個體處理穩定性假定”要求,幹預因素發生作用的方式必須是嚴格一緻的。譬如,在估測資訊對選民決策的影響時,如果選民獲得資訊的方式存在差異性(比如,有的是道聽途說聽來的,有的是從報紙上獲悉的),那麼其結果則可能不是由同一種因果效應導緻的,因而也就不能将它們放在一起來估測因果效應。從次,幹預因素的存在與否也必須是可被觀察到的。隻有同時獲得幹預因素存在和不存在時的資料,才能對觀察結果進行比較,進而推斷該因素的因果效應存在與否以及其大小和方向。最後,幹預因素的作用必須出現在實驗對象 (subjects,也稱實驗被試)作出決策和形成行為結果之前,而不能同時或在其之後發生。譬如,在測量資訊對選民的投票意願産生的效應時,如果選民在不斷接受資訊的過程中就已經決定了是否投票,而非等到獲得所有資訊後才作出決定,那麼研究者則無法根據魯賓因果模型來推斷資訊對選民的意願産生的因果效應。這些嚴格的限制意在確定因果效應的可觀察性,但這樣一來,傳統的社會科學研究方式便很難完美地實作這種因果推斷了。因為,即使在所謂的“自然實驗”(即以特定時間點為界限,比較該時間點之前與之後的差别,多用于政策研究)場景中,也很難保證幹預因素對單一個體的作用不會影響到同一目标人群中的其他成員。而在實驗邏輯基礎上發展形成的實驗論證(experimental reasoning)方法則能很好地兼顧這些限制性條件。其中,又以實驗室實驗能最大限度地滿足“個體處理穩定性假定”的各項要求,并兼顧了因果推斷的準确性和可操作性。
(二) 實驗室實驗
實驗室實驗是實驗邏輯在實證研究中最流行的三種應用形式之一,另外兩種是田野實驗和調查實驗。相比田野實驗和調查實驗将被試放置于其生活的自然環境中,實驗室實驗對實驗場地和時間有着更嚴格的控制,通常是在獨立的實驗室中進行。而且,整個實驗過程都必須在研究者的全程監控和指導下完成。從這一點看,實驗室實驗更接近自然科學的實驗模式。當然,在實際操作中,這三種實驗方法之間也并非界限分明。特别是在社會科學研究中,實驗室實驗往往并不需要專門的實驗室;教室、活動室或其他獨立空間都可以成為實驗場所。而對被試的個人資訊及實驗效果的收集也經常采用問卷調查的方式。是以,實驗室實驗與其他兩種實驗方式的差別從表面上看是實驗的空間和時間上的選擇差異,但它在本質上其實展現了研究者對于時間和空間所包含的資訊的了解與态度。在田野實驗和調查實驗中,研究者刻意将被試放置于熟悉的環境中,期望他們的反應更接近于其在現實生活中的反應。而實驗室實驗則強調控制環境及其他非實驗要素,以求最大限度地排除幹擾因素,進而實作對幹預因素的因果效應的準确測量。
實驗室實驗在設計上可能千差萬别,在被試的選擇以及幹預過程的設定上也沒有固定程式,但無論如何,它仍有一些必須遵守的基本設計原則。這些設計原則主要包括:首先,實驗的目标人群以及核心幹預因素必須明确,然後據此決定被試的來源及具體的幹預模式。其次,研究設計必須充分考慮對可見的幹擾變量的控制,并通過随機配置設定控制組和實驗組等方法對不可見和難以控制的幹擾變量進行進一步的剔除。這裡需要強調的是,随機配置設定在實驗室實驗中扮演着非常重要的角色,但它并不是排除幹擾變量的萬靈藥。這一點将在後面讨論實驗室實驗的效度時詳加闡述。最後,研究者需要對控制組和實驗組在接受幹預因素影響之前與之後的态度和行為表現根據統計原則進行跨組比較(以及獲得 Yi1-Yi0 的群體期望值),據此判斷幹預因素與行為态度變化之間是否存在因果關系。
(三) 實驗室中的政治科學研究
實驗在政治科學研究中并不是新方法。它的應用最早可以追溯到1926年哈羅德·戈斯内爾(Harold Gosnell)對芝加哥市長選舉的研究。但該方法,尤其是實驗室實驗一直到1950年代才受到學界普遍重視。彼時行為主 義革命風起雲湧,實驗政治學的發展也迎來了第一個分水嶺。一方面,相關實驗研究成果開始出現在《美國政治科學評論》、《沖突解決雜志》 (Journal of Conflict Resolution)等主流政治學刊物上。實驗室實驗也開始被政治學者用于對公共産品配置設定和國家間博弈等議題的研究。但另一方面,仍有相當一部分學者堅持認為,實驗室實驗“過于依賴人工設計,而且被試人群不足以代表任何目标人群”,故而不應在政治科學研究中使用。一直到1970年代,對實驗室實驗和實驗政治學的排斥才随着政治心理學的興起而有所緩和。1970年,著名的《政治學實驗研究》 (Experimental Study of Politics)創刊。在随後的幾十年中,基于實驗室實驗方法的政治科學研究進入穩步發展階段,并在選舉行為、公共輿論、政治傳播等諸多研究領域得到廣泛應用。目前的實驗政治學已經形成三種獨特的模式:政治心理學模式、政治經濟學模式以及統計學模式。其中,實驗室實驗在政治心理學模式和政治經濟學模式的研究中應用較多。統計學模式研究對被試樣本的規模和成分都有要求,是以常常采取調查實驗或田野實驗的形式。政治心理學實驗多用于考察特定因素對個體态度或決策産生的因果效應,其通常模式是将實驗對象集中到一個封閉和獨立的實驗場所,在随機配置設定控制組和實驗組後,通過精心篩選和制作的幹預資訊(如政治新聞或候選人背景材料等)将被試帶入一個想象性情境 (hypothetical situation)中,并要求其在這一情境中作出特定判斷或決策(比如,是否支援某項政策或某個候選人)。研究者再通過對比控制組和實驗組的決策結果來考察幹預資訊是否對被試造成影響。斯蒂芬·安索雷布哈爾(Stephen Ansolabehere)和尚托·延加(Shanto Iyengar)對于負面政治新聞的研究即是這種應用的一個典型案例。研究者在1990年美國加利福尼亞州州長選舉期間給實驗組和控制組同時播放了一條關于候選人是否同意在該州進行近海石油開采的新聞(近海石油開采會給當地帶來環境隐患)。研究者嚴格控制實驗室環境,以保證被試之間不會互相幹擾,且實驗組和控制組接受幹預資訊時的視聽背景都是相同的。唯一的不同之處在于,給控制組提供的新聞中包含着“同意”、“保護”等正面詞彙,在給實驗組提供的新聞中,這些正面詞彙被替換成“反對”、“摧毀”等負面詞彙。在兩組人同時接受資訊後,被試被要求報告其是否參與此次州長選舉投票。通過對兩組人的比較,研究者發現實驗組更加不願參與投票,因而佐證了負面新聞在政治傳播中的反動員效應(demobilizing effect)。
政治心理學實驗通常考察單一因素對被試的心理影響,其設計通常不涉及場景變化或被試的多次選擇。相比之下,政治經濟學實驗則對個體間的互動以及多次選擇政策更感興趣。另外,政治經濟學實驗也較少使用模拟現實的想象性情境或人為資訊,而是根據形式模型及其數理推論進行實驗設計。比如,安娜·鮑希(Anna Bassi)等人在研究選民身份與投票傾向時,首先對選民身份比例對投票的影響進行了形式模型推演,然後依此将60名被試分成12個組進行投票遊戲,對形式模型得出的每一種可能結果進行檢驗。實驗中,被試被給予一種選民身份,該身份對應一個代表此身份的候選人。被試被告知其參與實驗獲得的獎勵将與選舉結果密切相關。在整個實驗中,每組被試成員的身份、互動形式以及最終獎勵完全根據之前形式模型中涉及的條件進行部署,甚至區分了被試對同伴的身份資訊的知悉程度。此外,被試完全了解,他們進行的所謂投票并不需要借助任何現實的投票經驗,也不會對政治現實有任何影響。
目前實驗政治學的主戰場是政治行為研究領域——尤其是對選舉行為的研究。除了上面提到的例子,戴安娜·穆茨(Diana Mutz)通過政治心理學實驗探讨了政治資訊的全面性對選民傾向産生的因果效應;蘇加托·達斯古普塔(Sugato Dasgupta)和肯尼思·威廉姆斯(Kenneth Williams)通過政治經濟學實驗研究了民意測驗對選民選擇候選人偏好的影響;傑弗裡·蒙戴克(Jeffery Mondak)及其同僚在1996—2006年間通過一系列政治心理學實驗系統考察了候選人資質對選民投票行為的影響。這些都是實驗室實驗在政治學領域得到應用的典型範例。随着認可度的提高及其方法的進步,實驗室實驗也被逐漸應用于政治行為研究之外的領域。政治經濟學實驗模式的應用在國際關系學領域已經得到認可,該領域的研究者通過個體群組别互動來研究國家間的博弈關系。譬如,莫頓·多伊奇(Morton Deutsch)通過互動實驗對三種軍備競賽政策的考察,以及弗朗西斯·貝爾 (Francis Beer) 及其同僚對和平條約及戰争博弈的研究等。政治心理學實驗也在國際關系研究中得以應用,例如尼西米·傑瓦(Nehemia Geva)、亞曆克斯·明茨(Alex Mints)及其同僚運用實驗對民主和平論、外交決策的研究等。在比較政治學領域,既有唐娜·巴裡(Donna Bahry)、阿爾方·範德克拉格特(Alphone van de Kragt) 等學者結合博弈論和政治經濟學實驗來研究公共産品的配置設定過程及其影響因素,也有埃弗倫·佩雷斯(Efrén Pérez)等學者通過政治心理學實驗對語言政治、性别議題等進行探讨。
三、效率最大化?實驗設計的規範與謬誤
實驗室實驗在政治學領域得到越來越多的應用,并成為推進該領域因果關系研究的重要手段。然而,對這一方法的質疑也從未停止過。例如,一些研究者将實驗方法視為因果推斷的“理想模型”,但也有諸多批評者認為,于規定時間在封閉實驗室内對一個友善樣本進行的實驗研究并不能為人類社會中持續的、複雜的政治決策和行為提供可靠證據。簡言之,實驗室實驗在政治科學研究方面的效度是值得懷疑的。
(一) 什麼是研究效度
包括政治學家在内的社會科學工作者長期以來以效度(validity)來衡量特定分析方法是否能夠為驗證理論推斷提供可信證據。多數學者認可唐納德·坎貝爾(Donald Campbel)對效度的如下定義:一種實證研究設計或方法的效度是指基于該設計或方法作出的知識推斷與真實情況具有的近似性 (approximate truth)程度,即我們能在多大程度上相信實證推斷能夠反映人類社會的真實規律。效度又可區分為“内部效度”(internal validity) 和“外部效度”(external validity)。其中,内部效度是指基于實證研究的知識推斷與目标人群的真實态度或行為規律的近似程度,而外部效度則指實證推斷在多大程度上能适用于目标人群以外的其他人群。
在給出基本定義的基礎上,坎貝爾又将内部效度細化為三個部分:建構效度(constructive validity)、因果效度(causal validity)和統計效度(statistical validity)。建構效度涉及實證推斷的概括性,旨在評價一種研究設計是否能合理且有針對性地評鑒目标理論。因果效度類似于經濟學中的“識别問題”(identification problem),用以考察實證設計是否能有效排除幹擾因素,為确定因果效應或機制提供準确證據。統計效度指的是,研究的核心因果因素之間在實證層面是否具有顯著且穩定的統計關系。對統計效度的最常見的檢驗方式是對同一目标人群樣本進行重複檢驗。有必要指出的是,效度是一個整體概念,上述分類隻是為了友善研究者從不同側面展開考察。是以,各種效度之間不是孤立存在的。比如,研究設計的建構效度高,與理論相切合,在統計層面上因果變量的關系才能穩定,統計效度才能高。而統計效度又與研究設計是否有效地控制了幹擾變量、達到了高因果效度緊密相關。另外,内部效度是外部效度的前提,如果沒有對目标群體作出合理估測,那麼将相關估測拓延到目标群體以外的群體就沒有意義。
(二) 實驗室實驗的效度評價
對實驗室實驗的效度最常見的評價是,它具有“很高的内部效度,但外部效度很低”。這種論斷将實驗室實驗内部效度高歸功于實驗設計對幹擾變量的控制 (如随機配置設定控制組和實驗組等) ,而将外部效度低歸咎于被試樣本的非代表性以及實驗室環境與現實環境的明顯差異。但如果根據效度的定義及其分類仔細加以考量的話,就會發現上述論斷是不全面的,甚至具有誤導性。
首先,并不是所有的實驗室實驗都能實作高的内部效度。2015年前後爆發的可重複性危機就集中展現了實驗室實驗内部效度的“失守”。在社會科學領域,實驗方法在心理學和經濟學中的應用最為廣泛,其實驗設計也相對規範。但2015年至2016年的一系列重複實驗揭露,大量發表在權威學術期刊上的心理學和經濟學實驗是不可複制的。一項針對心理學三大頂級期刊上100篇原創文章所涉及實驗的研究發現,60%以上的重複實驗的結果與原作不符。另一項針對67篇來自13家頂級經濟學期刊的文章的研究也揭露出一半以上的實驗經濟學研究沒有經受住重複實驗的考驗。這些不可複制的實驗基本都采用了随機配置設定方式和其他正常的實驗設計。但其結果無法在目标人群中重制———換言之,它們并不具備内部效度( 尤其是統計效度) 。同樣的現象在政治科學研究中也存在。譬如,今井耕介 (Kosuke Imai) 就複制了艾倫·戈伯 (Alan Gerber) 和唐納德·格林 (Donald Green)關于不同模式的政治動員對鼓動選民投票的影響的著名實驗,但得出了不同的結果。
同時,在實驗室實驗中,随機配置設定方式也并不是排除所有幹擾變量的萬靈藥。根據卡利·摩根 (Kari Morgan) 和唐納德·魯賓的測算,在一個實驗室實驗中,如果假定除幹預因素外,研究現象僅與10個幹擾因素相關 (這麼低的數量在錯綜複雜的社會政治現象中幾乎是不可能的),那麼單純依靠随機配置設定的方法,控制組與實驗組在幹擾因素方面仍存在顯著差異 (即沒有排除幹擾變量的影響) 的可能性超過40%。換言之,這一采取随機配置設定方法的實驗有四成以上的可能性會出現明顯的不平衡(imbalance)問題,進而直接影響實驗結果的可靠性。
是以,方法論學者建議,研究者除了確定采用正常實驗流程(如随機配置設定),還應綜合使用各種設計手段來保障實驗設計的内部效度。而目前實驗方法的發展和實踐也極大豐富了實作這一目标的工具箱。譬如,設計者可以通過計算機成像技術、腦部核磁共振、腦電圖等高科技手段提高因果效應觀測的精準度,進一步降低可見的幹擾因素的影響,進而提高實驗設計的因果效度和統計效度。對不可見因素,研究者則可采用行為心理學方法,使用或階段性使用物質和金錢獎勵、選擇特定實驗時間和環境以及眼動儀及其他阈下直覺測量手段等來控制和排除這些因素。至于建構效度,麗貝卡·莫頓(Rebecca Morton)指出,基于形式模型設計實驗,将理論和邏輯上的假定性因素 (包括上文提及的“個體處理穩定性假定”)納入到實驗過程中,可以避免理論與實證之間的脫節。這種實驗模式不僅提高了實驗的建構效度,也超越了傳統随機對照試驗的因果推斷的局限,進而推動了研究重心由因果效應向因果機制轉變。
實驗室實驗如果沒有缜密的設計和技術保障,其内部效度不一定高。同樣,它的外部效度也不是天然就是低的。實驗室實驗最常受诟病的、導緻其“外部效度低”的問題有兩個。一個是對被試來源的擔憂。很多實驗室實驗的實施對象都是學生。批評者認為,學生隻是整個社會群體中的一小部分,他們本質上隻是一種友善樣本。基于這樣的樣本得出的推斷不能推廣到全體國民。然而,如果該問題的本質僅是學生樣本的代表性不足的話,那麼這仍然是對目标群體的推斷效度的考量——這不是外部效度問題,而是内部效度問題。同時,方法論學者已經對樣本的局限性能導緻多大的結果偏差進行了各種對比研究。他們發現,至少在某些議題上,學生樣本的局限性造成的影響并不像通常認為的那麼嚴重。譬如,馬基恩·埃加斯 (Martijn Egas)和亞諾·裡德爾(Arno Riedl)對比了學生樣本與網民樣本在一場涉及公共産品的博弈中的表現,發現二者的表現極為相似。辛迪·卡姆(Cindy Kam)等分别從學校和本地社群的代表性樣本中選取實驗被試,發現除了年齡和性别,兩組被試在其他方面都沒有顯著差異。當然,這不是說實驗設計者就可以無視選擇友善樣本時所存在的局限,但研究者應将這一局限性與學生樣本給研究帶來的可能性和效益結合起來加以考慮,尋找兩者之間的平衡點。值得一提的是,技術的進步業已允許研究者在更廣泛的人群中展開實驗,譬如,李·西格爾曼(Lee Sigelman) 等人針對民選官員的上司力展開的實驗、詹姆斯·哈比亞利馬納(James Habyarimana)等人在烏幹達的坎帕拉進行的族群視角下的公共産品配置設定實驗以及查爾斯·貝勒馬爾(Charles Bellemare)等人在荷蘭進行的最後通牒博弈實驗等都是在從具有代表性的樣本 中選取的被試中進行的。
另一種對實驗室實驗的外部效度的質疑來自對所謂實驗效應(experimental effects)或者說實驗者效應(experimenter effects) 的擔憂。批評者認為,實驗室是完全人工建構的非現實環境。在多數情況下,被試清楚知道自己是實驗對象以及何時開始和結束實驗。這一點會影響其在實驗中的選擇和決策,進而做出與現實中不同的表現。然而,由于這種現象不一定涉及目标人群以外的人群,是以它實際上也不是一個嚴格意義上的外部效度問題,而應是一個生态效度(ecological validity) 問題。生态效度與内部效度和外部效度存在本質性的不同。它并不關注實證推斷與真實規律的聯系,而是考察研究環境與實際環境的相似程度,是以也被稱為“現世實在主義”(mundane realism)、“情景近似性”(contextual congruence) 或“實驗的田野性” (fieldness of an experiment) 。
實驗的生态效度高,并不一定代表着以其為基礎的論斷就能夠拓展到目标人群以外的群體,但由于對現實的模拟程度時常與實驗的準确性和普适性密切相關,是以生态效度得到了實驗設計者和方法論學者的普遍關注。這實際上直接催生了調查實驗和田野實驗這兩種在被試的自然生活環境中進行實驗的方法。而就實驗室實驗而言,生态效度低也不是無法打破的夢魇。大量的社會科學研究已經探索出至少五種行之有效的方法來提高實驗室實驗的生态效度。第一,掩蓋實驗目的。研究者可以不向被試透露實驗的目的和具體流程,以此方法來避免被試根據幹預因素或實驗起止時間改變自己的選擇政策和行為方式。第二,使用現執行個體子作為幹擾變量。實驗設計者可以運用生活中的實際資訊或事件作為實驗的刺激元素,這樣有助于在測試過程中更好地反映被試在現實生活中的經驗。很多政治心理學實驗都已采用這種方法。第三,模拟現實環境。雖然實驗室實驗對實驗環境有着嚴格限制,但仍允許研究者将現實中常見但與實驗無關的資訊和條件加入實驗流程,便于被試更好地帶入情景和調動自己的真實感受。譬如,在關于政治新聞的研究中,研究者除了播放政治新聞,還可以夾雜進經濟新聞、本地時事等其他新聞類型,使被試更加貼近平時接受新聞資訊時的媒體氛圍。第四,物質刺激。研究者通過物質刺激來調動被試更加積極地參與到實驗過程中去,并有更強的意願來遵守實驗設計者給出的指令。當然,這種方法也應根據實驗目的酌情實施。心理學家已經發現,物質刺激對于被試完成有困難的任務往往更有效;對于完成簡單的判斷和任務而言,物質刺激反而沒有必要,有時甚至會産生反作用。第五,非自然環境或許正是某些研究所需要的。譬如,在前文提到的鮑希等人關于選民身份與投票意願的研究中,被試的選民身份既沒有參照現實情況,也沒有進行随機配置設定,而是根據形式模型的條件進行了人為劃分,進而全面考察了具有不同特征的群體内選民的行為規律。是以,正如諾貝爾經濟學獎獲得者弗農·史密 (Vernon Smith)指出的,實驗中所有加入和省略的變量都可以是幹預因素的一部分。研究者在實驗設計過程中應充分考慮和利用它們對實驗結果的綜合作用。
綜上所述,無論是拓展被試樣本,還是提升生态效度,都有助于增加實驗設計的内部效度和外部效度。而單就外部效度而言,其關注的是研究推斷能否超越目标人群,是以對它的考察和提升永遠是經驗性的而非結論性的。隻要研究的目标人群和樣本不是人類全體,外部效度問題就将永遠存在。這一問題也不隻是實驗室實驗研究方法面臨的難題,而是對所有類型的實證社會科學研究都會碰到的挑戰。容易被忽略的一點是,由于實驗室實驗所要求的樣本量小、研究時間短而且結果明确,它往往比其他研究方式更容易提升外部效度。譬如,前文提到的安索雷布哈爾和延加在加利福尼亞進行的政治傳播實驗。研究者後來将該實驗結果與美國總統選舉、各州參衆議員和州長選舉等多種選舉的觀察結果進行比對印證,将基于一州的目标人群的實驗判斷擴充為對全國的選舉情況的認識。貝内迪克特·赫爾曼 (Benedikt Herrmann) 更是将同一組實驗推廣到16個不同國家,超越了經濟、政治、文化界限,獲得了更廣泛人群中公共産品配置設定規律的實證證據。此外,阿爾文·汪(Alvin Wang) 和弗洛裡安·延奇(Florian Jentsch) 以及約翰·澤連斯基 (John Zelenski) 等分别對被試反應進行了跨時間的比較。伊格納西奧·埃斯彭達 (Ignacio Esponda) 和伊曼紐爾·韋斯帕 (Emanuel Vespa) 甚至跨越了研究單元,發現在同一選舉實驗中個體層面和群體層面的決策機制存在差異。這些研究都在不同範圍和次元提升了實驗室實驗的外部效度。這就是說,實驗室實驗外部效度低的問題可以通過多種方法得到解決。
四、效度視角下的政治科學實驗研究
本文對實驗室實驗的原理、應用及其在政治科學研究中的效度進行了讨論。本文的研究表明,實驗室實驗是一種成熟的因果推斷方法,它比其他傳統的實證研究方法更為貼合因果效應和因果機制的理論邏輯。所謂實驗室實驗“内部效度高、外部效度低”的論斷有失全面。當然,它也并不是完美的因果推斷工具,其内部效度和外部效度都依賴于研究者對實驗的精心設計和實施,并需要研究者将實驗與具體的研究方向和主題相結合。然而,研究者不應因實驗被試的樣本特性和研究環境的特殊要求而忽視或貶低這種方法在政治科學實證研究中的作用與價值。在政治科學方法論學者和實驗研究者的共同努力下,實驗室實驗方法也将不斷進步,突破原有局限,在更廣泛的政治科學研究領域做出貢獻。
目前,國内政治學者對實驗方法已有了相當的了解,但在應用層面相對偏重于調查實驗和田野實驗。實驗室實驗仍有待進一步應用和發展。本文将從以下四個方面探讨實驗室實驗與中國政治科學研究的結合路徑。
第一,借鑒國際經驗,推動中國特色的政治行為學研究。實驗室實驗在政治學中最大的應用領域是政治行為研究。大量政治參與研究和政治經濟學實驗為該方法在此類議題中的應用積累了豐富的素材與經驗。在目前的中國,政府治理和社會治理面臨着諸多新挑戰,多樣化的政治互動與交流已成為重要的時代特征,城鄉、區域、階層、群體間的不平衡和不充分發展成為施政者關心的核心問題。如何了解這種不平衡和不充分發展的内在機制?什麼才是影響公民政治參與、疏解社會沖突的關鍵因素?結合中國公民特征的實驗室内的群體決策實驗和政治傳播實驗将為了解這些問題内部的因果關系和作用機制提供幫助。實驗室政治學還将為發展當代中國複雜社會、經濟、政治條件下公民的政治參與動因和規律、黨内民主和政府制度建設以及公共産品的有效供給和合理配置設定等諸多方面的理論提供可靠的實證基礎。
第二,運用政治心理學實驗,深入了解複雜社會經濟環境下的國民心态。一般認為,知識和态度是驅動人類參與政治互動、選擇政治行為政策的原動力。以政治心理學為基礎的實驗室實驗為了解兩者之間的因果聯系提供了一條有效途徑。情緒控制和資訊接觸實驗可以有效檢測特定的語言與非語言表達形式對人類行為的影響。有研究指出,中國社會正處于高社會資本、高政治信任、高政治能動性與激烈的社會政治互動并存的狀态。群眾的政治心态豐富,且容易受到外來因素影響。及時有效地引導群眾的政治心态、疏導社會沖突和緩和過激輿論是高回應型政府為鞏固穩定發展局面需要承擔的重要任務。通過政治心理學實驗,研究者能有效測量不同政治交流方式對群眾态度與行為産生的影響,進而更加深入地了解政府與群眾、政府與政府以及群眾與群眾之間的交流機制。
第三,與前沿科技、大資料的跨學科結合。延加和羅斯·麥克德莫特 (Rose McDermott) 在展望實驗政治學的發展前景時不約而同地提到,與先進技術的結合是實驗室實驗的必然發展趨勢。目前,前沿基因科學、生物學、醫學技術為測量和了解人類情感與意識提供了新的技術和視角。研究者可以通過核磁共振圖譜、眼動儀等手段精确把握人們在接受幹預因素時的生理反應和直覺感受。這些高新技術手段與政治實驗的結合将為我們了解個體與社會政治環境之間的互動提供新的微觀橋梁。這是在非實驗室環境中很難展開的研究。此外,近年來大資料研究在大陸日趨興盛,越來越多的大學和研究機構擁有了搜集、挖掘和處理地區乃至全國範圍内的大資料的能力。這就為更好地把握實驗對象的狀态、特點和行為模式創造了條件,以便從被試樣本的層面提升實驗研究的内部效度、外部效度以及生态效度。同時,利用日趨普及的通訊交流和資訊擷取裝置,也使得在更大範圍内實施更為複雜的研究實驗成為可能。
第四,因地制宜,推進實驗室實驗方法的應用。改革開放以來,實證研究在大陸政治科學領域獲得了長足發展。随着研究的深入,越來越多的學者開始有意識地将實證研究引向對政治現象的内在因果性的探索,包括實驗室實驗在内的實驗研究方法則成為了他們手中的利器,部分大學還建立起了專門的社會科學實驗室研究的平台和機構。對方法的重視以及專門機構的設立為開展精準的政治學實驗提供了穩定的資金和技術支援、封閉獨立的實驗室環境以及專業的執行團隊和配套設施。在這種條件下,實施實驗組與對照組的完全随機配置設定 (complete randomization)、區塊随機配置設定 (block randomization) 、随機分組的再随機配置設定 (rerandomization) ,乃至形式模型實驗路徑 (formal modeling approach) 等多種技術手段都不是難事,進而為政治科學實驗室實驗的内部效度提供了可靠保障。另一方面,中國多樣化的區域社會經濟特征和地方政策又為進行分條件、多點重複的實驗提供了豐富的被試資源。對這些資源善加利用,即可對實驗室實驗的外部效度實作多角度檢驗和有效增益。這些都為在中國實作内外效度“雙高”的政治科學實驗室實驗提供了獨有的條件,也為中國的方法論學者嘗試新的實驗設計和應用技術、以中國的政治實驗研究帶動政治科學方法的整體進步創造了必要的物質基礎。
總之,中國的社會和學術進步從物質、技術和理論多個角度為實驗室實驗的應用創造了條件,而中國蓬勃發展而又日趨複雜的社會、經濟、政治環境又為運用實驗室實驗進行社會科學研究提供了獨特的機遇和舞台。以實驗室實驗為代表的因果推斷研究将為全面推動中國政治科學實證研究以及實作中國特色的政治學研究與世界學術前沿接軌提供重要的方法論支援。當然,倡導實驗室實驗并不意味着要摒棄調查實驗和田野實驗以及其他實證和理論研究模式。實驗室實驗也需要與其他研究方式相配合,才能彌補本身具有的局限性,才能全面而系統地認識中國政治以及人類政治生活的普遍規律。
轉載 | 解倒懸
稽核 | Anders
終審 | 李緻憲
©Political理論志
前沿追蹤/理論方法/專家評論
ID: ThePoliticalReview
“在看”給我一朵小黃花