天天看點

陳雲松 | 宏觀定量社會學:大資料的人文社科應用

作者:再建巴别塔

本文轉自 | 南方治理

陳雲松 | 宏觀定量社會學:大資料的人文社科應用

宏觀定量社會學:

大資料的人文社科應用

——陳雲松教授在中國社會科學院大學舉辦的“計算與人文社科融合創新高端論壇”暨“計算社會科學研究中心”成立大會上的主題報告觀點

人物介紹

陳雲松 | 宏觀定量社會學:大資料的人文社科應用

陳雲松教授,牛津大學社會學博士,南京大學--約翰斯·霍普金斯大學中美文化研究中心主任,社會學系教授、博士生導師,教育部“青年長江學者”,國家社科基金重大項目首席專家,國際華人社會學會常務理事,Social Science Research等雜志編委。主要研究領域為計算社會學、大資料、社會網絡和社會治理。在British Journal of Sociology、Social Networks、Poetics、《中國社會科學》、《社會學研究》等國内外重要期刊和《人民日報》、《光明日報》等媒體發表論文多篇。曾獲中國城市百人論壇首屆“青年學者獎”、江蘇省哲學社會科學優秀成果一等獎。

陳教授報告中總的觀點是:

從傳統定量社會學分析領域,到直接對複雜資料、複雜現象進行呈現和解剖的社會計算領域,在中間地帶有一個非常重要、也是最需要社會學想象力、目前最有可為的新型研究地帶:從大資料中或者利用機器學習、社會網分析等手段建構出以往社會調查難以擷取的宏觀社會學研究名額,再納入經典計量模型進行因果推斷。這種計算社會學的混合方法,有助于真正形成理論-資料的二進制驅動。

我的主題報告題目是《宏觀定量社會學》如何對大資料進行人文社科應用。我選的切入點會非常小,是具體的我們在目前社會學發展有定量、有定性、有理論,三架馬車共同驅動的情況下,我們怎麼能讓大資料讓社會計算的方法助力社會學的發展?我自己的感受是什麼呢?大資料的出現,它提供了一個非常重要的功能,在于它為傳統的研究提供了一些無法測量的名額。

我為什麼着重講這樣一個功能呢?因為大資料和社會計算能夠給社會學定量分析提供很多範式上的突破。比如寫文章的結構,比如如何用機器學習進行預測?我們團隊也在做,我們預測譬如北京地區首都地區大學生的性取向,用機器學習來做,因為直接做問卷調查可能拿不到正确的資料。類似這樣的方法應用時影響人群會非常少,好多人不習慣這樣的文章、看不懂這樣的文章、也不願意去看。我們希望傳統定量分析跟大資料跟社會計算方法之間,構築起過渡性的地帶、一個領域。

這個領域恰恰又是當代社會學最需要的,我把它叫做宏觀定量社會學,下面具體做一個彙報。

一社會學定量研究的不同變量層次

如上圖所示。

社會學定量研究不同變量的層次,這個很好了解,解釋變量和被解釋變量。當X和Y都處于微觀層面時,做社會學定量分析的方法都很簡單。怎麼來做?譬如當我現在提出這個問題,一個人收入影響他的幸福感嗎?我的方法很簡單,我去做調查問卷,問3000人、5000人、10000人抽樣調查,然後對他們進行一個回歸分析,這個是标準的社會學定量分析的方法。問卷調查方法,回歸分析。

那麼另一類的問題,當被解釋變量當Y處于微觀個體層面,而解釋變量處于宏觀群體層次時,用傳統定量方法也可以做。我們要分析城市收入不平等,比如每個城市基尼系數是否影響個人幸福感。同樣用問卷調查做,隻是模型從單層走向多層。問卷調查分析,多層回歸。

第三類是Y處于宏觀群體層面,而X處于微觀個體層面。比如我們想了解個人收入怎樣影響城市總體幸福感時,傳統問卷調查和回歸做不起來,沒法回歸。因為這是反映社會現象從個體向群體向宏觀層次躍遷的一個過程。怎麼來做呢?推動我們做計算科學的學者知道應該用仿真的方法,用多主體仿真(Agent-Based Simulation)模組化方式來做。

還有一個,當X、Y都處在宏觀群體層次時,我們怎麼樣來做社會科學的定量研究?比如現在想關心城市層面收入不平等影響城市總體平均幸福感。像這樣的問題原來社會學關心得很少,特别跟經濟學相比,經濟學會看到大量市級、省級層面宏觀的分析但社會學非常少。

宏觀定量社會分析較少的原因?如上圖所示,我總結在三方面:第一,宏觀社會名額不多,什麼意思?比如各級經濟統計部門,統計部門省、市、中央的統計局統計的大多是:經濟名額,很少統計你幸福嗎?你對别人信任嗎?信任程度是多少?類似社會學關注的名額統計得很少,我們在宏觀層面、在縣、市、省、國家和社會層面缺乏這樣的資料。第二這樣的分析樣本比較有限。全國30多個省級行政區域,300多個市級區域,N比較小,可能要借助于時間序列或面闆資料來做。第三個分析是宏觀分析的生态謬誤。兩個變量X跟Y在個體層次上,X跟Y是正相關,可能在市一級、省一級、國家層面兩個是不相關的。具體不多彙報,生态謬誤是做宏觀研究值得引起重視的一個問題。如下圖所示:

早期的社會學家是很重視宏觀研究的。恰恰因為生态謬誤存在的可能,再加上當時入戶問卷調查技術的成熟,導緻到20世紀中期時,早期的做定量社會學的學者由研究宏觀州層面、縣層面、省層面全部轉為研究個體層面。全部轉為個體研究層面導緻我們現在做定量社會學的人跟經濟學不太一樣,做定量社會學的總體套路、模式以個體樣本拿來做分析。一做研究是一萬人、五千人,五十萬人的樣本,個體層面分析,X、Y基本在個體層面,沒有宏觀層面資料。導緻三個不利,第一個不利于大理論的發展。因為沒有較大時間、空間尺度上的資料,對宏大理論難以進行經驗驗證,導緻對定量研究的批評,說你沉溺于技術化、很窄的個體化的層面缺乏大的理論适應。如下圖:

第二,對因果邏輯的推斷也存在一些問題。更重要的我覺得不利于了解社會的躍遷,這是科爾曼最早就提出來的,從個展現象到群展現象,再到群展現象影響個展現象。這個中間的過程是什麼?這是非常值得研究的一個領域。比如說X跟Y如果在個體層次上它們是正相關,但在群體層次上它們是負相關,為什麼?社會學家必須去研究,但是傳統的資料收集方式、問卷調查難以提供這樣的一些社會名額。

大數量重新開機宏觀定量社會分析

是以我現在提出計算方法的出現,特别是大資料的出現能夠重新開機宏觀定量社會分析。如下圖:

重新開機宏觀定量社會分析價值在哪兒?它不光能夠提供以往問卷調查所無法擷取宏觀的資料,比如100年以來中國社會老百姓意識形态圖譜。200年以來美國社會的社會信任等等,這類大的名額過去沒辦法測量。更重要的一點是我剛才提到,它可以形成學科過渡階段。把這樣“重要的名額”從大資料裡面提取出來,用計算社會方法提取出來,然後把名額打包、修正,成為傳統的計量模型,比如用OLS模型、用時間序列分析模型、用面闆資料模型,用這些傳統的計量模型能夠進行回歸分析的名額,使得傳統社會學定量分析跟完全使用計算社會方法譬如機器學習、社會網分析來做或多主體仿真模組化等等,在這兩者之間形成一個過渡的領域,我覺得這個過渡的領域對現在當代社會學特别是定量社會學的發展有非常重要的意義。

大數量重新開機宏觀定量社會分析執行個體1:時間序列分析

下面很快舉幾個簡單的案例,為什麼這麼講?

特别剛才羅教講老師講到,他作為一個前輩學人也看到,從國内的發表來看,中國社會學者對大資料使用還停留在描述階段,比較少直接用大資料進行分析。我們團隊利用剛才我講到的宏觀定量社會學的方法,從大資料中提取出可以用傳統的計量模型分析的名額,然後進行有意義、有理論價值的、有理論秩序的社會學的分析。主要發表在一些以英語為主的期刊上,也是讓我們中國學者當代的大資料研究、計算社會學研究走向了世界。

我舉幾個例子:第一個,我們發表在Social science research上的,美國100年來老百姓階層意識的研究。如圖:

這個研究的出發點很簡單,因為前年是馬克思誕辰200周年。馬克思當時提出的階層意識的理論,他當時觀察的對象是什麼呢?是19世紀英國跟德國。但是這樣宏大的理論能不能同樣解釋20世紀發達的美國呢?甚至在21世紀能不能解釋呢?

譬如我們想分析是不是在美國100年以來,譬如從1900年到2000年,在100年裡面美國人的階級意識跟美國全社會的基尼系數收入不平等是有關的。拿到美國社會不平等的資料比較好拿,比如100年來美國社會基尼資料可以拿到。

但是100年以來美國社會的階級意識很難去做社會調查,因為好多人已經死掉了,你現在到美國去做調查不可能拿到1920年、1930年那些人的(資料),對他們進行分析。我們怎麼辦?我們比如利用谷歌ngram viewer很好的一個文化大資料這樣的資料庫,如上圖所示我們提取大量關于“階層”、“階級”這樣的詞彙,如下表:

陳雲松 | 宏觀定量社會學:大資料的人文社科應用

利用他們在書中,這些詞彙在書裡面出現的頻率,來代表美國社會公衆對階層這樣一個現象的關注度。如下圖所示。為什麼可以這麼做?因為書籍是承載人類幾乎全部知識思想的一個重要載體。

是以我們這樣來分析(如下兩圖的方法)。

然後把這樣的指數用統計方法,用統計方法比如壓縮成一條100年以來美國社會的階級關注度,譬如下圖上看到這條紅線然後我們進行分析。

類似的,我們對自殺效應,自殺中有一個著名的維特效應,名人自殺了你去模仿自殺。如下圖:

同樣以美國社會為例,分析它的100年裡面,美國社會書籍裡流傳的自殺是不是跟它真實的自殺有關呢?我們同樣采取這種大資料的方法。我們從書籍大資料中提取出人們100年以來、50年以來這樣一個宏觀的社會意識,這種是無法用傳統的問卷調查來獲得的名額,然後把它放到傳統的标準的計量模型,比如時間序列模型裡去進行分析(如下3圖),這是我講的第一個方面。

大數量重新開機宏觀定量社會分析執行個體2:面闆資料分析

第二個,面闆資料的分析。

有了剛才我講到的,比如做時間序列可以把它拓展,從國家層面拓展到州層面、省份層面。

比如我們社會學家做了經濟、金融領域的研究,我們來研究全球對中國各個省域的投資跟什麼有關。經濟學家做了大量研究,他們研究的解釋變量都是經濟名額,譬如産業積聚度、譬如勞動力成本、教育水準等等,但我們關心的是什麼?我們認為在兩者相同的情況下,因為投資是一種風險性的行為,是以一個地域、一個城市、一個省份在國際上的知名度被提到的程度跟投資是有關的。是以我們同樣用類似的資料,為中國每個省份建構20年的面闆資料模型同樣進行分析。我們的方法還是從海量大資料中為中國每個省份提取出他在國際上知名度的名額,然後把這些名額用我們傳統計量經濟學家、定量社會學家所熟知的面闆模型,比如動态面闆模型、雙态固定模型等等來做,這樣分析文化的因素對經濟行為這樣的一個影響。第二個方面是用面闆資料。如下面4張圖所示。

大資料還能提供什麼呢?

大數量重新開機宏觀定量社會分析執行個體3:網絡結構資料

還有一個能夠提供給我們做網絡資料。我也舉一個例子,我們知道城市跟城市之間、地域跟地域之間有人流、物流。如下圖:

在資訊社會我們很關心地域之間資訊流。我們關心什麼現象?譬如我請在座老師、專家想一想,兩個省,上海和安徽。上海人搜“安徽”多還是安徽人搜“上海”多呢?我們想想很可能會想到安徽搜“上海”多。因為可能安徽搜“上海”除了到上海去旅遊可能還會涉及到就業、上大學等等。因為上海流動人口中安徽人已經占多1/3了。我可以在資訊空間裡用上海搜“安徽”跟用安徽搜“上海”兩個名額相乘,建構起它們省域之間文化的吸引力,資訊流空間的吸引力。當然“吸引力”這個名額就像萬有引力一樣還不夠有趣。我關心的是上海跟安徽之間互相搜尋的一種差距,譬如拿安徽搜“上海”,除以上海搜“安徽”這個資料一定是大于1的,但這個資料代表什麼呢?代表着是不是在網際網路資訊流空間裡面,上海人文化上資訊中的自戀、内卷化等等,或者他對安徽不太關心,但安徽很關心上海。這樣我們可以提出相應的理論、概念,提煉出概念、提煉出新的理論,來對社會文化現象進行研究。

我們做了有趣的分析,我們看到這張圖把每個省域之間的互動,在網際網路上,在百度上互相檢索的互動把它放在一起,連起來。

如上圖,哪個線越粗就是哪個之間互動越強。結果發現哪兩個省域行政機關互動最強呢?北京跟河北。

上圖大家看到滑鼠動的這根線,是以大家能夠想象為什麼是這樣,北京跟河北之間的吸引力是最強的,你關心我、我也關心你。

我剛才講最重要的文化上的内卷和穿透,上海對安徽的穿透展現在什麼地方?我們也做了分析,把每個省互相兩兩搜尋的這種差距、這種距離,我們也做了分析。如下圖所示:

如上圖,我們發現什麼呢?我們發現省與省之間互相檢索差距最大的是哪兩個省份?是北京跟天津。這意味着北京人在網際網路上可能對天津不太關注的,不太搜天津。但是天津人對北京是高度的關注,在搜尋裡面大量地搜尋到了北京。

然後我們為每個省份都建構起這樣的名額,然後我們再進行社會經濟分析,從機制角度再建立起傳統的計量模型,我們來分析這樣内卷度、穿透力、吸引力也好,跟省份的個人所得、城鎮居民可支配收入還是人均GDP有關,還是跟平均教育程度有關等等。如下圖所示。

我們這樣還是用同樣的方法,從網際網路搜尋大資料裡面提取出、建構出有社會學意義的名額,然後再回到傳統的計量模型裡面來做,同樣也是在傳統定量社會學分析跟完全意義上的,我們通行的用全新範式做的計算社會學中間,建構起這樣一個過渡的領域。這樣的領域叫做宏觀定量社會學分析,它既是對傳統标準定量社會學分析的補充,也是計算社會學發展是一個重要的領域,也是一個發展重要的階段。

我想今天我利用15分鐘時間就彙報到這裡。謝謝大家!

(本文根據陳雲松教授在論壇主題報告的錄音整理而成)

繼續閱讀