本節書摘來自異步社群《社會調查資料管理——基于stata 14管理cgss資料》一書中的第3章,第3.5節,作者 唐麗娜,更多章節内容可以通路雲栖社群“異步社群”公衆号檢視
為了給社會科學界提供一項高品質的社會調查資料,中國人民大學社會學系的李路路教授和當時在香港科技大學的邊燕傑教授決心做中國自己的gss,為學術界提供一個全國範圍的、随機抽樣的、高品質的調查資料。自2003年開始截止到本書出版前,一共完成11次調查。在第一個周期裡,共完成5年調查,分别是2003、2004、2005、2006和2008年,除2004年的資料外,剩下4年的資料都已向全社會免費公開,使用者可以到中國國家調查資料庫(china national survey data archive,cnsda)注冊下載下傳。第二個周期計劃從2010~2019年,為期10年,截止到2015年共完成6次調查,其中2010、2011、2012、2013共4年的資料也已經在cnsda的網站上免費釋出。
cgss采用多階段、分層次、随機抽樣方法,擷取的資料在全國範圍具有代表性,但不能在省份這個層面上有代表性,是以不能用cgss資料做31個省份之間的比較。
cgss的問卷由兩個部分構成:主體子產品(primary module,即a部分)和主題子產品(topic module,即b-z部分)。曆年的調查問卷中都包含a部分,不同之處在主題子產品,見表3-4。
![](https://img.laitimes.com/img/9ZDMuAjOiMmIsIjOiQnIsIyZuBnL2UmZzMWO2U2N4YWY0MDNwkTN0MWYxIGMwATZmRDZhNWY4cDNmFDMi9CXt92Yu4GZjlGbh5SZslmZxl3Lc9CX6MHc0RHaiojIsJye.png)
使用cgss資料的注意事項:
(1)樣本代表性。cgss采用多階分層随機抽樣方法,收集上來的資料隻能用于推論全國,無法用于推論各省份。切記:不要用cgss資料做分省份比較研究。
(2)樣本量。同一年度的cgss資料,在不同子產品上的樣本量可能不一樣。cgss的問卷結構是:主體子產品 + 主題子產品。其中主體子產品是全樣本資料,但主題子產品的樣本隻是總樣本中的一個子樣本。也就是說,在全部調查對象中,所有人都會回答主體子產品的問題,但隻有一部分人會回答主題子產品的問題(如cgss2006的城鄉居民資料有10151條資料,eass子產品——家庭子產品——則隻有3208條資料),而且不同的主題子產品回答的人數也有微小差異(如cgss2010的城鄉居民資料有11783條資料,回答m部分——健康子產品——的樣本有3866個,而回答n部分——宗教子產品——的樣本有4231個)。
(3)變量名。為友善查閱資料,cgss曆年資料的變量名都以其對應的問卷中的題号為命名基準,這樣的命名方式也友善使用者把資料和問卷對應起來。
(4)職業和行業編碼。為了更加準确地測量調查對象的行業和職業,對這兩個變量cgss采用間接測量的方法,具體操作方法是:在曆年調查中,行業和職業都是開放題,由通路員把被訪者從事的行業相關資訊和職業相關資訊填入相應的空格上,如下所示:
a59d. 您目前工作的具體職業是:
具體職業名稱[ ]
具體工作内容[ ]
[ ]
根據收集的文本資料,基于isco88,由至少2名專業人員進行編碼,把文本資料轉換成定量資料,以便研究者使用和分析。cgss 項目組隻釋出編好碼的行業和職業,不公布相應的開放題。
[1] 中國的國小資料課本中就包含了統計、調查等方面的基礎知識。
[2]馬丁•丹斯考姆. 做好社會研究的10個關鍵[m]. 楊子江,譯. 北京:北京大學出版社,2008.
[3]這4個效度的詳細内容,請參閱《社會研究方法(第11版)》的第146~147頁,【美】艾爾•芭比著,邱澤奇譯. 華夏出版社,2014
[4]//是給stata指令本身添加注釋的一種方法,如果想給某條指令加注釋,就可以在這條指令後面輸入空格+//+注釋。
[5]星号+注釋是一種給do檔案加注釋的方法。
[6]不同版本的stata能儲存的最大字元數有差異,比如在stata 12中,字元型變量最多隻能儲存244個字元,但是在stata14中,字元型變量最多能儲存2000000000個字元,而且還能儲存二進制數。使用者在建立變量時一定要注意,不要因為存儲空間不足導緻字元型資料丢失。
[7]通常的叫法是:<code>if</code>條件,<code>in</code>範圍。
[8]在stata的指令中,井号“#”代表數字。