1. 常用的資料分析工具
Stata、SPSS、SAS、R、Python,甚至Excel都可以做資料分析工作。R和Python是程式員的首選,可以通過編寫程式實作成整體的資料清洗、分析、挖掘,還可以增加擴充支援,把一套代碼應用于類似的資料分析場景中。對于專業人士(如生物、醫療領域)來說,掌握程式設計語言的學習成本太高,他們更關注通過工具,友善快捷地得到分析結果,SPSS和Stata主要是圖形界面的軟體操作,相對來說更為合适。很多專業領域,發論文時都使用了Stata和SPSS軟體的分析結果,久而久之,也使該軟體成為了該領域的資料分析标準工具。
2. Stata安裝和運作
我下載下傳的是Stata 15.1 Linux 版本,下載下傳到本地解包後,可看到工具stata和xstata,它們分别是指令行版本和圖形界面版本,圖形界面中也可以使用指令,運作xstata:
$ ./xstata
可在其下方的框内輸入Stata指令回車運作,該軟體中最常用的三個菜單是:Data(資料處理)、Graphic(畫圖)和Statistic(統計)。功能非常豐富,包括很多二級三級子菜單,下文将介紹一些最常用的功能。
3. Stata資料導入
Stata資料導入主要有兩種方式,一種是從檔案導入,另一種是手動編輯内容。用檔案菜單中的Open打開檔案,支援Stata定義的資料’.dta’,圖表’.gph’等檔案類型(Python的Pandas支援導出Stata檔案類型,但預設不支援中文字段名),還可通過檔案菜單中的Import導入Excel、csv、dbf等常用格式資料。另外,也可以通過界面上方的New Do-file Editer或Data Editer手動建立新的資料,以及編輯現有資料,編輯界面支援複制粘貼功能。 可以看到,每次通過菜單操作後,界面中間的視窗中都顯示出操作對應的指令,我們可以把常用的指令記錄下來,以便後期通過指令行方式快速調用。
4. Stata常用資料分析指令
(1) 變量相關
生成新變量
. gen a=3
改變量名
. rename a b
改變量值
. replace b=5
删除變量
. drop b
電腦
. display 2+3
(2) 檔案目錄相關
切換目錄
. cd /tmp/
檢視目錄下檔案
. ls
打開資料檔案
. use xxx.dta
導入excel檔案中名為“首頁”的sheet頁
. import excel "/tmp/xxx.xlsx", sheet("首頁")
儲存檔案
. save /tmp/a.dta
退出
. exit
(3) 資料表相關
展示目前資料表内容
. list
看目前資料格式
. describe
檢視統計資料,包含:例數(Obs)、變量的平均值(Mean)、标準差、最小值和最大值
. sum
計算爾爾森系數
. pwcorr y x,sig
計算斯皮爾曼系數
. spearman y x
. kwallis y,by(x)
. oneway y x
. regress y x1 x2 x3…