1、input: 輸入資料
例:inpurt x y
1 4
2 3.5
3 7
end
2、by: 按照某一變量的取值來進行分析
例:by group,sort: regress Y x1 x2 //按照不同的組,對Y做回歸分析
3、weight: 權重或者頻數
例:fw=頻數變量 //多用在四格表資料中或者未原資料未給出所有值,隻給出了值和對應的頻數
4、if: 用條件語句指定條件
例:drop if group==1|group==2 //把group變量值為1或者2的記錄删除掉
5、in:指定觀察值的範圍,對在範圍内的觀察值做分析處理
例:replace x1="123" in 100/200 //把第100-200條記錄中的X1變量值改為123
6、for: 用來指定變量
例:for y1-y10 z1-z5: regress @x1-x22
//把y1-y10,z1-z5分别于x1-x22做回歸,一次性代表15次回歸,其中@是替換符,代表y1-y10, z1-z5
7、函數
abs(x) 絕對值
exp(x) 指數函數
log(x) 自然對數
log10(x) 常用對數
sqrt(x) 平方根
uniform(x) 生成(0,1)内均勻分布的僞随機數
length(x) 計算長度
substr(s,n1,n2) 獲得從S的n1個字元開始的n2個字元組成的字元串
real(x) 将字元串s轉換為數值函數
trim(x) 去除字元串前面和後面的空格
int(x) 去掉x的小數部分,得到整數
sum(X) 求和
max(x) min(x) 最大值最小值
_n 目前觀察值的位置
_N 觀察值的總個數
8、ren: 重命名
例:ren var1 var123 // 把var1重新命名為var123
9、des:描述資料庫的基本情況
10、label: 為變量添加一些說明,以示說明
11、sort: 按照某一變量從小到大排序
gsort +/-:按照某一變量從大到小或者從小到大排序
sort var1 var2:按照var1大小排序,相同的var1按照var2大小排序
12、drop:删除變量或者記錄
drop x1 x2
drop x1-x5
drop if x<0\
drop in 1/100
drop if x==.|y==.
drop _all //清空資料庫
13、keep: 與drop對應,儲存變量
14、append:縱向連接配接資料庫
15、merge:橫向連接配接資料庫
16、gen: 生成新變量
gen bh=_n //将資料庫的内部編号賦給變量bh
17、replace:更改變量值
replace z=. if z=9 //将所有z=9的值用缺失值代替
renvars: 批量修改變量名
renvars X1-X5, prefix(mono_) //把變量X1-X5的變量名前加字首mono_;同理字尾是postfix
18、set obs: 增加空記錄
set obs 20 //增加20條空白記錄
19、format: 改變資料格式
format tjrq %td //将tjrq改成日期形式
20、l: list 将結果列出
21、su: 對分析資料進行描述,均值标準差等,與des不同,des是描述資料庫變量個數,格式等
su x, d // 對x進行統計描述,如果加了d,那麼就會更加detail
22、centile: 百分位數計算
centile x, centile(2.5,50,97.5) //計算變量x的2.5,50.97.5百分位數
23、tab:頻數表達
tab sex //計算兩個性别各自的頻數
tab sex group //看看各組性别分布的情況
tab group, sum(x1) //在各組内對x1統計分析
24、ci: 計算可信區間
25、直方圖:gra x, bin(9) xlab(10,20,30,40) ylab(0,1,2,3) norm gap(4) b2("height (cm)")
//對x畫直方圖,分為9組,X軸為10,20,30,40,y軸為0,1,2,3,加上正态分布曲線,标題與坐标軸的距離(1-8),下坐标軸加标題為height(cm)
b1/t1/l1/r1("") 給各個坐标軸加标題
b2/t2/l2/r2("") 給各個坐标軸加副标題
title 給圖加總标題
條圖:gra x1 x2, bar by(group) sh(31) l1("rate of die") b1("comparison of rate of die")
// 對x1,x2畫條圖,分組變量為group,兩組的明暗對比度為3:1,左标題rate of die,下标題comparison of rate of die
餅圖:gra x1 x2 x3 x4 x5, pie by(group) sh(31) total
散點圖與線圖:connect(簡寫c)——連接配接散點的方式:
. 不連接配接
l 直線連接配接
s 平滑曲線連接配接
|| 直線連接配接在同一縱向上的兩點
J 階梯式線條連接配接
symbol(簡寫s)——各個散點的圖形:
O 大圓圈
S 大方塊
T 大三角型
o 小圓圈
d 小菱形
p 小加号
. 小點
gra y x, xlab ylab c(l) s(d)
箱式圖:gra y x, oneway/twoway box
26、單樣本均數t檢驗:ttest x=14.02(總體均數μ)
ttesti n mean sd μ
配對t檢驗:ttest x1==x2
兩樣本均數t檢驗:ttest x1==x2,unpaired
ttest x, by(group)
27、方差分析:
方差齊性檢驗:sdtest x1=x2
sdtest x, by (group)
正态性檢驗:sktest x
單因素方差分析: oneway 相應變量 分組變量
兩因素方差分析:anova 相應變量 分組變量1 分組變量2
多因素方差分析:anova x a b c ... a*b b*c a*b*c... //乘積項代表互動作用
28、率、構成比的比較:tab var1 var2 [fw=頻數變量]
chi2 pearson卡方檢驗
exact fisher确切機率法
如果是原始資料RXC列聯表:tabi 第一行數字從左到右\第二行從左到右...\最後一行從左到右, row chi2 exact
29、 隊列研究(暴露,不暴露):
ir 病例變量 暴露變量 時間變量 ./ irs a b n1 n2
cs 病例變量 暴露變量 / csi a b c d
病例對照研究(發病,不發病):cci a b c d
30、等級資料:
genrank 編秩 genrank rankx=x
signtest 符号檢驗 類似t檢驗,signtest x=常數,signtest x1=x2, signrank x1=x2
signrank 符号秩和檢驗
ranksum/Wilcoxon 兩樣本秩和檢驗 wilcoxon var, by (group_var)
kwallis 多樣本秩和檢驗(Kruskal-Wallis) kwallis var,by (group_var)
spearman 等級相關 spearman x y
ktau 等級相關(kendall) ktau x y
31、直線相關與回歸: 相關 corr y x
回歸 reg y x
估計與預測 pre yhat
畫圖 gra y yhat l1 l2 l3 l4 x, c(.lssss) s(oiiii) xlab() ylab()
32、多元線性回歸及逐漸回歸:
散點圖矩陣:gra y x1 x2, matrix
相關系數矩陣: corr
多元回歸方程:reg y x1 x2 //标準化偏回歸系數,reg y x1 x2, beta
逐漸回歸:stepwise y x1-x4, forward fe(2.73) //α等于0.05時F界值為2.73,fe代表fenter選入标準,fs代表fstay剔除标準
逐漸回歸法:forward,backward,stepwise,stepwise forward 例如:step y x1-x4, step fe(2.5) fs(2.6) back
33、logistic回歸:
logit y x [fw=f]
blogit y x1 x2 x3/ glogit y x1 x2 x3
也可以同上做逐漸Logistic回歸
34、生存曲線:
中位生存時間:survsum 時間變量 截尾變量, by(分組變量)
生存曲線:kapmeier 時間變量 截尾變量, by(分組變量) // kaplan-meier生存曲線
生存率比較:兩組:wilcoxon 時間變量 截尾變量, by(分組變量)
多組:logrank 時間變量 截尾變量, by(分組變量)
COX分析:cox 時間變量 自變量, dead(截尾變量)
---------------------
作者:LandH的Blog
來源:CSDN
轉載請附上博文連結!