天天看點

stata中計算公式指令_【stata】常用指令(轉載)

1、input: 輸入資料

例:inpurt x y

1 4

2 3.5

3 7

end

2、by: 按照某一變量的取值來進行分析

例:by group,sort: regress Y x1 x2 //按照不同的組,對Y做回歸分析

3、weight: 權重或者頻數

例:fw=頻數變量 //多用在四格表資料中或者未原資料未給出所有值,隻給出了值和對應的頻數

4、if: 用條件語句指定條件

例:drop if group==1|group==2 //把group變量值為1或者2的記錄删除掉

5、in:指定觀察值的範圍,對在範圍内的觀察值做分析處理

例:replace x1="123" in 100/200 //把第100-200條記錄中的X1變量值改為123

6、for: 用來指定變量

例:for y1-y10 z1-z5: regress @x1-x22

//把y1-y10,z1-z5分别于x1-x22做回歸,一次性代表15次回歸,其中@是替換符,代表y1-y10, z1-z5

7、函數

abs(x) 絕對值

exp(x) 指數函數

log(x) 自然對數

log10(x) 常用對數

sqrt(x) 平方根

uniform(x) 生成(0,1)内均勻分布的僞随機數

length(x) 計算長度

substr(s,n1,n2) 獲得從S的n1個字元開始的n2個字元組成的字元串

real(x) 将字元串s轉換為數值函數

trim(x) 去除字元串前面和後面的空格

int(x) 去掉x的小數部分,得到整數

sum(X) 求和

max(x) min(x) 最大值最小值

_n 目前觀察值的位置

_N 觀察值的總個數

8、ren: 重命名

例:ren var1 var123 // 把var1重新命名為var123

9、des:描述資料庫的基本情況

10、label: 為變量添加一些說明,以示說明

11、sort: 按照某一變量從小到大排序

gsort +/-:按照某一變量從大到小或者從小到大排序

sort var1 var2:按照var1大小排序,相同的var1按照var2大小排序

12、drop:删除變量或者記錄

drop x1 x2

drop x1-x5

drop if x<0\

drop in 1/100

drop if x==.|y==.

drop _all //清空資料庫

13、keep: 與drop對應,儲存變量

14、append:縱向連接配接資料庫

15、merge:橫向連接配接資料庫

16、gen: 生成新變量

gen bh=_n //将資料庫的内部編号賦給變量bh

17、replace:更改變量值

replace z=. if z=9 //将所有z=9的值用缺失值代替

renvars: 批量修改變量名

renvars X1-X5, prefix(mono_) //把變量X1-X5的變量名前加字首mono_;同理字尾是postfix

18、set obs: 增加空記錄

set obs 20 //增加20條空白記錄

19、format: 改變資料格式

format tjrq %td //将tjrq改成日期形式

20、l: list 将結果列出

21、su: 對分析資料進行描述,均值标準差等,與des不同,des是描述資料庫變量個數,格式等

su x, d // 對x進行統計描述,如果加了d,那麼就會更加detail

22、centile: 百分位數計算

centile x, centile(2.5,50,97.5) //計算變量x的2.5,50.97.5百分位數

23、tab:頻數表達

tab sex //計算兩個性别各自的頻數

tab sex group //看看各組性别分布的情況

tab group, sum(x1) //在各組内對x1統計分析

24、ci: 計算可信區間

25、直方圖:gra x, bin(9) xlab(10,20,30,40) ylab(0,1,2,3) norm gap(4) b2("height (cm)")

//對x畫直方圖,分為9組,X軸為10,20,30,40,y軸為0,1,2,3,加上正态分布曲線,标題與坐标軸的距離(1-8),下坐标軸加标題為height(cm)

b1/t1/l1/r1("") 給各個坐标軸加标題

b2/t2/l2/r2("") 給各個坐标軸加副标題

title 給圖加總标題

條圖:gra x1 x2, bar by(group) sh(31) l1("rate of die") b1("comparison of rate of die")

// 對x1,x2畫條圖,分組變量為group,兩組的明暗對比度為3:1,左标題rate of die,下标題comparison of rate of die

餅圖:gra x1 x2 x3 x4 x5, pie by(group) sh(31) total

散點圖與線圖:connect(簡寫c)——連接配接散點的方式:

. 不連接配接

l 直線連接配接

s 平滑曲線連接配接

|| 直線連接配接在同一縱向上的兩點

J 階梯式線條連接配接

symbol(簡寫s)——各個散點的圖形:

O 大圓圈

S 大方塊

T 大三角型

o 小圓圈

d 小菱形

p 小加号

. 小點

gra y x, xlab ylab c(l) s(d)

箱式圖:gra y x, oneway/twoway box

26、單樣本均數t檢驗:ttest x=14.02(總體均數μ)

ttesti n mean sd μ

配對t檢驗:ttest x1==x2

兩樣本均數t檢驗:ttest x1==x2,unpaired

ttest x, by(group)

27、方差分析:

方差齊性檢驗:sdtest x1=x2

sdtest x, by (group)

正态性檢驗:sktest x

單因素方差分析: oneway 相應變量 分組變量

兩因素方差分析:anova 相應變量 分組變量1 分組變量2

多因素方差分析:anova x a b c ... a*b b*c a*b*c... //乘積項代表互動作用

28、率、構成比的比較:tab var1 var2 [fw=頻數變量]

chi2 pearson卡方檢驗

exact fisher确切機率法

如果是原始資料RXC列聯表:tabi 第一行數字從左到右\第二行從左到右...\最後一行從左到右, row chi2 exact

29、 隊列研究(暴露,不暴露):

ir 病例變量 暴露變量 時間變量 ./ irs a b n1 n2

cs 病例變量 暴露變量 / csi a b c d

病例對照研究(發病,不發病):cci a b c d

30、等級資料:

genrank 編秩 genrank rankx=x

signtest 符号檢驗 類似t檢驗,signtest x=常數,signtest x1=x2, signrank x1=x2

signrank 符号秩和檢驗

ranksum/Wilcoxon 兩樣本秩和檢驗 wilcoxon var, by (group_var)

kwallis 多樣本秩和檢驗(Kruskal-Wallis) kwallis var,by (group_var)

spearman 等級相關 spearman x y

ktau 等級相關(kendall) ktau x y

31、直線相關與回歸: 相關 corr y x

回歸 reg y x

估計與預測 pre yhat

畫圖 gra y yhat l1 l2 l3 l4 x, c(.lssss) s(oiiii) xlab() ylab()

32、多元線性回歸及逐漸回歸:

散點圖矩陣:gra y x1 x2, matrix

相關系數矩陣: corr

多元回歸方程:reg y x1 x2 //标準化偏回歸系數,reg y x1 x2, beta

逐漸回歸:stepwise y x1-x4, forward fe(2.73) //α等于0.05時F界值為2.73,fe代表fenter選入标準,fs代表fstay剔除标準

逐漸回歸法:forward,backward,stepwise,stepwise forward 例如:step y x1-x4, step fe(2.5) fs(2.6) back

33、logistic回歸:

logit y x [fw=f]

blogit y x1 x2 x3/ glogit y x1 x2 x3

也可以同上做逐漸Logistic回歸

34、生存曲線:

中位生存時間:survsum 時間變量 截尾變量, by(分組變量)

生存曲線:kapmeier 時間變量 截尾變量, by(分組變量) // kaplan-meier生存曲線

生存率比較:兩組:wilcoxon 時間變量 截尾變量, by(分組變量)

多組:logrank 時間變量 截尾變量, by(分組變量)

COX分析:cox 時間變量 自變量, dead(截尾變量)

---------------------

作者:LandH的Blog

來源:CSDN

轉載請附上博文連結!