天天看點

r語言 回歸分析 分類變量_R語言區間資料回歸分析

原文連結

http://tecdat.cn/?p=14850​tecdat.cn

r語言 回歸分析 分類變量_R語言區間資料回歸分析

回歸分析是一種十分常見的資料分析方法,通過觀測資料确定變量間的互相關系.傳統回歸分析以點資料為研究對象,預測結果也是點資料,而真實資料往往在一定範圍内變動的.基于置信度可以形成置信區間,一定程度彌補了預測值為單點的不足,但将點資料作為研究對象,以點帶表某範圍内的所有資料,往往存在資訊丢失的問題.

區間回歸分析是一種以區間數為研究對象的資料分析方法.區間數能反映出資料的變動範圍,更符合現實情況.區間型符号資料是區間數的一種,通過"資料打包"形成,是以除具有區間端點資訊外,還具有區間内部散點資訊.

本文解釋如何在R裡對有區間變量的情況下提取上下限值。讓我們從生成資料開始,

  1. n=200
  2. set.seed(123)
  3. X=rnorm(n)
  4. Y=2+X+rnorm(n,sd = .3)

假設現在我們不再觀察實變量xx,而隻是觀察一個類(我們将建立八個類,每個類有八分之一的觀察值)

例如,對于第一個值,我們有

  1. as.character(Xcut[1])
  2. [1] "(-0.626,-0.348]"

要提取有關這些邊界的資訊,我們可以使用以下代碼,該代碼傳回區間的下限,上限

我們可以檢查我們的第一個觀察

  1. extraire(Xcut[1])
  2. lower mid upper
  3. -0.626 -0.487 -0.348

我們可以在資料庫中建立三個附加變量

  1. B$lower=B2[1,]
  2. B$mid =B2[2,]
  3. B$upper=B2[3,]

我們可以比較4個回歸(i)我們對8個類别進行回歸,即我們的8個因子(ii)我們對區間的下限進行回歸,(iii)對區間的“平均值”值進行回歸(iv)上限

我們可以将預測與我們的四個模型進行比較

  1. plot(B$Y,predict(regF),ylim=c(0,4))
  2. points(B$Y,predict(regM),col="red")
  3. points(B$Y,predict(regU),col="blue")
  4. points(B$Y,predict(regL),col="purple")
  5. abline(a=0,b=1,lty=2)
r語言 回歸分析 分類變量_R語言區間資料回歸分析

更進一步,我們還可以比較模型的AIC,

  1. AIC(regF)
  2. [1] 204.5653
  3. AIC(regM)
  4. [1] 201.1201
  5. AIC(regL)
  6. [1] 266.5246
  7. AIC(regU)
  8. [1] 255.0687

如果下限值和上限的使用不是确定性的,則應注意,使用區間的平均值會比使用8個因素得到更好的結果。

參考文獻

1.用SPSS估計HLM層次線性模型模型

2.R語言線性判别分析(LDA),二次判别分析(QDA)和正則判别分析(RDA)

3.基于R語言的lmer混合線性回歸模型

4.R語言Gibbs抽樣的貝葉斯簡單線性回歸仿真分析

5.在r語言中使用GAM(廣義相加模型)進行電力負荷時間序列分析

6.使用SAS,Stata,HLM,R,SPSS和Mplus的分層線性模型HLM

7.R語言中的嶺回歸、套索回歸、主成分回歸:線性模型選擇和正則化

8.R語言用線性回歸模型預測空氣品質臭氧資料

9.R語言分層線性模型案例

繼續閱讀