天天看點

r語言logistic回歸_R語言多分類logistic邏輯回歸模型在混合分布模拟單個風險損失值評估的應用...

r語言logistic回歸_R語言多分類logistic邏輯回歸模型在混合分布模拟單個風險損失值評估的應用...

原文連結

拓端資料科技 / Welcome to tecdat​tecdat.cn

r語言logistic回歸_R語言多分類logistic邏輯回歸模型在混合分布模拟單個風險損失值評估的應用...
通常,我們在回歸模型中一直說的一句話是“ 請檢視一下資料 ”。

在上一篇文章中,我們沒有檢視資料。如果我們檢視單個損失的分布,那麼在資料集中,我們會看到以下内容:

  1. > n=nrow(couts)
  2. > plot(sort(couts$cout),(1:n)/(n+1),xlim=c(0,10000),type="s",lwd=2,col="green")
r語言logistic回歸_R語言多分類logistic邏輯回歸模型在混合分布模拟單個風險損失值評估的應用...

看來我們的資料庫中有固定成本索賠。在标準情況下,我們如何處理?我們可以在這裡使用混合分布,

r語言logistic回歸_R語言多分類logistic邏輯回歸模型在混合分布模拟單個風險損失值評估的應用...

  • 小額索賠的分布

,例如指數分布

  • 狄拉克分布

,即

  • 分布

,例如Gamma分布或對數正态分布

  1. > I1=which(couts$cout<1120)
  2. > I2=which((couts$cout>=1120)&(couts$cout<1220))
  3. > I3=which(couts$cout>=1220)
  4. > (p1=length(I1)/nrow(couts))
  5. [1] 0.3284823
  6. > (p2=length(I2)/nrow(couts))
  7. [1] 0.4152807
  8. > (p3=length(I3)/nrow(couts))
  9. [1] 0.256237
  10. > X=couts$cout
  11. > (kappa=mean(X[I2]))
  12. [1] 1171.998
r語言logistic回歸_R語言多分類logistic邏輯回歸模型在混合分布模拟單個風險損失值評估的應用...

在上一篇文章中,我們讨論了所有參數可能與某些協變量相關的想法,即

産生以下模型,

r語言logistic回歸_R語言多分類logistic邏輯回歸模型在混合分布模拟單個風險損失值評估的應用...

對于機率,我們應該使用多項式模型。回憶一下邏輯回歸模型,如果

,則

r語言logistic回歸_R語言多分類logistic邏輯回歸模型在混合分布模拟單個風險損失值評估的應用...

要導出多元擴充

r語言logistic回歸_R語言多分類logistic邏輯回歸模型在混合分布模拟單個風險損失值評估的應用...

同樣,可以使用最大似然,因為

r語言logistic回歸_R語言多分類logistic邏輯回歸模型在混合分布模拟單個風險損失值評估的應用...

在這裡,變量

(分為三個級别)分為三個名額(就像标準回歸模型中的任何分類解釋變量一樣)。進而,

對于邏輯回歸,然後使用牛頓拉夫森(Newton Raphson)算法在數值上計算最大似然。在R中,首先我們必須定義級别,例如

  1. > couts$tranches=cut(couts$cout,breaks=seuils,
  2. + labels=c("small","fixed","large"))

然後,我們可以定義一個多分類logistic模型回歸

使用一些標明的協變量

  1. > formula=(tranches~ageconducteur+agevehicule+zone+carburant,data=couts)
  2. # weights: 30 (18 variable)
  3. initial value 2113.730043
  4. iter 10 value 2063.326526
  5. iter 20 value 2059.206691
  6. final value 2059.134802
  7. converged

輸出在這裡

  1. Coefficients:
  2. (Intercept) ageconducteur agevehicule zoneB zoneC
  3. fixed -0.2779176 0.012071029 0.01768260 0.05567183 -0.2126045
  4. large -0.7029836 0.008581459 -0.01426202 0.07608382 0.1007513
  5. zoneD zoneE zoneF carburantE
  6. fixed -0.1548064 -0.2000597 -0.8441011 -0.009224715
  7. large 0.3434686 0.1803350 -0.1969320 0.039414682
  8. Std. Errors:
  9. (Intercept) ageconducteur agevehicule zoneB zoneC zoneD
  10. fixed 0.2371936 0.003738456 0.01013892 0.2259144 0.1776762 0.1838344
  11. large 0.2753840 0.004203217 0.01189342 0.2746457 0.2122819 0.2151504
  12. zoneE zoneF carburantE
  13. fixed 0.1830139 0.3377169 0.1106009
  14. large 0.2160268 0.3624900 0.1243560

為了可視化協變量的影響,還可以使用樣條函數

  1. > library(splines)
  2. > reg=(tranches~bs(agevehicule))
  3. # weights: 15 (8 variable)
  4. initial value 2113.730043
  5. iter 10 value 2070.496939
  6. iter 20 value 2069.787720
  7. iter 30 value 2069.659958
  8. final value 2069.479535
  9. converged

例如,如果協變量是汽車的壽命,那麼我們有以下機率

  1. > predict(reg,newdata=data.frame(agevehicule=5),type="probs")
  2. small fixed large
  3. 0.3388947 0.3869228 0.2741825

對于0到20歲的所有年齡段,

r語言logistic回歸_R語言多分類logistic邏輯回歸模型在混合分布模拟單個風險損失值評估的應用...

例如,對于新車,固定成本所占的比例很小(在這裡為紫色),并且随着車齡的增長而不斷增加。如果協變量是駕駛員居住地區的人口密度,那麼我們獲得以下機率

  1. # weights: 15 (8 variable)
  2. initial value 2113.730043
  3. iter 10 value 2068.469825
  4. final value 2068.466349
  5. converged
  6. > predict
  7. small fixed large
  8. 0.3484422 0.3473315 0.3042263
r語言logistic回歸_R語言多分類logistic邏輯回歸模型在混合分布模拟單個風險損失值評估的應用...

基于這些機率,可以在給定一些協變量(例如密度)的情況下得出索賠的預期成本。但首先,定義整個資料集的子集

  1. > sbaseA=couts[couts$tranches=="small",]
  2. > sbaseB=couts[couts$tranches=="fixed",]
  3. > sbaseC=couts[couts$tranches=="large",]

門檻值由

  1. > (k=mean(sousbaseB$cout))
  2. [1] 1171.998

然後,讓我們運作四個模型,

  1. > reg
  2. > regA
  3. > regB
  4. > regC

現在,我們可以基于這些模型計算預測,

> pred=cbind(predA,predB,predC)
           

為了可視化每個組成部分對溢價的影響,我們可以計算機率,預期成本(給定每個子集的成本),

  1. > cbind(proba,pred)[seq(10,90,by=10),]
  2. small fixed large predA predB predC
  3. 10 0.3344014 0.4241790 0.2414196 423.3746 1171.998 7135.904
  4. 20 0.3181240 0.4471869 0.2346892 428.2537 1171.998 6451.890
  5. 30 0.3076710 0.4626572 0.2296718 438.5509 1171.998 5499.030
  6. 40 0.3032872 0.4683247 0.2283881 451.4457 1171.998 4615.051
  7. 50 0.3052378 0.4620219 0.2327404 463.8545 1171.998 3961.994
  8. 60 0.3136136 0.4417057 0.2446807 472.3596 1171.998 3586.833
  9. 70 0.3279413 0.4056971 0.2663616 473.3719 1171.998 3513.601
  10. 80 0.3464842 0.3534126 0.3001032 463.5483 1171.998 3840.078
  11. 90 0.3652932 0.2868006 0.3479061 440.4925 1171.998 4912.379

現在,可以将這些數字繪制在圖形中,

r語言logistic回歸_R語言多分類logistic邏輯回歸模型在混合分布模拟單個風險損失值評估的應用...

(水準虛線在我們的資料集中是索賠的平均費用)。

r語言logistic回歸_R語言多分類logistic邏輯回歸模型在混合分布模拟單個風險損失值評估的應用...

專欄

精算科學

關于結合數學、統計方法以及程式語言對經濟活動來做風險分析、評估的見解。

探索專欄

參考文獻

1.用SPSS估計HLM層次線性模型模型

2.R語言線性判别分析(LDA),二次判别分析(QDA)和正則判别分析(RDA)

3.基于R語言的lmer混合線性回歸模型

4.R語言Gibbs抽樣的貝葉斯簡單線性回歸仿真分析

5.在r語言中使用GAM(廣義相加模型)進行電力負荷時間序列分析

6.使用SAS,Stata,HLM,R,SPSS和Mplus的分層線性模型HLM

7.R語言中的嶺回歸、套索回歸、主成分回歸:線性模型選擇和正則化

8.R語言用線性回歸模型預測空氣品質臭氧資料

9.R語言分層線性模型案例