天天看點

Exponential family of distributions

目錄

  • 定義
  • 性質
    • $A( heta)$
    • 極大似然估計
    • 最大熵
  • 例子
    • Bernoulli
    • 指數分布
    • 正态分布
Choi H. I. Lecture 4: Exponential family of distributions and generalized linear model (GLM).

定義

定義: 一個分布具有如下形式的密度函數:

[f_{ heta}(x) = frac{1}{Z( heta)} h(x) e^{langle T(x), heta

angle},

]

則該分布屬于指數族分布.

其中(x in mathbb{R}^m), (T(x) = (T_1(x), T_2(x), cdots, T_k(x)) in mathbb{R}^k), ( heta = ( heta_1, heta_2,cdots, heta_k))為未知參數, (Z( heta) = int h(x)e^{langle T(x), heta

angle} mathrm{d}x)為配平常數.

若令(C(x) = log h (x)), (A( heta) = log Z( heta)), 則

[f_{ heta}(x) = exp (langle T(x), heta

angle - A( heta) + C(x)).

]

指數族分布還有一種更一般的形式:

[f_{ heta}(x) = exp (frac{langle T(x), heta

angle - A( heta)}{phi} + C(x, phi)),

]

更甚者

[f_{ heta}(x) = exp (frac{langle T(x), lambda( heta)

angle - A( heta)}{phi} + C(x, phi)),

]

(phi)控制分布的形狀.

性質

(A( heta))

Proposition 1:

[

abla_{ heta}A( heta) = int f_{ heta}(x) T(x) mathrm{d}x = mathbb{E}[T(X)].

]

proof:

已知:

[int f_{ heta}(x) mathrm{d}x =

int exp (frac{langle T(x), heta

angle - A( heta)}{phi} + C(x, phi)) mathrm{d}x = 1.

]

兩邊關于( heta)求梯度得:

[int f_{ heta}(x) frac{T(x) -

abla_{ heta} A( heta)}{phi} mathrm{d}x = 0 Rightarrow

abla_{ heta} A( heta) = mathbb{E}[T(X)].

]

Proposition 2:

[D^2_{ heta} A = (frac{partial^2 A}{partial heta_i partial heta_j}) = frac{1}{phi}mathrm{Cov}(T(X), T(X)) = frac{1}{phi}Cov(T(X)).

]

proof:

[frac{partial A}{partial heta_i} =

int exp (frac{langle T(x), heta

angle - A( heta)}{phi} + C(x, phi)) T_i(x) mathrm{d}x.

]

[egin{array}{ll}

frac{partial^2 A}{partial heta_i partial heta_j}

&= int f_{ heta}(x) frac{T_j (x) - frac{partial A}{partial heta_j}}{phi} T_i(x) mathrm{d}x \

&= frac{1}{phi}int f_{ heta}(x) (T_j(x) - frac{partial A}{partial heta_j}) (T_i(x) - frac{partial A}{partial heta_i})mathrm{d}x \

&= mathrm{Cov}(T_i(X), T_j(X)).

end{array}

]

Corollary 1: (A({ heta}))關于( heta)是凸函數.

既然其黑塞矩陣半正定.

極大似然估計

設有({x^i}_{i=1}^n)個樣本, 則對數似然函數為

[l( heta) = frac{1}{ heta}[langle heta, sum_{i=1}^n T(x^i)-nA( heta)] + sum_{i=1}^n C(x^i, phi),

]

因為(A( heta))是凸函數, 是以上述存在最小值點, 且

[

abla_{ heta} l( heta) = frac{1}{phi}[sum_{i=1}^n T(x^i) - n

abla_{ heta}A( heta)],

]

故該最小值點在

[

abla_{ heta}A( heta) = frac{1}{n} sum_{i=1}^n T(x^i),

]

處達到.

最大熵

最大熵原理-科學空間

指數族分布實際上滿足最大熵分布, 這是在沒有任何偏愛的尺度下的分布.

[max_{f} quad H(f) = -int f(x)log f(x) mathrm{d} x.

]

等價于最小化

[min_f int f(x)log f(x) mathrm{d}x.

]

往往, 我們會有一些已知的統計資訊, 通常以期望的形式表示:

[int f(x) h_i(x) mathrm{d}x = c_i, quad i=1,2cdots, s.

]

則我們的目标實際上是:

[min_f quad int f(x)log f(x) mathrm{d}x \

mathrm{s.t.} quad int f(x) h_i(x) mathrm{d}x = c_i, quad i=0,2cdots, s.

]

其中(h_0 = 1, c_0 =1), 即密度函數需滿足(int f(x) mathrm{d} x= 1).

利用拉格朗日乘數得:

[J(f,lambda) = int f(x)log f(x) mathrm{d}x + lambda_0 (1 - int f(x) mathrm{d}x) + sum_{i=1}^s lambda_i [c_i - int f(x) h_i(x) mathrm{d}x] .

]

最優條件, (J)關于(f)的變分為0, 即

[1 + log f(x) - lambda_0 - sum_{i=1}^s lambda_i h_i(x) = 0.

]

[f(x) = frac{1}{Z} exp(sum_{i=1}^s lambda_i h_i(x)).

]

屬于指數分布族.

例子

Bernoulli

[P(x) = p^x (1-p)^{1-x} = exp[xlogfrac{p}{1-p} + log (1 - p)].

]

[ heta = log frac{p}{1-p}, \

T(x) = x, \

A( heta) = log (1 + e^{ heta}),\

h(x) = 0.

]

指數分布

[p(x) = lambda cdot e^{-lambda x}=exp[-lambda x +log lambda ], quad x ge 0.

]

[ heta = lambda,\

T(x) =-x, \

A( heta) = log frac{1}{lambda}, \

h(x) = mathbb{I}(xge0).

]

正态分布

[p(x) = frac{1}{sqrt{2pi sigma^2}} exp [-frac{(x-mu)^2}{2sigma^2}].

]

(sigma)視作已知參數:

[p(x) = exp [frac{-frac{1}{2}x^2 + xmu - frac{1}{2}mu^2}{sigma^2} - frac{1}{2}log (2pi sigma^2)].

]

[ heta = (mu, 1), \

T(x) = (x, -frac{1}{2}x^2), \

phi = sigma^2, \

A( heta) = frac{1}{2}mu^2, \

C(x, phi) = frac{1}{2} log (2pi sigma^2).

]

(sigma)視作未知參數:

[p(x) = exp [-frac{1}{2sigma^2}y^2 + frac{mu}{sigma^2}x - frac{1}{2sigma^2}mu^2 - log sigma - frac{1}{2}log 2pi].

]

[T(x) = (x, frac{1}{2}x^2), \

heta = (frac{mu}{sigma^2}, -frac{1}{sigma^2}), \

A( heta) = frac{mu^2}{2sigma^2} + logsigma, \

C(x) = -frac{1}{2}log(2pi).

]