機率論08 随機變量的函數

作者：Vamei 出處：http://www.cnblogs.com/vamei 歡迎轉載，也請保留這段聲明。謝謝！

在前面的文章中，我先将機率值配置設定給各個事件，得到事件的機率分布。

通過事件與随機變量的映射，讓事件“數值化”，事件的機率值轉移到随機變量上，獲得随機變量的機率分布。

我們使用随機變量的函數，來定制新的随機變量。随機變量的函數是從舊有的随機變量到一個新随機變量的映射。通過函數的映射功能，原有随機變量對應新的随機變量。通過原有随機變量的機率分布，我們可以獲知新随機變量的機率分布。事件，随機變量，随機變量函數的關系如下:

一個簡單的例子是擲硬币。出現正面的話，我赢1個籌碼，負面的話，我輸1個籌碼。那麼，投擲一次，赢的籌碼數是一個随機變量X，X可能取值為1和-1。是以X的分布為:

$$P(1) = 0.5$$

$$P(-1) = 0.5$$

換一個角度來思考，我們将正負面“換算”成輸赢的錢。如果一個籌碼需要10元錢買，那麼投擲一次硬币，赢的錢是一個随機變量Y，且[$ Y = 10X $]。Y的分布為:

$$P(10) = 0.5$$

$$P(-10) = 0.5$$

Y實際上是随機變量X的一個函數。X的1對應Y的10，X的-1對應Y的-10。即[$Y = 10X $]

小總結，在上面的實驗中，硬币為正面為一個事件。赢得的籌碼數為一個随機變量X。赢得的錢是X的函數Y，它也是一個随機變量。

随機變量的函數還可以是多變量函數，[$Y = g(X_1, X_2, ..., X_n)$]。Y的值y對應的是多元空間的點[$(x_1, x_2,..., x_n)$]。比如擲硬币，第一次赢的籌碼為[$X_1$]，第二次赢的籌碼為[$X_2$]。我們可以構成一個新的随機變量[$Y = X_1 + X_2$]，即兩次赢得的籌碼的總和。

一個核心問題是，如何通過X的機率分布，來獲得[$Y=g(X)$]的機率分布。基本的思路是，如果我們想知道Y取某個值y的機率，可以找到對應的X值x的機率。這兩個機率相等。

是以，我們使用如下方法來獲得Y的機率。如果有函數關系[$Y=g(X_1, X_2, ..., X_n)$]，獲得Y分布的基本方法是:

1. 通過[$Y=g(X_1, X_2, ..., X_n)$]，找到對應[$\{ Y \le y \}$]的[$(x_1, x_2, ..., x_n)$]區間I。

2. 在區間I上，積分[$ f(x_1, x_2, ..., x_n) $]，獲得[$ P(Y \le y) $]

3. 通過微分，獲得密度函數。

如果有函數關系[$ Y = X^2 $]，而X滿足下面的分布:

$$f(x) = \frac{1}{\sqrt{2\pi}}e^{-x^2/2}$$

對于任意[$y \ge 0$]來說，

$$F(y) = P(Y \le y) = P(X^2 \le y) = P(-\sqrt{y} \le X \le \sqrt{y}) $$

$$F(y) = \int_{-\sqrt{y}}^{\sqrt{y}}\frac{1}{\sqrt{2\pi}}e^{-x^2/2}dx = 2 \int_{0}^{\sqrt{y}}\frac{1}{\sqrt{2\pi}}e^{-x^2/2}dx$$

對上面的F(y)微分，即獲得密度函數

$$f(y) = \frac{1}{\sqrt{2\pi}}y^{-1/2}e^{-y/2}, 0 \le y \le \infty$$

繪制密度函數

上面的例子展示的是單變量函數，我們看一個多變量函數的例子。即[$ Y=g(X_1, X_2, ..., X_n) $]，且已知[$X_1, X_2, ..., X_n$]的聯合分布為[$f(x_1, x_2, ..., x_n)$]。我們需要找到滿足[$ g(x_1, x_2, ..., x_n) \le y $]的區間。

比如，[$ Y = X_1 + X_2 $]，且[$X_1, X_2$]滿足如下分布:

$$f(x_1, x_2) = \frac{1}{2 \pi} \exp \left( -\frac{1}{2} \left( x_1^2 + x_2^2 \right) \right)$$

為了讓[$x_1 + x_2 \le y$]，我們可以讓[$x_1$]任意取值，而讓[$x_2 \le y - x_1$]

$$F_Y(y) = \int_{-\infty}^{\infty} \int_{-\infty}^{y - x_1} f(x_1, x_2) dx_2dx_1 $$

讓x_2 = v - x_1，有

$$F_Y(y) = \int_{-\infty}^{\infty} \int_{-\infty}^{y} f(x_1, v - x_1)dvdx_1 = \int_{-\infty}^{y} \int_{-\infty}^{\infty}f(x_1, v - x_1)dvdx_1$$

微分，可得y的分布為:

$$ f_Y(y) = \int_{-\infty}^{\infty} f(x_1, y - x_1) dx_1 = \int_{-\infty}^{\infty} \frac{1}{2 \pi} \exp \left( -\frac{1}{2} \left( x_1^2 + (y - x_1)^2 \right) \right) dx_1 $$

上述方程也可以使用數值方法求解:

代碼如下:

上面的int_core()函數是一個閉包，它表示積分核部分。density()函數用于求某個y值下的積分結果。

(我們也可以利用解析的方法，推導出f(y)滿足分布[$N(0, \sqrt{2})$]。如果有微積分基礎，可以将此作為練習。)

上面求新的随機變量分布的步驟較為繁瑣。在一些特殊情況下，我們可以直接代入通用公式，來獲得新的分布。

(通用公式實際上是從基本方法推導出的數學表達式)

對于單變量函數來說，如果[$Y=g(X)$]，g是一個可微并且單調變化的函數 (在該條件，存在反函數[$g^{-1}$]，使得[$X=g^{-1}(Y))$]。那麼我們可以使用下面的通用公式，來獲得Y的分布:

$$f_Y(y) = f_X(g^{-1}(y)) \cdot \frac{d}{dy}g^{-1}(y)$$

假設X為标準分布，即[$N(0, 1)$]，且[$Y = 5X + 1$]，那麼[$g^{-1}(y) = (y - 1)/5$]，是以:

$$f_Y(y) = f_X((y-1)/5) \cdot (1/5) = \frac{1}{5\sqrt{2\pi}}e^{-(y-1)^2/(2 \times 25)}$$

可以看到，新的分布是一個[$\mu = 1, \sigma=5$]的正态分布，即[$N(1, 5)$]

并不是所有的函數都有反變換，是以這裡的“通用”公式并不能适用于所有的情況。

在一些特殊情況下，我們可以使用多變量函數的通用公式。

如果[$U=g_1(X, Y), V=g_2(X, Y)$]，且存在反變換，使得

$$X = h_1(U, V)$$

$$Y = h_2(U, V)$$

那麼，我們可以通過如下公式，從X,Y的分布獲得U,V的聯合分布:

$$f_{UV}(u, v) = f_{XY}(h_1(u, v), h_2(u, v))|J|$$

J表示雅可比變換(Jacobian tranformation)，表示如下

$$J = \left| \begin{array}{cc} \frac{\partial x}{\partial u} & \frac{\partial x}{\partial v} \\ \frac{\partial y}{\partial u} & \frac{\partial y}{\partial v} \end{array} \right| =\frac{\partial x}{\partial u}\frac{\partial y}{\partial v}-\frac{\partial x}{\partial v}\frac{\partial y}{\partial u} $$

如果X和Y是獨立的随機變量，且有相同的分布$$f(x) = e^{-x}, x \ge 0$$。如果[$U = X+Y, V= Y$]，求U和V的聯合分布。

由于X和Y獨立，是以

$$f_XY(x, y) = f(x)f(y) = e^{-x}e^{-y}$$

根據[$ U=X+Y $]，[$V= Y$]，可以得到[$ u \ge 0, v \ge 0$], 且有:

$$X = U - V$$

$$Y = V$$

是以

$$f(u, v) = e^{-(u-v)}e^{-v} = e^{-u}, u \ge 0, v \ge 0$$

通過随機變量的函數，我們可以利用已知随機變量，建立新的随機變量，并獲得其分布。

歡迎繼續閱讀“資料科學”系列文章

如果你喜歡這篇文章，歡迎推薦。

機率論08 随機變量的函數

繼續閱讀

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3建構hadoop項目

HDFS指令行工具

【51CTO學院三周年】自學路上的伴侶

線上教育巨頭多鄰國Duolingo入華一周年，中國市場馬力全開

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

Sql優化一：sql語句優化

Nacos 2.0 更新前後性能對比壓測

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

淺談企業活動中進行資料分析的重要性

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark