数学基础之概率论（2）——随机变量及其分布

1、随机变量

a. 定义：设 E E E是随机试验，它的样本空间是 S = { e } S=\{e\} S={e}。如果对于每一个 e ∈ S e\in S e∈S，有一个实数 X ( e ) X(e) X(e)与之对应，这样就得到一个定义在 S S S上的单值实值函数 X ( e ) X(e) X(e)，称 X ( e ) X(e) X(e)为随机变量（随机变量常用 X , Y , Z X,Y,Z X,Y,Z 或 ξ , η \xi,\eta ξ,η 等来表示）。

定义说明：

( 1 ) (1) (1) 随机变量与普通的函数不同，由于随机变量是定义在样本空间上的，所以它的自变量不一定是实数；

( 2 ) (2) (2) 随机变量的取值具有一定的概率规律；

( 3 ) (3) (3) 随机事件被包含在随机变量这个概念里。

b. 分类：

( 1 ) (1) (1) 离散型：随机变量所取的可能值是有限多个或者无限可列个，叫做离散型随机变量

( 2 ) (2) (2) 连续型：随机变量所取的可能值可以连续地充满某个区间，叫做连续型随机变量

2、离散型随机变量的分布律

a. 定义：若随机变量 X X X取值 x 1 , x 2 , . . . , x n , . . . , x_{1},x_{2},...,x_{n},..., x1,x2,...,xn,...,且取这些值的概率依次为 p 1 , p 2 , . . . , p n , . . . , p_{1},p_{2},...,p_{n},..., p1,p2,...,pn,...,则称 P { X = x k } = p k , ( k = 1 , 2 , 3... ) P\{X=x_{k}\}=p_{k},(k=1,2,3...) P{X=xk}=pk,(k=1,2,3...)为 X X X的分布律。

可以表示为： X ∼ P { X = x k } = p k , ( k = 1 , 2 , 3 , . . . ) , X\sim P\{X=x_{k}\}=p_{k},(k=1,2,3,...), X∼P{X=xk}=pk,(k=1,2,3,...),

或者：

X X X	x 1 x_{1} x1	x 2 x_{2} x2	. . . ... ...	x k x_{k} xk	. . . ... ...
P k P_{k} Pk	p 1 p_{1} p1	p 2 p_{2} p2	. . . ... ...	p k p_{k} pk	. . . ... ...

b. 性质：

( 1 ) (1) (1) 非负性： p k ⩾ 0 , k = 1 , 2 , 3 , . . . ; p_{k}\geqslant 0,k=1,2,3,...; pk⩾0,k=1,2,3,...;

( 2 ) (2) (2) 归一性： ∑ k ⩾ 1 p k = 1 \sum_{k\geqslant1}p_{k}=1 ∑k⩾1pk=1。

因此，对于离散型随机变量来说，概率分布律可以完全描述它的统计规律，即已知分布律，就可以求出各种概率。

P ( X ∈ ( a , b ) ) = ∑ x i ∈ ( a , b ) P ( X = x i ) P(X\in(a,b))=\sum_{x_{i}\in(a,b)}P(X=x_{i}) P(X∈(a,b))=∑xi∈(a,b)P(X=xi)

c. 两点分布：设随机变量 X X X只可能取 0 0 0 与 1 1 1 两个值，它的分布律为：

X X X	0 0 0	1 1 1
p k p_{k} pk	1 − p 1-p 1−p	p p p

则称 X X X服从（0-1）分布或者两点分布。由此，我们有了贝努利试验的概念：若试验 E E E只有两个结果，记为 A , A c A,A^{c} A,Ac。

d. 二项分布：

在了解二项分布的概念之前，我们先来看看根据贝努利试验而衍生出的 n n n重贝努利试验：独立（指某次试验事件 A A A发生与否与其他次试验事件 A A A发生与否互不影响）重复（指每次试验 P ( A ) P(A) P(A)恒定不变）地进行 n n n次贝努利试验。

下面我们来看二项概率公式：若 X X X表示 n n n重贝努利试验中事件 A A A发生的次数，则 X X X所有可能取得的值为 0 , 1 , 2 , . . . , n 0,1,2,...,n 0,1,2,...,n。当 X = k ( 0 ⩽ k ⩽ n ) X=k(0\leqslant k\leqslant n) X=k(0⩽k⩽n)时，即 A A A在 n n n次试验中发生了 k k k次。由于 A A A在 n n n次试验中发生 k k k次的方式共有 ( k n ) (_{k}^{n}) (kn)种，且两两无关，所以概率为 ( k n ) p k ( 1 − p ) n − k → q = 1 − p ( k n ) p k q n − k (_{k}^{n})p^{k}(1-p)^{n-k}\xrightarrow{q=1-p}(_{k}^{n})p^{k}q^{n-k} (kn)pk(1−p)n−kq=1−p

(kn)pkqn−k，得 X X X的分布律为

X X X	0 0 0	1 1 1	. . . ... ...	k k k	. . . ... ...	n n n
p k p_{k} pk	q n q^{n} qn	( 1 n ) p q n − 1 (_{1}^{n})pq^{n-1} (1n)pqn−1	. . . ... ...	( k n ) p k q n − k (_{k}^{n})p^{k}q^{n-k} (kn)pkqn−k	. . . ... ...	p n p^{n} pn

称这样的分布为二项分布。记为 X ∼ b ( n , p ) X\sim b(n,p) X∼b(n,p)。

实际上，二项分布 → n = 1 \xrightarrow{n=1} n=1

两点分布。但是，二项分布也给我们带来了新面孔：二项分布 → n p → λ ( n → + ∞ ) \xrightarrow{np\rightarrow \lambda(n\rightarrow+\infty)} np→λ(n→+∞)

泊松分布（ λ \lambda λ指一个定值）。

e. 泊松分布：设随机变量所有可能取的值为 0 , 1 , 2 , . . . , 0,1,2,..., 0,1,2,...,而取各个值的概率为 P { X = k } = λ k e − λ k ! , k = 0 , 1 , 2 , . . . , P\{X=k\}=\frac{\lambda^{k}e^{-\lambda}}{k!},k=0,1,2,..., P{X=k}=k!λke−λ,k=0,1,2,...,其中 λ > 0 \lambda>0 λ>0是常数。则称 X X X服从参数为 λ \lambda λ的泊松分布，记为 X ∼ π ( λ ) X\sim \pi(\lambda) X∼π(λ)。（泊松分布多见于用随机变量 X X X表示在一定的时间或空间内出现的事件个数的场合）上面二项分布和泊松分布的转化，一般满足 n > 10 , p < 0.1 n>10,p<0.1 n>10,p<0.1就可以了。我们来简单看看证明的计算过程：

已知： X ∼ b ( n , p ) X\sim b(n,p) X∼b(n,p) 且 n p → λ ( n → + ∞ ) np\rightarrow\lambda(n\rightarrow+\infty) np→λ(n→+∞)，则

P { X = k } P\{X=k\} P{X=k}

= ( n − 1 ) ( n − 2 ) ⋅ ⋅ ⋅ ( n − k + 1 ) × ( n − k ) ! × ( p n 1 − p n ) k ( 1 − p n ) n k ! ( n − k ) ! =\frac{(n-1)(n-2)···(n-k+1)\times(n-k)!\times(\frac{p_{n}}{1-p_{n}})^{k}(1-p_{n})^{n}}{k!(n-k)!} =k!(n−k)!(n−1)(n−2)⋅⋅⋅(n−k+1)×(n−k)!×(1−pnpn)k(1−pn)n

≈ ( n p n 1 − p n ) k ( 1 − n p n n ) n k ! → λ k e − λ k ! \approx\frac{(\frac{np_{n}}{1-p_{n}})^{k}(1-\frac{np_{n}}{n})^{n}}{k!}\rightarrow\frac{\lambda^{k}e^{-\lambda}}{k!} ≈k!(1−pnnpn)k(1−nnpn)n→k!λke−λ

3、分布函数

a. 定义：设 X X X是随机变量， x x x是任意实数，函数 F ( x ) = P { X ⩽ x } F(x)=P\{X\leqslant x\} F(x)=P{X⩽x}称为随机变量 X X X的分布函数。易知，对任意实数 a , b a,b a,b ( a < b ) , P { a < X ⩽ b } = P { X ⩽ b } − P { X ⩽ a } = F ( b ) − F ( a ) (a<b),P\{a<X\leqslant b\}=P\{X\leqslant b\}-P\{X\leqslant a\}=F(b)-F(a) (a<b),P{a<X⩽b}=P{X⩽b}−P{X⩽a}=F(b)−F(a)。

b. 性质：

( 1 ) (1) (1) 单调不减性：若 x 1 < x 2 x_{1}<x_{2} x1<x2，则 F ( x 1 ) ⩽ F ( x 2 ) F(x_{1})\leqslant F(x_{2}) F(x1)⩽F(x2)；

( 2 ) (2) (2) 归一性：对任意实数 x , 0 ⩽ F ( x ) ⩽ 1 , x,0\leqslant F(x)\leqslant1, x,0⩽F(x)⩽1,且 F ( − ∞ ) = lim ⁡ x → − ∞ F ( x ) = 0 , F ( + ∞ ) = lim ⁡ x → + ∞ F ( x ) = 1 F(-\infty)=\lim_{x\to-\infty}F(x)=0,F(+\infty)=\lim_{x\to+\infty }F(x)=1 F(−∞)=limx→−∞F(x)=0,F(+∞)=limx→+∞F(x)=1；

( 3 ) (3) (3) 右连续性：对任意实数 x 0 , F ( x 0 + 0 ) = lim ⁡ x → x 0 + F ( x ) = F ( x 0 ) x_{0},F(x_{0}+0)=\lim_{x\to x_{0}^{+}}F(x)=F(x_{0}) x0,F(x0+0)=limx→x0+F(x)=F(x0)

上述三个性质本身也是分布函数的充分必要性质。

c. 一般地，对离散型随机变量 X ∼ P { X = x k } = p k , k = 1 , 2 , 3 , . . . , X\sim P\{X=x_{k}\}=p_{k},k=1,2,3,..., X∼P{X=xk}=pk,k=1,2,3,...,其分布函数为 F ( x ) = P { X ⩽ x } = ∑ k : x k ⩽ x p k F(x)=P\{X\leqslant x\}=\sum_{k:x_{k}\leqslant x}p_{k} F(x)=P{X⩽x}=∑k:xk⩽xpk。同时，离散型随机变量的分布函数是阶梯函数，其跳跃点对应离散型随机变量的可能取值点，跳跃高度对应随机变量取对应值的概率。反之，如果某随机变量的分布函数是阶梯函数，则该随机变量必为离散型。

d. 常用公式：

( 1 ) (1) (1) P { a < X ⩽ b } = F ( b ) − F ( a ) ; P\{a<X\leqslant b\}=F(b)-F(a); P{a<X⩽b}=F(b)−F(a);

( 2 ) (2) (2) P { X > a } = 1 − F ( a ) ; P\{X>a\}=1-F(a); P{X>a}=1−F(a);

( 3 ) (3) (3) P { X = a } = lim ⁡ x → a + F ( x ) − lim ⁡ x → a − F ( x ) = F ( a ) − F ( a − 0 ) ; P\{X=a\}=\lim_{x\to a^{+}}F(x)-\lim_{x\to a^{-}}F(x)=F(a)-F(a-0); P{X=a}=limx→a+F(x)−limx→a−F(x)=F(a)−F(a−0);

( 4 ) (4) (4) P { X < a } = F { a − 0 } P\{X<a\}=F\{a-0\} P{X<a}=F{a−0}。

4、连续型随机变量的概率密度

a. 定义：对于随机变量 X X X，若存在非负函数 f ( x ) , ( − ∞ < x < + ∞ ) f(x),(-\infty<x<+\infty) f(x),(−∞<x<+∞)，使对于任意实数 x x x，都有 F ( x ) = P { X ⩽ x ) = ∫ − ∞ x f ( u ) d u F(x)=P\{X\leqslant x)=\int_{-\infty}^{x}f(u)du F(x)=P{X⩽x)=∫−∞xf(u)du，则称 X X X为连续型随机变量， f ( x ) f(x) f(x)为 X X X的概率密度函数，简称概率密度或密度函数。常记为： X ∼ f ( x ) , ( − ∞ < x < + ∞ ) X\sim f(x),(-\infty<x<+\infty) X∼f(x),(−∞<x<+∞)。

b. 性质：

( 1 ) (1) (1) 非负性： f ( x ) ⩾ 0 , ( − ∞ < x < + ∞ ) f(x)\geqslant0,(-\infty<x<+\infty) f(x)⩾0,(−∞<x<+∞)；

( 2 ) (2) (2) 归一性： ∫ − ∞ + ∞ f ( x ) d x = 1 \int_{-\infty}^{+\infty}f(x)dx=1 ∫−∞+∞f(x)dx=1。

上述性质同时也是密度函数的充要性质

( 3 ) (3) (3) P { x 1 < X ⩽ x 2 } = F ( x 2 ) − F ( x 1 ) = ∫ x 1 x 1 f ( x ) d x P\{x_{1}<X\leqslant x_{2}\}=F(x_{2})-F(x_{1})=\int_{x_{1}}^{x_{1}}f(x)dx P{x1<X⩽x2}=F(x2)−F(x1)=∫x1x1f(x)dx；

同时也有：

P { X ⩽ a } = F ( a ) = ∫ − ∞ a f ( x ) d x P\{X\leqslant a\}=F(a)=\int_{-\infty}^{a}f(x)dx P{X⩽a}=F(a)=∫−∞af(x)dx，

P { X > a } = 1 − P { X ⩽ a } = ∫ − ∞ + ∞ f ( x ) d x + ∫ a − ∞ f ( x ) d x = ∫ a + ∞ f ( x ) d x P\{X>a\}=1-P\{X\leqslant a\}=\int_{-\infty}^{+\infty}f(x)dx+\int_{a}^{-\infty}f(x)dx=\int_{a}^{+\infty}f(x)dx P{X>a}=1−P{X⩽a}=∫−∞+∞f(x)dx+∫a−∞f(x)dx=∫a+∞f(x)dx。

注意，对于任意可能值 a a a，连续型随机变量取 a a a的概率等于 0 0 0，即 P { X = a } = 0 P\{X=a\}=0 P{X=a}=0，由此可得：

P { a ⩽ X ⩽ b } = P { a < X ⩽ b } = P { a ⩽ X < b } = P { a < X < b } P\{a\leqslant X\leqslant b\}=P\{a<X\leqslant b\}=P\{a\leqslant X<b\}=P\{a<X<b\} P{a⩽X⩽b}=P{a<X⩽b}=P{a⩽X<b}=P{a<X<b}，即连续型随机变量取值落在某一区间的概率与区间的开闭无关。这里也引出了连续型与离散型的一个区别：

若 X X X为离散型随机变量 { X = a } \{X=a\} {X=a}是不可能事件 ⇔ \Leftrightarrow ⇔ P { X = a } = 0 P\{X=a\}=0 P{X=a}=0；然而，若 X X X是连续型随机变量， { X = a } \{X=a\} {X=a}是不可能事件 ⇒ \Rightarrow ⇒ P { X = a } = 0 P\{X=a\}=0 P{X=a}=0， P { X = a } = 0 P\{X=a\}=0 P{X=a}=0 ⇏ \nRightarrow ⇏ { X = a } \{X=a\} {X=a}是不可能事件。

( 4 ) (4) (4) 若 x x x是 f ( x ) f(x) f(x)的连续点，则 d F ( x ) d x = f ( x ) \frac{dF(x)}{dx}=f(x) dxdF(x)=f(x)。

c. 均匀分布：若 X ∼ f ( x ) = { 1 b − a , a < x < b 0 , o t h e r s X\sim f(x)=\begin{cases}\frac{1}{b-a},a<x<b\\\\0,others\end{cases} X∼f(x)=⎩⎪⎨⎪⎧b−a1,a<x<b0,others，则称 X X X在 ( a , b ) (a,b) (a,b)内服从均匀分布。记为 X ∼ U ( a , b ) X\sim U(a, b) X∼U(a,b)。对于任意实数 c , d ( a < c < d < b ) c,d(a<c<d<b) c,d(a<c<d<b)，都有 P { c < X < d } = ∫ c d f ( x ) d x = ∫ c d 1 b − a d x = d − c b − a P\{c<X<d\}=\int_{c}^{d}f(x)dx=\int_{c}^{d}\frac{1}{b-a}dx=\frac{d-c}{b-a} P{c<X<d}=∫cdf(x)dx=∫cdb−a1dx=b−ad−c，这说明 X X X落在 ( a , b ) (a,b) (a,b)中任一区间的概率只与该区间的长度成正比，而与该区间的位置无关，这就是均匀分布的概率意义。分布函数为： F ( x ) = { 0 , x < a x − a b − a , a ⩽ x < b 1 , x ⩾ b F(x)=\begin{cases}0,\space\space x<a\\\\\frac{x-a}{b-a},\space \space a\leqslant x<b\\\\1,\space\space x\geqslant b\end{cases} F(x)=⎩⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎧0, x<ab−ax−a, a⩽x<b1, x⩾b 。

d. 指数分布：若 X ∼ f ( x ) = { λ e − λ x , x > 0 0 , x ⩽ 0 X\sim f(x)=\begin{cases}\lambda e^{-\lambda x},\space\space x>0\\\\0,\space\space x\leqslant0\end{cases} X∼f(x)=⎩⎪⎨⎪⎧λe−λx, x>00, x⩽0，则称 X X X服从参数为 λ > 0 \lambda>0 λ>0的指数分布。分布函数为： F ( x ) = { 1 − e − λ x , x > 0 0 , x ⩽ 0 F(x)=\begin{cases}1-e^{-\lambda x},\space\space x>0\\\\0,\space\space x\leqslant0\end{cases} F(x)=⎩⎪⎨⎪⎧1−e−λx, x>00, x⩽0。注意，指数分布具有“无记忆性”： P { X > s + t ∣ X > s } = P { X > t } P\{X>s+t|X>s\}=P\{X>t\} P{X>s+t∣X>s}=P{X>t}。

e. 正态分布/高斯分布：

定义：设连续型随机变量 X X X的概率密度为 f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 , − ∞ < x < + ∞ f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^{2}}{2\sigma^{2}}},-\infty<x<+\infty f(x)=2π

σ1e−2σ2(x−μ)2,−∞<x<+∞，其中 μ , σ ( σ > 0 ) \mu,\sigma(\sigma>0) μ,σ(σ>0)为常数，则称 X X X服从参数为 μ , σ \mu,\sigma μ,σ的正态分布或高斯分布，记为 X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^{2}) X∼N(μ,σ2)。

正态概率密度函数的几何特征：

( 1 ) (1) (1) 曲线关于 x = μ x=\mu x=μ对称；

( 2 ) (2) (2) 当 x = μ x=\mu x=μ时， f ( x ) f(x) f(x)取得最大值 1 2 π σ \frac{1}{\sqrt{2\pi}\sigma} 2π

σ1；

( 3 ) (3) (3) 当 x → ± ∞ x\to\pm\infty x→±∞时， f ( x ) → 0 f(x)\to0 f(x)→0；

( 4 ) (4) (4) 曲线在 x = μ ± σ x=\mu\pm\sigma x=μ±σ处有拐点；

( 5 ) (5) (5) 曲线以 x x x轴为渐近线；

( 6 ) (6) (6) 当固定 σ \sigma σ，改变 μ \mu μ的大小时， f ( x ) f(x) f(x)图形的形状不变，只是沿着 x x x轴作平移变换；

( 7 ) (7) (7) 当固定 μ \mu μ，改变 σ \sigma σ的大小时， f ( x ) f(x) f(x)图形的对称轴不变，而形状在改变， σ \sigma σ越小，图形越陡。

分布函数为： F ( x ) = 1 2 π σ ∫ − ∞ x e − ( t − μ ) 2 2 σ 2 d t F(x)=\frac{1}{\sqrt{2\pi}\sigma}\int_{-\infty}^{x}e^{-\frac{(t-\mu)^{2}}{2\sigma^{2}}}dt F(x)=2π

σ1∫−∞xe−2σ2(t−μ)2dt。

标准正态分布：参数 μ = 0 , σ 2 = 1 \mu=0,\sigma^{2}=1 μ=0,σ2=1的正态分布，记为 X ∼ N ( 0 , 1 ) X\sim N(0,1) X∼N(0,1)。其密度函数为 φ ( x ) = 1 2 π e − x 2 2 , − ∞ < x < + ∞ \varphi(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^{2}}{2}},-\infty<x<+\infty φ(x)=2π

1e−2x2,−∞<x<+∞，分布函数为 Φ ( x ) = P { X ⩽ x } = 1 2 π ∫ − ∞ x e − t 2 2 d t , − ∞ < x < + ∞ \Phi(x)=P\{X\leqslant x\}=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{x}e^{-\frac{t^{2}}{2}}dt,-\infty<x<+\infty Φ(x)=P{X⩽x}=2π

1∫−∞xe−2t2dt,−∞<x<+∞。注意，在计算 Φ ( x ) \Phi(x) Φ(x)值时，一般需要结合标准正态分布表和以下性质：

( 1 ) (1) (1) Φ ( x ) = 1 − Φ ( − x ) \Phi(x)=1-\Phi(-x) Φ(x)=1−Φ(−x)；

( 2 ) (2) (2) 若 X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^{2}) X∼N(μ,σ2)，则 F ( x ) = P { X ⩽ x } = Φ ( x − μ σ ) F(x)=P\{X\leqslant x\}=\Phi(\frac{x-\mu}{\sigma}) F(x)=P{X⩽x}=Φ(σx−μ)。

5、离散型随机变量函数的分布律

a. 定义：设 f ( x ) f(x) f(x)是定义在随机变量 X X X的一切可能值 x x x的集合上的函数，若随机变量 Y Y Y随着 X X X取值 x x x的值而取 y = f ( x ) y=f(x) y=f(x)的值，则称随机变量 Y Y Y为随机变量 X X X的函数，记为 Y = f ( X ) Y=f(X) Y=f(X)。

b. 求法：如果 X X X是离散型随机变量，其函数 Y = g ( X ) Y=g(X) Y=g(X)也是离散型随机变量，若 X X X的分布律为

X X X	x 1 x_{1} x1	x 2 x_{2} x2	. . . ... ...	x k x_{k} xk	. . . ... ...
p k p_{k} pk	p 1 p_{1} p1	p 2 p_{2} p2	. . . ... ...	p k p_{k} pk	. . . ... ...

则 Y = g ( X ) Y=g(X) Y=g(X)的分布律为

Y = g ( X ) Y=g(X) Y=g(X)	g ( x 1 ) g(x_{1}) g(x1)	g ( x 2 ) g(x_{2}) g(x2)	. . . ... ...	g ( x k ) g(x_{k}) g(xk)	. . . ... ...
p k p_{k} pk	p 1 p_{1} p1	p 2 p_{2} p2	. . . ... ...	p k p_{k} pk	. . . ... ...

若 g ( x k ) g(x_{k}) g(xk)中有值相同的，将他们对应的 p k p_{k} pk合并。

6、连续型随机变量函数的密度函数

b. 求法：

( 1 ) (1) (1) 若 X ∼ f ( x ) , − ∞ < x < + ∞ , Y = g ( X ) X\sim f(x),-\infty<x<+\infty,Y=g(X) X∼f(x),−∞<x<+∞,Y=g(X)为随机变量 X X X的函数，则可先求 Y Y Y的分布函数 F Y ( y ) = P { Y ⩽ y } = P { g ( X ) ⩽ y } = ∫ g ( X ) ⩽ y f ( x ) d x F_{Y}(y)=P\{Y\leqslant y\}=P\{g(X)\leqslant y\}=\int_{g(X)\leqslant y}f(x)dx FY(y)=P{Y⩽y}=P{g(X)⩽y}=∫g(X)⩽yf(x)dx，再求 Y Y Y的密度函数 f Y ( y ) = d F Y ( y ) d y f_{Y}(y)=\frac{dF_{Y}(y)}{dy} fY(y)=dydFY(y)。

( 2 ) (2) (2) 公式法：一般地，若 X ∼ f X ( x ) , Y = g ( X ) X\sim f_{X}(x),Y=g(X) X∼fX(x),Y=g(X)是严格单调可导函数，则 Y = g ( X ) ∼ f Y ( y ) = f X [ g − 1 ( y ) ] ∣ d d y g − 1 ( y ) ∣ Y=g(X)\sim f_{Y}(y)=f_{X}[g^{-1}(y)]|\frac{d}{dy}g^{-1}(y)| Y=g(X)∼fY(y)=fX[g−1(y)]∣dydg−1(y)∣。注意定义域的选取。

数学基础之概率论（2）——随机变量及其分布

数学基础之概率论（2）——随机变量及其分布

继续阅读

AI学习笔记——强化学习之动态规划(Dynamic Programming)解决MDP(1)

AI学习笔记——强化学习之动态规划(Dynamic Programming)解决MDP(2)

中文代码示例之Programming in Scala学习笔记第二三章

中文代码示例之Programming in Scala笔记第四五六章

中文代码示例之Programming in Scala笔记第七八章

疑似bug_中文代码示例之Programming in Scala笔记第九十章

数学基础之概率论（3）——多维随机变量及其分布

数学基础之概率论（4）——随机变量的数字特征