天天看点

数学基础之概率论(2)——随机变量及其分布

数学基础之概率论(2)——随机变量及其分布

1、随机变量

a. 定义:设 E E E是随机试验,它的样本空间是 S = { e } S=\{e\} S={e}。如果对于每一个 e ∈ S e\in S e∈S,有一个实数 X ( e ) X(e) X(e)与之对应,这样就得到一个定义在 S S S上的单值实值函数 X ( e ) X(e) X(e),称 X ( e ) X(e) X(e)为随机变量(随机变量常用 X , Y , Z X,Y,Z X,Y,Z 或 ξ , η \xi,\eta ξ,η 等来表示)。

定义说明:

( 1 ) (1) (1) 随机变量与普通的函数不同,由于随机变量是定义在样本空间上的,所以它的自变量不一定是实数;

( 2 ) (2) (2) 随机变量的取值具有一定的概率规律;

( 3 ) (3) (3) 随机事件被包含在随机变量这个概念里。

b. 分类:

( 1 ) (1) (1) 离散型:随机变量所取的可能值是有限多个或者无限可列个,叫做离散型随机变量

( 2 ) (2) (2) 连续型:随机变量所取的可能值可以连续地充满某个区间,叫做连续型随机变量

2、离散型随机变量的分布律

a. 定义:若随机变量 X X X取值 x 1 , x 2 , . . . , x n , . . . , x_{1},x_{2},...,x_{n},..., x1​,x2​,...,xn​,...,且取这些值的概率依次为 p 1 , p 2 , . . . , p n , . . . , p_{1},p_{2},...,p_{n},..., p1​,p2​,...,pn​,...,则称 P { X = x k } = p k , ( k = 1 , 2 , 3... ) P\{X=x_{k}\}=p_{k},(k=1,2,3...) P{X=xk​}=pk​,(k=1,2,3...)为 X X X的分布律。

可以表示为: X ∼ P { X = x k } = p k , ( k = 1 , 2 , 3 , . . . ) , X\sim P\{X=x_{k}\}=p_{k},(k=1,2,3,...), X∼P{X=xk​}=pk​,(k=1,2,3,...),

或者:

X X X x 1 x_{1} x1​ x 2 x_{2} x2​ . . . ... ... x k x_{k} xk​ . . . ... ...
P k P_{k} Pk​ p 1 p_{1} p1​ p 2 p_{2} p2​ . . . ... ... p k p_{k} pk​ . . . ... ...

b. 性质:

( 1 ) (1) (1) 非负性: p k ⩾ 0 , k = 1 , 2 , 3 , . . . ; p_{k}\geqslant 0,k=1,2,3,...; pk​⩾0,k=1,2,3,...;

( 2 ) (2) (2) 归一性: ∑ k ⩾ 1 p k = 1 \sum_{k\geqslant1}p_{k}=1 ∑k⩾1​pk​=1。

因此,对于离散型随机变量来说,概率分布律可以完全描述它的统计规律,即已知分布律,就可以求出各种概率。

P ( X ∈ ( a , b ) ) = ∑ x i ∈ ( a , b ) P ( X = x i ) P(X\in(a,b))=\sum_{x_{i}\in(a,b)}P(X=x_{i}) P(X∈(a,b))=∑xi​∈(a,b)​P(X=xi​)

c. 两点分布:设随机变量 X X X只可能取 0 0 0 与 1 1 1 两个值,它的分布律为:

X X X 0 0 0 1 1 1
p k p_{k} pk​ 1 − p 1-p 1−p p p p

则称 X X X服从(0-1)分布或者两点分布。由此,我们有了贝努利试验的概念:若试验 E E E只有两个结果,记为 A , A c A,A^{c} A,Ac。

d. 二项分布:

在了解二项分布的概念之前,我们先来看看根据贝努利试验而衍生出的 n n n重贝努利试验:独立(指某次试验事件 A A A发生与否与其他次试验事件 A A A发生与否互不影响)重复(指每次试验 P ( A ) P(A) P(A)恒定不变)地进行 n n n次贝努利试验。

下面我们来看二项概率公式:若 X X X表示 n n n重贝努利试验中事件 A A A发生的次数,则 X X X所有可能取得的值为 0 , 1 , 2 , . . . , n 0,1,2,...,n 0,1,2,...,n。当 X = k ( 0 ⩽ k ⩽ n ) X=k(0\leqslant k\leqslant n) X=k(0⩽k⩽n)时,即 A A A在 n n n次试验中发生了 k k k次。由于 A A A在 n n n次试验中发生 k k k次的方式共有 ( k n ) (_{k}^{n}) (kn​)种,且两两无关,所以概率为 ( k n ) p k ( 1 − p ) n − k → q = 1 − p ( k n ) p k q n − k (_{k}^{n})p^{k}(1-p)^{n-k}\xrightarrow{q=1-p}(_{k}^{n})p^{k}q^{n-k} (kn​)pk(1−p)n−kq=1−p

​(kn​)pkqn−k,得 X X X的分布律为

X X X 0 0 0 1 1 1 . . . ... ... k k k . . . ... ... n n n
p k p_{k} pk​ q n q^{n} qn ( 1 n ) p q n − 1 (_{1}^{n})pq^{n-1} (1n​)pqn−1 . . . ... ... ( k n ) p k q n − k (_{k}^{n})p^{k}q^{n-k} (kn​)pkqn−k . . . ... ... p n p^{n} pn

称这样的分布为二项分布。记为 X ∼ b ( n , p ) X\sim b(n,p) X∼b(n,p)。

实际上,二项分布 → n = 1 \xrightarrow{n=1} n=1

​ 两点分布。但是,二项分布也给我们带来了新面孔:二项分布 → n p → λ ( n → + ∞ ) \xrightarrow{np\rightarrow \lambda(n\rightarrow+\infty)} np→λ(n→+∞)

​ 泊松分布( λ \lambda λ指一个定值)。

e. 泊松分布:设随机变量所有可能取的值为 0 , 1 , 2 , . . . , 0,1,2,..., 0,1,2,...,而取各个值的概率为 P { X = k } = λ k e − λ k ! , k = 0 , 1 , 2 , . . . , P\{X=k\}=\frac{\lambda^{k}e^{-\lambda}}{k!},k=0,1,2,..., P{X=k}=k!λke−λ​,k=0,1,2,...,其中 λ > 0 \lambda>0 λ>0是常数。则称 X X X服从参数为 λ \lambda λ的泊松分布,记为 X ∼ π ( λ ) X\sim \pi(\lambda) X∼π(λ)。(泊松分布多见于用随机变量 X X X表示在一定的时间或空间内出现的事件个数的场合)上面二项分布和泊松分布的转化,一般满足 n > 10 , p < 0.1 n>10,p<0.1 n>10,p<0.1就可以了。我们来简单看看证明的计算过程:

已知: X ∼ b ( n , p ) X\sim b(n,p) X∼b(n,p) 且 n p → λ ( n → + ∞ ) np\rightarrow\lambda(n\rightarrow+\infty) np→λ(n→+∞),则

P { X = k } P\{X=k\} P{X=k}

= ( n − 1 ) ( n − 2 ) ⋅ ⋅ ⋅ ( n − k + 1 ) × ( n − k ) ! × ( p n 1 − p n ) k ( 1 − p n ) n k ! ( n − k ) ! =\frac{(n-1)(n-2)···(n-k+1)\times(n-k)!\times(\frac{p_{n}}{1-p_{n}})^{k}(1-p_{n})^{n}}{k!(n-k)!} =k!(n−k)!(n−1)(n−2)⋅⋅⋅(n−k+1)×(n−k)!×(1−pn​pn​​)k(1−pn​)n​

≈ ( n p n 1 − p n ) k ( 1 − n p n n ) n k ! → λ k e − λ k ! \approx\frac{(\frac{np_{n}}{1-p_{n}})^{k}(1-\frac{np_{n}}{n})^{n}}{k!}\rightarrow\frac{\lambda^{k}e^{-\lambda}}{k!} ≈k!(1−pn​npn​​)k(1−nnpn​​)n​→k!λke−λ​

3、分布函数

a. 定义:设 X X X是随机变量, x x x是任意实数,函数 F ( x ) = P { X ⩽ x } F(x)=P\{X\leqslant x\} F(x)=P{X⩽x}称为随机变量 X X X的分布函数。易知,对任意实数 a , b a,b a,b ( a < b ) , P { a < X ⩽ b } = P { X ⩽ b } − P { X ⩽ a } = F ( b ) − F ( a ) (a<b),P\{a<X\leqslant b\}=P\{X\leqslant b\}-P\{X\leqslant a\}=F(b)-F(a) (a<b),P{a<X⩽b}=P{X⩽b}−P{X⩽a}=F(b)−F(a)。

b. 性质:

( 1 ) (1) (1) 单调不减性:若 x 1 < x 2 x_{1}<x_{2} x1​<x2​,则 F ( x 1 ) ⩽ F ( x 2 ) F(x_{1})\leqslant F(x_{2}) F(x1​)⩽F(x2​);

( 2 ) (2) (2) 归一性:对任意实数 x , 0 ⩽ F ( x ) ⩽ 1 , x,0\leqslant F(x)\leqslant1, x,0⩽F(x)⩽1,且 F ( − ∞ ) = lim ⁡ x → − ∞ F ( x ) = 0 , F ( + ∞ ) = lim ⁡ x → + ∞ F ( x ) = 1 F(-\infty)=\lim_{x\to-\infty}F(x)=0,F(+\infty)=\lim_{x\to+\infty }F(x)=1 F(−∞)=limx→−∞​F(x)=0,F(+∞)=limx→+∞​F(x)=1;

( 3 ) (3) (3) 右连续性:对任意实数 x 0 , F ( x 0 + 0 ) = lim ⁡ x → x 0 + F ( x ) = F ( x 0 ) x_{0},F(x_{0}+0)=\lim_{x\to x_{0}^{+}}F(x)=F(x_{0}) x0​,F(x0​+0)=limx→x0+​​F(x)=F(x0​)

上述三个性质本身也是分布函数的充分必要性质。

c. 一般地,对离散型随机变量 X ∼ P { X = x k } = p k , k = 1 , 2 , 3 , . . . , X\sim P\{X=x_{k}\}=p_{k},k=1,2,3,..., X∼P{X=xk​}=pk​,k=1,2,3,...,其分布函数为 F ( x ) = P { X ⩽ x } = ∑ k : x k ⩽ x p k F(x)=P\{X\leqslant x\}=\sum_{k:x_{k}\leqslant x}p_{k} F(x)=P{X⩽x}=∑k:xk​⩽x​pk​。同时,离散型随机变量的分布函数是阶梯函数,其跳跃点对应离散型随机变量的可能取值点,跳跃高度对应随机变量取对应值的概率。反之,如果某随机变量的分布函数是阶梯函数,则该随机变量必为离散型。

d. 常用公式:

( 1 ) (1) (1) P { a < X ⩽ b } = F ( b ) − F ( a ) ; P\{a<X\leqslant b\}=F(b)-F(a); P{a<X⩽b}=F(b)−F(a);

( 2 ) (2) (2) P { X > a } = 1 − F ( a ) ; P\{X>a\}=1-F(a); P{X>a}=1−F(a);

( 3 ) (3) (3) P { X = a } = lim ⁡ x → a + F ( x ) − lim ⁡ x → a − F ( x ) = F ( a ) − F ( a − 0 ) ; P\{X=a\}=\lim_{x\to a^{+}}F(x)-\lim_{x\to a^{-}}F(x)=F(a)-F(a-0); P{X=a}=limx→a+​F(x)−limx→a−​F(x)=F(a)−F(a−0);

( 4 ) (4) (4) P { X < a } = F { a − 0 } P\{X<a\}=F\{a-0\} P{X<a}=F{a−0}。

4、连续型随机变量的概率密度

a. 定义:对于随机变量 X X X,若存在非负函数 f ( x ) , ( − ∞ < x < + ∞ ) f(x),(-\infty<x<+\infty) f(x),(−∞<x<+∞),使对于任意实数 x x x,都有 F ( x ) = P { X ⩽ x ) = ∫ − ∞ x f ( u ) d u F(x)=P\{X\leqslant x)=\int_{-\infty}^{x}f(u)du F(x)=P{X⩽x)=∫−∞x​f(u)du,则称 X X X为连续型随机变量, f ( x ) f(x) f(x)为 X X X的概率密度函数,简称概率密度或密度函数。常记为: X ∼ f ( x ) , ( − ∞ < x < + ∞ ) X\sim f(x),(-\infty<x<+\infty) X∼f(x),(−∞<x<+∞)。

b. 性质:

( 1 ) (1) (1) 非负性: f ( x ) ⩾ 0 , ( − ∞ < x < + ∞ ) f(x)\geqslant0,(-\infty<x<+\infty) f(x)⩾0,(−∞<x<+∞);

( 2 ) (2) (2) 归一性: ∫ − ∞ + ∞ f ( x ) d x = 1 \int_{-\infty}^{+\infty}f(x)dx=1 ∫−∞+∞​f(x)dx=1。

上述性质同时也是密度函数的充要性质

( 3 ) (3) (3) P { x 1 < X ⩽ x 2 } = F ( x 2 ) − F ( x 1 ) = ∫ x 1 x 1 f ( x ) d x P\{x_{1}<X\leqslant x_{2}\}=F(x_{2})-F(x_{1})=\int_{x_{1}}^{x_{1}}f(x)dx P{x1​<X⩽x2​}=F(x2​)−F(x1​)=∫x1​x1​​f(x)dx;

同时也有:

P { X ⩽ a } = F ( a ) = ∫ − ∞ a f ( x ) d x P\{X\leqslant a\}=F(a)=\int_{-\infty}^{a}f(x)dx P{X⩽a}=F(a)=∫−∞a​f(x)dx,

P { X > a } = 1 − P { X ⩽ a } = ∫ − ∞ + ∞ f ( x ) d x + ∫ a − ∞ f ( x ) d x = ∫ a + ∞ f ( x ) d x P\{X>a\}=1-P\{X\leqslant a\}=\int_{-\infty}^{+\infty}f(x)dx+\int_{a}^{-\infty}f(x)dx=\int_{a}^{+\infty}f(x)dx P{X>a}=1−P{X⩽a}=∫−∞+∞​f(x)dx+∫a−∞​f(x)dx=∫a+∞​f(x)dx。

注意,对于任意可能值 a a a,连续型随机变量取 a a a的概率等于 0 0 0,即 P { X = a } = 0 P\{X=a\}=0 P{X=a}=0,由此可得:

P { a ⩽ X ⩽ b } = P { a < X ⩽ b } = P { a ⩽ X < b } = P { a < X < b } P\{a\leqslant X\leqslant b\}=P\{a<X\leqslant b\}=P\{a\leqslant X<b\}=P\{a<X<b\} P{a⩽X⩽b}=P{a<X⩽b}=P{a⩽X<b}=P{a<X<b},即连续型随机变量取值落在某一区间的概率与区间的开闭无关。这里也引出了连续型与离散型的一个区别:

若 X X X为离散型随机变量 { X = a } \{X=a\} {X=a}是不可能事件 ⇔ \Leftrightarrow ⇔ P { X = a } = 0 P\{X=a\}=0 P{X=a}=0;然而,若 X X X是连续型随机变量, { X = a } \{X=a\} {X=a}是不可能事件 ⇒ \Rightarrow ⇒ P { X = a } = 0 P\{X=a\}=0 P{X=a}=0, P { X = a } = 0 P\{X=a\}=0 P{X=a}=0 ⇏ \nRightarrow ⇏ { X = a } \{X=a\} {X=a}是不可能事件。

( 4 ) (4) (4) 若 x x x是 f ( x ) f(x) f(x)的连续点,则 d F ( x ) d x = f ( x ) \frac{dF(x)}{dx}=f(x) dxdF(x)​=f(x)。

c. 均匀分布:若 X ∼ f ( x ) = { 1 b − a , a < x < b 0 , o t h e r s X\sim f(x)=\begin{cases}\frac{1}{b-a},a<x<b\\\\0,others\end{cases} X∼f(x)=⎩⎪⎨⎪⎧​b−a1​,a<x<b0,others​,则称 X X X在 ( a , b ) (a,b) (a,b)内服从均匀分布。记为 X ∼ U ( a , b ) X\sim U(a, b) X∼U(a,b)。对于任意实数 c , d ( a < c < d < b ) c,d(a<c<d<b) c,d(a<c<d<b),都有 P { c < X < d } = ∫ c d f ( x ) d x = ∫ c d 1 b − a d x = d − c b − a P\{c<X<d\}=\int_{c}^{d}f(x)dx=\int_{c}^{d}\frac{1}{b-a}dx=\frac{d-c}{b-a} P{c<X<d}=∫cd​f(x)dx=∫cd​b−a1​dx=b−ad−c​,这说明 X X X落在 ( a , b ) (a,b) (a,b)中任一区间的概率只与该区间的长度成正比,而与该区间的位置无关,这就是均匀分布的概率意义。分布函数为: F ( x ) = { 0 ,    x < a x − a b − a ,    a ⩽ x < b 1 ,    x ⩾ b F(x)=\begin{cases}0,\space\space x<a\\\\\frac{x-a}{b-a},\space \space a\leqslant x<b\\\\1,\space\space x\geqslant b\end{cases} F(x)=⎩⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎧​0,  x<ab−ax−a​,  a⩽x<b1,  x⩾b​ 。

d. 指数分布:若 X ∼ f ( x ) = { λ e − λ x ,    x > 0 0 ,    x ⩽ 0 X\sim f(x)=\begin{cases}\lambda e^{-\lambda x},\space\space x>0\\\\0,\space\space x\leqslant0\end{cases} X∼f(x)=⎩⎪⎨⎪⎧​λe−λx,  x>00,  x⩽0​,则称 X X X服从参数为 λ > 0 \lambda>0 λ>0的指数分布。分布函数为: F ( x ) = { 1 − e − λ x ,    x > 0 0 ,    x ⩽ 0 F(x)=\begin{cases}1-e^{-\lambda x},\space\space x>0\\\\0,\space\space x\leqslant0\end{cases} F(x)=⎩⎪⎨⎪⎧​1−e−λx,  x>00,  x⩽0​。注意,指数分布具有“无记忆性”: P { X > s + t ∣ X > s } = P { X > t } P\{X>s+t|X>s\}=P\{X>t\} P{X>s+t∣X>s}=P{X>t}。

e. 正态分布/高斯分布:

定义:设连续型随机变量 X X X的概率密度为 f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 , − ∞ < x < + ∞ f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^{2}}{2\sigma^{2}}},-\infty<x<+\infty f(x)=2π

​σ1​e−2σ2(x−μ)2​,−∞<x<+∞,其中 μ , σ ( σ > 0 ) \mu,\sigma(\sigma>0) μ,σ(σ>0)为常数,则称 X X X服从参数为 μ , σ \mu,\sigma μ,σ的正态分布或高斯分布,记为 X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^{2}) X∼N(μ,σ2)。

正态概率密度函数的几何特征:

( 1 ) (1) (1) 曲线关于 x = μ x=\mu x=μ对称;

( 2 ) (2) (2) 当 x = μ x=\mu x=μ时, f ( x ) f(x) f(x)取得最大值 1 2 π σ \frac{1}{\sqrt{2\pi}\sigma} 2π

​σ1​;

( 3 ) (3) (3) 当 x → ± ∞ x\to\pm\infty x→±∞时, f ( x ) → 0 f(x)\to0 f(x)→0;

( 4 ) (4) (4) 曲线在 x = μ ± σ x=\mu\pm\sigma x=μ±σ处有拐点;

( 5 ) (5) (5) 曲线以 x x x轴为渐近线;

( 6 ) (6) (6) 当固定 σ \sigma σ,改变 μ \mu μ的大小时, f ( x ) f(x) f(x)图形的形状不变,只是沿着 x x x轴作平移变换;

( 7 ) (7) (7) 当固定 μ \mu μ,改变 σ \sigma σ的大小时, f ( x ) f(x) f(x)图形的对称轴不变,而形状在改变, σ \sigma σ越小,图形越陡。

分布函数为: F ( x ) = 1 2 π σ ∫ − ∞ x e − ( t − μ ) 2 2 σ 2 d t F(x)=\frac{1}{\sqrt{2\pi}\sigma}\int_{-\infty}^{x}e^{-\frac{(t-\mu)^{2}}{2\sigma^{2}}}dt F(x)=2π

​σ1​∫−∞x​e−2σ2(t−μ)2​dt。

标准正态分布:参数 μ = 0 , σ 2 = 1 \mu=0,\sigma^{2}=1 μ=0,σ2=1的正态分布,记为 X ∼ N ( 0 , 1 ) X\sim N(0,1) X∼N(0,1)。其密度函数为 φ ( x ) = 1 2 π e − x 2 2 , − ∞ < x < + ∞ \varphi(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^{2}}{2}},-\infty<x<+\infty φ(x)=2π

​1​e−2x2​,−∞<x<+∞,分布函数为 Φ ( x ) = P { X ⩽ x } = 1 2 π ∫ − ∞ x e − t 2 2 d t , − ∞ < x < + ∞ \Phi(x)=P\{X\leqslant x\}=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{x}e^{-\frac{t^{2}}{2}}dt,-\infty<x<+\infty Φ(x)=P{X⩽x}=2π

​1​∫−∞x​e−2t2​dt,−∞<x<+∞。注意,在计算 Φ ( x ) \Phi(x) Φ(x)值时,一般需要结合标准正态分布表和以下性质:

( 1 ) (1) (1) Φ ( x ) = 1 − Φ ( − x ) \Phi(x)=1-\Phi(-x) Φ(x)=1−Φ(−x);

( 2 ) (2) (2) 若 X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^{2}) X∼N(μ,σ2),则 F ( x ) = P { X ⩽ x } = Φ ( x − μ σ ) F(x)=P\{X\leqslant x\}=\Phi(\frac{x-\mu}{\sigma}) F(x)=P{X⩽x}=Φ(σx−μ​)。

5、离散型随机变量函数的分布律

a. 定义:设 f ( x ) f(x) f(x)是定义在随机变量 X X X的一切可能值 x x x的集合上的函数,若随机变量 Y Y Y随着 X X X取值 x x x的值而取 y = f ( x ) y=f(x) y=f(x)的值,则称随机变量 Y Y Y为随机变量 X X X的函数,记为 Y = f ( X ) Y=f(X) Y=f(X)。

b. 求法:如果 X X X是离散型随机变量,其函数 Y = g ( X ) Y=g(X) Y=g(X)也是离散型随机变量,若 X X X的分布律为

X X X x 1 x_{1} x1​ x 2 x_{2} x2​ . . . ... ... x k x_{k} xk​ . . . ... ...
p k p_{k} pk​ p 1 p_{1} p1​ p 2 p_{2} p2​ . . . ... ... p k p_{k} pk​ . . . ... ...

则 Y = g ( X ) Y=g(X) Y=g(X)的分布律为

Y = g ( X ) Y=g(X) Y=g(X) g ( x 1 ) g(x_{1}) g(x1​) g ( x 2 ) g(x_{2}) g(x2​) . . . ... ... g ( x k ) g(x_{k}) g(xk​) . . . ... ...
p k p_{k} pk​ p 1 p_{1} p1​ p 2 p_{2} p2​ . . . ... ... p k p_{k} pk​ . . . ... ...

若 g ( x k ) g(x_{k}) g(xk​)中有值相同的,将他们对应的 p k p_{k} pk​合并。

6、连续型随机变量函数的密度函数

a. 定义:设 f ( x ) f(x) f(x)是定义在随机变量 X X X的一切可能值 x x x的集合上的函数,若随机变量 Y Y Y随着 X X X取值 x x x的值而取 y = f ( x ) y=f(x) y=f(x)的值,则称随机变量 Y Y Y为随机变量 X X X的函数,记为 Y = f ( X ) Y=f(X) Y=f(X)。

b. 求法:

( 1 ) (1) (1) 若 X ∼ f ( x ) , − ∞ < x < + ∞ , Y = g ( X ) X\sim f(x),-\infty<x<+\infty,Y=g(X) X∼f(x),−∞<x<+∞,Y=g(X)为随机变量 X X X的函数,则可先求 Y Y Y的分布函数 F Y ( y ) = P { Y ⩽ y } = P { g ( X ) ⩽ y } = ∫ g ( X ) ⩽ y f ( x ) d x F_{Y}(y)=P\{Y\leqslant y\}=P\{g(X)\leqslant y\}=\int_{g(X)\leqslant y}f(x)dx FY​(y)=P{Y⩽y}=P{g(X)⩽y}=∫g(X)⩽y​f(x)dx,再求 Y Y Y的密度函数 f Y ( y ) = d F Y ( y ) d y f_{Y}(y)=\frac{dF_{Y}(y)}{dy} fY​(y)=dydFY​(y)​。

( 2 ) (2) (2) 公式法:一般地,若 X ∼ f X ( x ) , Y = g ( X ) X\sim f_{X}(x),Y=g(X) X∼fX​(x),Y=g(X)是严格单调可导函数,则 Y = g ( X ) ∼ f Y ( y ) = f X [ g − 1 ( y ) ] ∣ d d y g − 1 ( y ) ∣ Y=g(X)\sim f_{Y}(y)=f_{X}[g^{-1}(y)]|\frac{d}{dy}g^{-1}(y)| Y=g(X)∼fY​(y)=fX​[g−1(y)]∣dyd​g−1(y)∣。注意定义域的选取。