《概率导论》学习笔记(持续更新中)
开始时间:2021/01/22
第一章 样本空间与概率
样本空间$\Omega$:这是一个试验的所有可能结果的集合.
概率律:概率律为试验结果的集合$A$(称为事件)确定一个非负数$P(A)$(称为事件$A$的概率).
概率律满足以下几条公理(概率公理):
(1)**(非负性)对一切事件$A$,满足$P(A)\geq 0$.
(2)(可加性)设$A$和$B$为两个互不相交的集合(概率论中称为互不相容的事件),则它们的并满足$P(A\cup B)=P(A)+P(B)$.
(3)(归一化)**整个样本空间$\Omega$(称为必然事件)的概率为1,即$P(\Omega)=1$.
由概率公理可导出处许多性质,下面为部分性质
概率论的若干性质:
考虑一个概率律,令$A、B、C$为事件.
(a)若$A\subset B$,则$P(A)\leq P(B)$.
(b)$P(A\cup B)=P(A)+P(B)-P(A\cap B)$.
©$P(A\cup B)\leq P(A)+P(B)$.
(d)$P(A\cup B\cup C)=P(A)+P(A^c\cap B)+P(A^c\cap B\cap C)$.
条件概率:给定的事件$B$发生了,另一个给定的事件$A$发生的概率,记为$P(A \mid B)=\frac{P(A\cap B)}{P(B)}$.
显然地,条件概率是一个概率律,其满足概率律的三条公理.
相关定理:
乘法法则:
假定所有涉及的条件概率都是正的,我们有:$$
P(\cap _{i=1}^n A_i)=
P(A_1)P(A_2 \mid A_1)P(A_3 \mid A_1\cap A_2)…P(A_n \mid \cap _{i=1}^{n-1} A_i)
$$
全概率定理:
设$A_1,A_2,…A_n$是一组互不相容的事件,形成样本空间的一个分割(每一个试验结果必定使得其中一个发生).又假定对每一个$i$,$P(A_i)>0$.则对于任何事件$B$,下列公式成立
$$
P(B)=P(A_1\cap B)+…+P(A_n\cap B)=P(A_1)P(B \mid A_1)+…+P(A_n)P(B \mid A_n).
$$
关于条件概率的全概率公式:
设$C_1,C_2,…C_n$是一组互不相容的事件,形成样本空间的一个分割(每一个试验结果必定使得其中一个发生).令A和B是两个事件,满足$P(B\cap C_i)>0$对一切$i$成立,则:
$$
P(A\mid B)=\sum_{i=1}^n P(C_i\cap B)+…+P(A\mid B\cap C_i)
$$
贝叶斯准则
设$A_1,A_2,…A_n$是一组互不相容的事件,形成样本空间的一个分割(每一个试验结果必定使得其中一个事件发生).又假定对每一个$i$,$P(A_i)>0.$则对于任何事件$B$,只要它满足$P(B)>0$,下列公式成立:
$$
P(A_i \mid B)=\frac{P(A_i)P(B \mid A_i)}{P(B)}
$$$$
=\frac{P(A_i)P(B \mid A_i)}{P(A_1)P(B \mid A_1)+…+P(A_n)P(B \mid A_n)}.
$$$=\frac{P(A_i)P(B \mid A_i)}{P(A_1)P(B \mid A_1)+…+P(A_n)P(B \mid A_n)}$.
独立性:
-
当等式$P(A\cap B)=P(A)P(B)$成立时,我们称$A$和$B$是相互独立的事件.
若$B$还满足$P(B)>0$,则独立性等价于$P(A \mid B)=P(A)$. -
$A$与$B$相互独立,则$A$与$B^c$也相互独立
-
设事件$C$满足$P©>0$,两个事件$A$和$B$称为给定$C$的条件下条件独立,如果它们满足$P(A\cap B \mid C)=P(A \mid C)P(B \mid C)$.
若进一步假定$P(B\cap C)>0$,则$A$和$B$在给定$C$的条件下的条件独立性和以下条件是等价的:$P(A \mid B\cap C)=P(A \mid C)$. -
独立性并不蕴含条件独立性,反之亦然.
-
几个事件的相互独立性的定义:
设$A_1,…A_n$为n个事件,
若它们满足
:
$$
P(\cup_{i\in S}A_i)=\prod_{i\in S}P(A_i)对{1,2,3…n}的任意子集S成立
$$
则称$A_1,…A_n$为相互独立的事件.
德摩根公式: $(A\cup B)^c=A^c\cap B^c,(A\cap B)^c=A^c\cup B^c$
邦费罗尼不等式(Bonferroni’s inequality):
$$
P(A\cap B)\geq P(A)+P(B)-1
$$
可推广到n个事件$A_1,A_2…A_n$的情况:
$$
P(A\cap B\cap…\cap A_n)\geq P(A)+P(B)+…+P(A_n)-(n-1)
$$
容斥原理:
设$A_1,A_2…A_n$为n个事件.记$S_1=\left{i\mid 1\geq i\geq n\right},S_2=\left{(i_1,i_2)\mid 1\leq i_1\leq i_2 < n\right}$…
$$
P(\cup_{k=1}^n)
=\sum_{i\in S_1}P(A_i)-\sum_{(i_1,i_2)\in S_2}P(A_{i_1}\cap A_{i_2})
+\sum_{(i_1,i_2,i_3)\in S_3}P(A_{i_1}\cap A_{i_2}\cap A_{i_3})
-…+(-1)^{n-1}P(\cap_{k=1}^n A_k)
$$
第二章 离散随机变量
与随机变量相关的主要概念
在一个试验的概率模型之下:
-
随机变量是试验结果的实值函数;
-
随机变量的函数定义了另一个随机函数;
-
对于一个随机变量,我们可以定义一些平均量,例如均值和方差;
-
可以在某事件或某随机变量的条件之下定义一个随机变量;
-
存在一个随机变量与某事件或某随机变量相互独立的概念;
与离散随机变量相关的主要概念
在一个试验的概率模型之下:
-
离散随机变量是试验结果的一个实值函数,但是它的取值范围只能是有限多个值或可数无限多个值;
-
一个离散随机变量有一个分布列,它对于随机变量的每一个取值,给出一个概率;
-
离散随机变量的函数也是一个离散随机变量,它的分布列可以从原随机变量的分布列得到.
一些分布列:
二项随机变量:将一枚硬币抛掷n次,每次抛掷,正面出现概率为p,反面出现的概率为1-p,而且每次抛掷是相互独立的.令X为n次抛掷得到正面的次数.我们称X为二项随机变量.
$$
P(X=k)=\binom{n}{k}p^k(1-p)^{n-k},k=0,1,…n.
$$
**几何随机变量:**在上述抛硬币试验中,令X为连续地抛掷一枚硬币,直到第一次正面所需要抛掷的次数.
$$
P(X=k)=(1-p)^{k-1}p,k=1,2…
$$
**泊松随机变量:**设随机变量X的分布列由下式给出:$$
P(X=k)=e^{-\lambda }\frac{\lambda ^k}{k!},k=0,1,2…
$$
期望:
设随机变量X的分布列为p{X},X的期望值(也称期望或均值)由下式给出:
$$
E[X]=\sum_{x} xp_{X}(x).
$$
方差:(记作$var(X)$)
随机变量$X$的方差由下列公式所定义:
$$
var(X)=E[(X-E[x])^2].
$$
并且可以用下式进行计算:
$$
var(X)=\sum_{x}(x-E[X])^2p_{X}(x)
$$
$$
var(X)=E[X^2]-(E[X])^2
$$
它是非负的,其平方根称为标准差
随机变量的线性函数的均值与方差:
设$X$为随机变量,令$Y=aX+b$,其中a和b为给定的常数,则
$$
E[Y]=aE[X]+b,var(Y)=a^2var(X)
$$
某些常用的随机变量的均值及方差:
伯努利随机变量:$E[X]=p$.$var(X)=p(1-p)$
泊松随机变量:$E[X]=\lambda$.$var(X)=\lambda$.
关于联合分布列:
设$X$和$Y$为在某个试验中的随机变量.
- $X$和$Y$的联合分布列$p_{X,Y}$由下式定义:
$$
p_{X,Y}(x,y)=P(X=x,Y=y)
$$
- $X$和$Y$的边缘分布列可由下式得到:
$$
p_{X}(x)=\sum_{y} p_{X,Y}(x,y) , p_{Y}(y)=\sum_{x} p_{X,Y}(x,y).
$$
- $X$和$Y$的函数$g(X,Y)$是一个随机变量,并且
$$
E[g(X,Y)]=\sum_x \sum_y g(x,y)p_{X,Y}(x,y)
$$
若g是线性的,且$g=aX+bY+x$,则
$$
E[aX+bY+c]=aE[X]+bE[Y]+c.
$$
.
- 上面的结论可以类似地自然地推广到两个以上的随机变量的情况.
关于条件分布列
设$X$和$Y$为某一试验中的两个随机变量.
-
条件分布列与之前所学的无条件分布列完全相似,其差别只是前者是在已知某事件发生的条件下的随机变量的分布列.、
-
设A为某事件,$P(A)>0$.随机变量X在给定A发生的条件下的条件分布列为:
$$
p_{X \mid A}(x)=P(X=x \mid A)
$$
并且满足
$$
\sum_{x}p_{X \mid A}(x)=1 .
$$
- 设$A_1,…,A_n$是一组互不相容的事件,并且形成样本空间的一个分割,进一步假定$p(A_i)>0$,则
$$
p_{X}(x)=\sum_{i=1}^{n}P(A_i)p_{X \mid A_i}(x)
$$
(这是全概率定理的一种特殊情况.)进一步假定事件B满足对一切$i$,$P(A_i\cap B)>0$.则
$$
p_{X \mid B}(x)=\sum_{i=1}^n P(A_i \mid b)p_{X \mid A_i \cap B}(x)
$$
- 给定$Y =y$ 的条件下 $X$ 的条件分布列与联合分布列之间有下列关系:
$$
p_{X, Y}(x, y)=p_{Y}(y) p_{X \mid Y}(x \mid y)
$$
- 给定 $Y$ 之下的 $X$ 的条件分布列可以通过以下公式计算 $X$ 的边缘分布列:
$$
p_{X}(x)=\sum_{y} p_{Y}(y) p_{X \mid Y}(x \mid y)
$$ - 同样地,上面的结论可以自然推广到两个以上的随机变量的情况.
关于条件期望:
设$X$ 和 $Y$ 为某一试验中的两个随机变量.
-
设A为某事件,$P(A)>0$.随机变量X在给定A发生的条件下的条件期望为
$$
E [X \mid A]=\sum_{\infty} x p_{X \mid A}(x)
$$
对于函数数 $g(X)$. 我们有
$$
E [g(X) \mid A]=\sum_{x} g(x) p_{X \mid A}(x)
$$ -
给定 $Y=y$ 的条件下 $X$ 的条件期望由下式定义
$$
E [X \mid Y=y]=\sum_{x} x p_{X \mid Y}(x \mid y)
$$ -
设$A_1,…,A_n$ 是互不相容的事件并且形成样本空间的一个分割.
假定$P(A_{i})>0 \text{ 对一切 } i$ 成立. 则
$$
E [X]=\sum_{i=1}^{n} P \left(A_{i}\right) E \left[X \mid A_{i}\right]
$$
进一步假定事件 $B$ 满足对一切 $i$, $P (A_{i} \cap B)>0,$ 则
$$
E [X \mid B]=\sum_{i=1}^{n} P \left(A_{ i } \mid B\right) E \left[X \mid A_{i} \cap B\right]
$$ -
我们有
$$
E [X]=\sum_{y} p_{Y}(y) E [X \mid Y=y]
$$
关于独立随机变量:
设在某一试验中,A是一个时间段,满足条件$P(A)>0$,又设X和Y是在同一试验中的两个随机变量.
- 称X为相对于事件A独立,如果满足
$$
p_{ X \mid A}(x)=p_{X}(x) \text { 对一切 } x \text { 成立 }
$$
即对一切x,事件${X=x}$与A相互独立.
- 称$X$和$Y$为相互独立的随机变量,如果对一切可能的数对(x,y),事件${X=x}$ 和 ${Y=y}$ 相互独立, 或等价地
$$
p_{X, Y}(x, y)=p_{X}(x) p_{Y}(y) \text { 对一切 } x \text { 和 } y \text { 成立 }
$$
- 若 $X$ 和 $Y$ 相互独立, 则
$$
E [X Y]= E [X] E [Y]
$$
进一步地,对于任意函数$g$和$h$,随机变量$g(X)$和$h(Y)$也是相互独立的,并且
$$
E [g(X) h(Y)]= E [g(X)] E [h(Y)]
$$ - 若 $X$ 和 $Y$ 相互独立, 则
$$
var(X+Y)=var(X)+var(Y)
$$
第三章 一般随机变量
关于概率密度函数(PDF):
对于随机变量X,若存在一个非负函数$f_X$,使得
$$
P(X\in B)=\int B f{X}(x)dx
$$
对每一个实数轴上的集合B都成立,则称X为连续的随机变量,函数$f_X$就称为X的概率密度函数,或简称PDF.
-
$f_{X}(x) \geq 0$ 对一切 $x$ 成立
-
归一化$ \int_{-\infty}^{\infty} f_{X}(x) d x=1 $
-
设 $ \delta $ 是一个充分小的正数, 则 $P ([x, x+ \delta ]) \approx f_{X}(x) \cdot \delta .$
注:由于$f_X(x)$是概率律而非某一事件的概率,故其可以取任意大的值,例如:
$$
f_{X}(x)=\left{\begin{array}{ll}\frac{1}{2\sqrt{x}}, \text{若}0<x\leq 1 \
0, \text { 其他 }
\end{array}\right.
$$
在$x$趋于0时,$f_X(x)$可以任意的大
连续随机变量的期望:
记$X$为连续随机变量,其相应的PDF为$f_{X}x$.
-
X的期望由下式定义:
$$
E[X]=\int_{-\infty}^{\infty} xf_{X}(x)dx.
$$ -
关于随机变量$g(X)$的期望规则为:
$$
E[g(X)]=\int_{-\infty}^{\infty} g(x)f_{X}(x) d x
$$ -
X的方差由下式给出:
$$
var(X)=E[(X-E[X])^2]=\int_{-\infty}^{\infty} (X-E[X])^2f_{X}(x) d x
$$ -
关于方差,下列公式成立:
$$
0\leq var(X)=E[X^2]-(E[X])^2.
$$ -
设$Y=aX+b$,其中a和b为常数,则
$$
E[Y]=aE[X]+b,var(Y)=a^2var(X)
$$
$分布函数(CDF)$ 的性质:
随机变量$X$的$CDF$ $F_X$由下式定义
$$
\text { 对每一个 } x, F_{X}(x)= P (X \leqslant x)
$$
并且 $F_{X}$ 具有下列性质._
- $F_{X}$ 是单调非减函数:
$$
\text { 若 } x \leqslant y, \quad \text { 则 } F_{X}(x) \leqslant F_{X}(y) .
$$
-
当 $x \rightarrow-\infty$ 的时侯, $F_{X}(x)$ 趋于 0 . 当 $x \rightarrow \infty$ 的时侯, $F_{X}(x)$ 趋于 1 .
-
当 $X$ 是离散随机变量的时候,$F_{X}(x)$为$x$的阶梯函数.
-
当 $X$ 是连续随机变量的时候,$F_{X}(x)$为$x$的连续函数.
-
当 $X$ 是离散随机变量并且取整数值的时,分布函数和分布列可以利用求和或差分互求:
$$
\begin{array}{c}
F_{X}(k)=\sum_{i=-\infty}^{k} p_{X}(i) \
p_X(k)=P(X \leqslant k)- P (X \leqslant k-1)=F_{X}(k)-F_{X}(k-1),
\end{array}
$$
其中 $k$ 可以是任意整数.
- 当$X$是连续随机变量的时候,分布函数和概率密度函数可以利用积分或微分互求:
$$
F_X(x)=\int ^x_{-\infty}f_{X}(t)dt,f_{X}(t)=\frac{dF_X}{dx}(x).
$$
(第二个等式只在分布函数可微的那些点上成立.)
正态随机变量:
一个连续随机变量X称为正态的或高斯的,若它的概率密度函数具有下列形式:
$$
f_{X}(x)=\frac{1}{\sqrt{2 \pi} \sigma} e ^{-(x-\mu)^{2} /\left(2 \sigma^{2}\right)}
$$
其中$\mu、\sigma$是概率密度的两个参数,其中$\sigma $还必须是正数.
其均值及方差:
$$
E [ X ]=\mu, \quad \operatorname{var}(X)=\sigma^{2}
$$
线性变换下($Y=aX+b$)随机变量的正态性保持不变.
其均值和方差由下式给出:
$$
E[Y]=a\mu+b,var(Y)=a^2{\sigma}^2
$$
多元连续随机变量性质:
令X和Y为联合连续随机变量,其联合概率密度函数为$f_{X,Y}$
- 利用联合概率密度函数可以进行概率计算:
$$
P ((X, Y) \in B)=\int_{(x, y) \in B} \int f_{X, Y}(x, y) d x d y
$$
- X和Y的边缘概率密度函数可利用联合概率密度函数进行计算得到:
$$
f_{X}(x)=\int_{-\infty}^{\infty} f_{(X, Y)}(x, y) d y, \quad f_{Y}(y)=\int_{-\infty}^{\infty} f_{(X, Y)}(x, y) d x
$$
- 联合分布函数由公式$F_{X,Y}(x,y)=P(X\leq x,Y\leq y)$定义,并且,在联合概率密度函数的连续点上,下面的公式成立:
$$
f_{X, Y}(x, y)=\frac{\partial^{2} F_{X, Y}}{\partial x \partial y}(x, y)
$$
- X和Y的函数$g(X,Y)$定义了一个新的随机变量,并且
$$
E [g(X, Y)]=\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} g(x, y) f_{X, Y}(x, y) d x d y
$$
- 若g是一个线性函数$aX+bY+c$,则
$$
E[a X+b Y+c]=a B[X]+b E[Y]+c
$$
- 上面的结论能够很自然地推广到多于两个随机变量的情况.
以事件为条件的条件概率密度函数:
- 对于给定的事件$A(P(A)>0)$,连续随机变量X的条件概率密度函数$f_{X|A}$是满足下列条件的函数:
$$
P (X \in B \mid A)=\left.\int_{B} f_{X}\right|{A}(x) d x
$$
其中 $B$ 是实数轴上的任意集合.
$$
f{X \mid{X \in A}}(x)=\left{\begin{array}{ll}
\frac{f_{X}(x)}{P(X \in A)}, & \text { 若 } x \in A, \
0, & \text { 其他. }
\end{array}\right.
$$
- 设$A_1,A_2,…,A_n$为互不相容的n个事件,对每个$i$,$P(A_i)>0$,并且这些事件形成样本空间的一个分割.则
$$
f_{X}(x)=\sum_{i=1}^{n} P\left(A_{i}\right) f_{X \mid A_{i}}(x)
$$
(全概率定理的一种变形).
以另一个随机变量为条件的条件概率密度函数:
设X和Y为联合连续随机变量,其联合概率密度函数为$f_{X,Y}$.
- X和Y的联合、边缘和条件概率密度函数是相互关联的.它们的关系用下面的公式表示:
$$
\begin{aligned}
f_{X, Y}(x, y) &=f_{Y}(y) f_{X \mid Y}(x \mid y) \
f_{X}(x) &=\int_{-\infty}^{\infty} f_{Y}(y) f_{X \mid Y}(x \mid y) d y .
\end{aligned}
$$
条件概率密度函数$f_{X|Y}(x|y)$只在集合${y|f_Y(y)>0}$上有定义.
- 关于条件概率我们有
$$
P(X\in A \mid Y=y)=\int_{A} f_{X\mid Y}(x\mid y)dx
$$
条件期望性质:
记 $X$ 和 $Y$ 为联合连续随机变量, $A$ 是满足 $P (A)>0$ 的事件.
- $X$ 在给定事件$A$ 之下的条件期望由下式定义
$$
E [X \mid A]=\int_{-\infty}^{\infty} x f_{X \mid A}(x) d x
$$
给定 $Y=y$ 之下的条件期望由下式定义
$$
E[X \mid Y=y]=\int_{-\infty}^{\infty} x f_{X \mid Y}(x \mid y) d x
$$
- 期望规则仍然有效:
$$
\begin{array}{c}
E [g(X) \mid A]=\int_{-\infty}^{\infty} g(x) f_{X \mid A}(x) d x \
E [g(X) \mid Y=y]=\int_{-\infty}^{\infty} g(x) f_{X \mid Y}(x \mid y) d x
\end{array}
$$
- **全期望定理:**设$A_1,A_2,…,A_n$为互不相容的n个事件,对每个$i$,$P(A_i)>0$,并且这些事件形成样本空间的一个分割,则
$$
E (X]=\sum_{i=1}^{n} P \left( A {i}\right) E \left[X \mid A{i}\right]
$$
相似地,
$$
E [X]=\int_{-\infty}^{\infty} E \left[X|Y=y| f_{Y}(y) d y\right.
$$
-
涉及几个随机变量的函数的情况,具有完全相似的结果,例如:
$$
E \left[g\left(X,Y\right)|Y=y|\right.=\int g(x, y) f_{X \mid Y}(x \mid y) d x \E[g(X, Y) \mid=\int E [g(X, Y) \mid Y=y] f_{Y}(y) d y
$$
连续随机变量的相互独立性令X和Y为联合连续随机变量.
-
若
$$
f_{X, Y}(x, y)=f_{X}(x) f_{Y}(y) \quad \text { 对一切 }x\text{和}y\text{成立}
$$则 $X$ 和 $Y$ 相互独立.
-
若X 和 $Y$ 相互独立, 则
$$
E [X Y]= E [X] E [Y]
$$
进一步,对于任意函数$g$和$h$,随机变量$g(X)$和$h(Y)$也是相互独立的, 于是
$$
E [g(X) h(Y)]= E [g(X)] E [h(Y)]
$$ -
若 $X$ 和 $Y$ 相互独立,则
$$
\operatorname{var}(X+Y)=\operatorname{var}(X)+\operatorname{var}(Y)
$$
连续随机变量的贝叶斯准则:
令Y为连续随机变量.
- 若X为连续随机变量,我们有
$$
\begin{array}{c}
f_{X} y(x \mid y) f_{Y}(y)=f_{X}(x) f_{Y \mid X}(y \mid x) \
\end{array}
$$
和
$$
\begin{array}{c}
f_{X \mid Y}(x \mid y)=\frac{f_{X}(x) f_{Y \mid X}(y \mid x)}{f_{Y}(y)}=\frac{f_{X}(x) f_{Y \mid X}(y \mid x)}{\int_{-\infty}^{\infty} f_{X}(t) f_{Y} x(y \mid t) d t}
\end{array}
$$
- 若N为离散随机变量,我们有
$$
f_{Y}(y) P (N=n \mid Y=y)=p_{N}(n) f_{Y \mid N}(y \mid n)
$$
得到的贝叶斯公式为
$$
P ( N =n \mid Y=y)=\frac{p_{ N }(n) f_{Y \mid N}(y \mid n)}{f_{Y}(y)}=\frac{p_{N}(n) f_{Y} \mid N(y \mid n)}{\left.\sum_{i} p_{N}(\hat{i}) f_{Y}\right|{N}(u \mid i)}
$$
和
$$
f{Y \mid N}(y \mid n)=\frac{f_{Y}(y) P (N=n \mid Y=y)}{p_{N}(n)}=\frac{f_{Y}(y) P(N=n Y=y)}{\int_{-\infty}^{\infty} f_{Y}(t) P (N=n \mid Y=t) d t}
$$
- 对于事件A,关于$P(A\mid Y=y)$和$f_{Y\mid A}(y)$具有类似的贝叶斯公式.
第四章 随机变量的深入内容
计算连续随机变量X的函数$Y=g(X)$的概率密度函数(PDF):
(1)使用如下公式计算Y的概率函数(CDF)$F_Y$
$$
F_{Y}(y)=P(g(X)\leq y)=\int_{x\mid g(x)\leq y}f_X(x)dx.
$$
(2)对$F_Y$求导,得到Y的PDF:
$$
f_{Y}(y)=\frac{dF_{Y}}{dy}(y)
$$
随机变量X的线性函数的概率密度函数:
假设X是连续随机变量,概率密度函数为$f_X$,a和b是实数且$a\neq 0$,如果
$$
Y=aX+b
$$
则
$$
f_Y(y)=\frac{1}{\mid X\mid}f_X(\frac{y-b}{a}).
$$
连续随机变量X的严格单调函数$Y=g(x)$的概率密度函数计算公式:
假设g是严格单调函数,其逆函数h满足:对X的取值空间内任意一点$x$,$Y=g(x) \quad$ 当且仅当 $\quad x=h(y)$,
而且函数 $h$ 是可微的,则 $Y$ 在支撑集$y \mid f_{Y}(y)>0$内的概率密度函数是
$$
f_{Y}(y)=f_{X}(h(y))\left|\frac{ d h}{ d y}(y)\right|
$$
卷积:
定义:设X和Y是两个独立的随机变量考虑他们的和Z=X+Y的分布.
$$
p_Z(z)=P(X+Y=z)
$$
分布列$p_Z$称为X和Y的分布列的卷积.
卷积公式:
变量$Z=X+Y$的概率密度函数为
$$
f_Z(z)=\int_{-\infty}^{\infty} f_X(x)f_Y(z-x)dx
$$
协方差和相关:
**协方差:**X和Y的协方差记为cov(X,Y),其定义如下:$cov(X,Y)=E[(X-E(X))(Y-E(Y))]$.当cov(X,Y)=0时,我们说X和Y不相关的.
另一种表达为$cov(X,Y)=E[XY]-E[X]E[Y]$.
一些性质:
$cov(X,X)=var(X)$
$cov(X,aY+b)=a*cov(X,Y)$
$cov(X,Y+Z)=cov(X,Y)+cov(X,Z)$
注:X和Y是相互独立的,则E[XY]=E[X]E[Y],故cov(X,Y)=0,它们是不相关的,但是逆命题并不成立.
有下列结论:
假设$E[X\mid Y=y]=E[X]$ 对任意的y成立,则如果X和Y是离散变量时,E[XY]=E[X]E[Y].(在连续的情形下依然成立.)
相关系数:
两个方差非零的随机变量X和Y的相关系数$\rho (X,Y)$定义如下:
$$
\rho (X,Y)=\frac{cov(X,Y)}{\sqrt{var(X)var(Y)}}
$$
易证$\rho\in [-1,1]$
随机变量和的方差:
协方差可以用于计算多个随机变量(不必独立)之和的方差.特别地,设随机变量$X_1…X_n$具有有限的方差,则
$$
var(X_1+X_2)=var(X_1)+var(X_2)+2cov(X1,X2)
$$
更一般的结论是
$$
var(\sum_{i=1}^n X_i)=\sum_{i=1}^n var(X_i)+\sum_{\left{ (i,j)\mid i\neq j\right} } cov(X_i,X_j).
$$
条件期望和条件方差的性质:
- $E[X\mid Y=y]$的值依赖于y.
- $E[X\mid Y]$是随机变量Y的函数,因此它也是一个随机变量.当Y的值为y时,它的值就等于$E[X\mid Y=y]$
- $E[E[X\mid Y]]=E[X]$ (重期望法则)
- $E[X\mid Y=y]$可视为已知Y=y时对X的估计.相应的估计误差$E[X\mid Y]-X$是一个零均值的随机变量,且与$E[X\mid Y]$是不相关的.
- $var(X)=E[var(X\mid Y)]+var(E[X\mid Y])$ (全方差法则)
矩母函数:
一个与随机变量X相关的矩母函数是参数s的函数$M_X(s)$,定义如下:
$$
M_X(s)=E[e^{sX}]
$$
当X是离散随机变量,相关矩母函数为$M(s)=\sum _x e^{sx}p_X(x)$.
当X是连续随机变量,相关矩母函数为$M(s)=\int_{-\infty}^{\infty} e^{sx}f_X(x)dx$.
利用矩母函数计算随机变量的各阶矩:
$$
M_X(0)=1,\ \ \ \ \ \frac{d}{ds}M_X(s) \bigg|{s=0}=E[X], \ \ \ \frac{d^n}{ds^n}M_X(s)\bigg|{s=0}=E[X^n].
$$
若$Y=aX+b$,则$M_Y(s)=e^{sb}M_X(as)$.
若X和Y相互独立,则$M_{X+Y}(s)=M_X(s)M_Y{s}$.
常见的离散随机变量的矩母函数:
-
参数为p的伯努利分布(k=0,1)
$$
p_X(k)=\left{\begin{array}{}
p, & \text{若}k=1,
\1-p,& \text { 若k=0, }
\end{array}\right.
M_X(s)=1-p+pe^s.
$$ -
参数为(n,p)的二项分布(k=0,1,…,n)
$$
p_X(k)=\binom{n}{k}p^k(1-p)^{n-k},M_X(s)=(1-p+pe^s)^n.
$$ -
参数为 $p$ 的几何分布 $(k=1,2 \ldots)$
$$
p_{X}(k)=p(1-p)^{k-1}, \quad M_{X}(s)=\frac{p e^{s}}{1-(1-p) e^{s}}
$$ -
参数为$\lambda$的泊松分布 $(k=1,2 \ldots)$
$$
p_{X}(k)=\frac{e^{-\lambda} \lambda^{k}}{k !}, \quad M_{X}(s)=e^{\lambda\left(e^{s}-1\right)}
$$
$\bullet(a, b)$ 上的均匀分布 $(k=a, a+1, \cdots, b)$
$$
p x(k)=\frac{1}{b-a+1}, \quad M_{X}(s)=\frac{e^{a s}}{b-a+1} \cdot \frac{e^{(b-a+1) s}-1}{e^{s}-1}
$$
常见连续随机变量的矩母函数:
-
$(a, b)$ 上的均匀分布 $(a \leqslant x \leqslant b)$
$$
f_{X}(x)=\frac{1}{b-a},
M_{X}(s)=\frac{1}{b-a} \cdot \frac{e^{s b}-e^{s a}}{s}
$$ -
参数为$\lambda$的指数分布$(x\geq 0)$
$$
f_{X}(x)=\lambda e^{\lambda x}
,
M_{X}(s)=\frac{\lambda}{\lambda-s}, (s<\lambda)
$$ -
参数为$(\lambda,\mu)$的正态分布$(-\infty<x\infty)$
$$
f_{X}(x)=\frac{1}{\sqrt{2 \pi} \sigma} e ^{-(x-\mu)^{2} / 2 \sigma^{2}}, \quad M_{X}(s)= e ^{\left(\sigma^{2} s^{2} / 2\right)+\mu s}
$$
第五章 极限理论
马尔科夫不等式:
设随机变量$X$只取非负值,则对任意$a>0$,
$$
P(X\geq a)\leq \frac{E[X]}{a}
$$
切尔雪夫不等式:
设随机变量$X$的均值为$\mu$,方差为$\sigma ^2$,则对任意$c>0$,
$$
P(|X-\mu|\geq c)\leq \frac{\sigma ^2 }{c^2}
$$
弱大数定律:
设$X _1,…,X _n$独立同分布, 其分布的均值为$\mu$,
则对任意的$\epsilon>0$, 当$n \rightarrow \infty$ 时,
$$
P \left(\left|M_{n}-\mu\right| \geqslant \epsilon\right)= P \left(\left|\frac{X_{1}+\cdots+X_{n}}{n}-\mu\right| \geqslant \epsilon\right) \rightarrow 0
$$
中心极限定理:
设$X _1, X _2 …$是独立同分布的随机变量序列,序列的每一项的均值为$\mu$, 方差为$\sigma^2$.
记
$$
Z _n=\frac{X _1+…+X _n-n \mu}{\sqrt{n} \sigma}
$$
则$Z _n$的分布函数的极限分布为标准正态分布函数:
$$
\Phi(x)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^xe^{-z^2/2}dz
$$
即
$$
\lim _{n \rightarrow \infty} P \left(Z _n \leqslant x\right)=\Phi(x), \text { 对任意的 } x \text { 成立. }
$$
强大数定律:
设$X_1,$ $X _{2}, \cdots, X _{n}$是均值为$\mu$ 的独立同分布随机变量序列, 则样本均值$M _{n}=(X _{1}+X _{2}+…+X _{n}) / n$以概率 1 收敛于$\mu$, 即
$$
P \left(\lim _{n \rightarrow \infty} \frac{X _1+X _2+\cdots+X _n}{n}=\mu\right)=1
$$