概率密度函数(PDF)与概率质量函数(PMF)说明
基本概念区分
对于连续型随机变量,通常使用 概率密度函数 (Probability Density Function, PDF) 进行描述;这与离散型随机变量使用的 概率质量函数 (Probability Mass Function, PMF) 有本质区别。
- PMF:可以直接代入变量值求得对应事件的概率
- PDF:代入变量值后得到的是 概率密度值,而非概率本身
连续型随机变量的概率特性
-
单点概率为零
对于任意实数 xxx,P(X=x)=0P(X = x) = 0P(X=x)=0 -
区间概率计算
连续型变量的概率必须通过积分计算:
P(a≤X≤b)=∫abf(x)dxP(a \leq X \leq b) = \int_{a}^{b} f(x) \, dx P(a≤X≤b)=∫abf(x)dx -
概率密度的物理意义
PDF 在某点的取值反映该区域概率的 “密集程度”,其值的大小与概率成正比关系
PDF 的基本性质
-
非负性
f(x)≥0∀x∈Rf(x) \geq 0 \quad \forall x \in \mathbb{R} f(x)≥0∀x∈R -
归一性
∫−∞+∞f(x)dx=1\int_{-\infty}^{+\infty} f(x) \, dx = 1 ∫−∞+∞f(x)dx=1
概率质量函数(PDF)和累积分布函数(CDF)
互逆关系
-
从 PDF 到 CDF:
F(x)=∫−∞xf(t)dtF(x) = \int_{-\infty}^x f(t) \, dt F(x)=∫−∞xf(t)dt -
从 CDF 到 PDF:
f(x)=ddxF(x)f(x) = \frac{d}{dx} F(x) f(x)=dxdF(x)
概率计算的等价性
对于任意区间 [a,b][a, b][a,b],概率可表示为:很多情况计算概率时,分布函数使用起来会更简单一些(避免积分运算);
P(a<X≤b)=F(b)−F(a)=∫abf(x)dx\boxed{P(a < X \leq b) = F(b) - F(a) = \int_a^b f(x) \, dx} P(a<X≤b)=F(b)−F(a)=∫abf(x)dx
均匀分布
应用场景实例
1.在java中使用new Random().nextDouble(),生成一个[0,1][0,1][0,1]之间的双精度浮点型伪随机数,数据出现在任意一个区间的可能性是相同的,换言之生成的随机数,均匀的散布在[0,1][0,1][0,1]之间;
2.某公交车每30分钟固定发车一次,乘客在任意时刻到达车站。那么乘客的候车时间在[0,30][0,30][0,30]分钟之间,并且等候任意分钟([0,30][0,30][0,30])是等可能的;
定义
连续均匀分布(Uniform Distribution)的核心特征是概率密度在整个区间内恒定,即等可能性,是最简单的连续型概率分布之一。
记法:
X∼U(a,b)或X∼Uniform(a,b)\boxed{X \sim U(a,b)\quad或\quad X\sim \text{Uniform}(a,b)} X∼U(a,b)或X∼Uniform(a,b)
读作:XXX服从参数为a,ba,ba,b的连续均匀分布;
则例1记为:X∼U(0,1)X\sim U(0,1)X∼U(0,1)
例2记为:X∼U(0,30)X\sim U(0,30)X∼U(0,30)
随机变量
连续型随机变量XXX,其取值范围限定在某个有限区间 [a,b][a,b][a,b]内,且在该区间内每个实数的取值概率密度相等。换句话说,XXX 是取值在区间 [a,b][a,b][a,b]上均匀分布的随机数。
- 例1定义X,X∈[0,1]X,X\in[0,1]X,X∈[0,1]是生成的随机数的值;
- 例2定义X,X∈[0,30]X,X\in[0,30]X,X∈[0,30]为乘客的等候时间;
参数
连续均匀分布的参数有2个,即左右区间值a,ba,ba,b;随机变量取值在这个区间内的概率是1;
函数表达
由定义可得
- 在整个定义区间[a,b][a,b][a,b]上,概率均匀分布,即任意一个子集,若区间长度则概率相等.则概率相同
- P(a≤X≤b)=1P(a \le X \le b)=1P(a≤X≤b)=1
由于概率是均匀的,则累积分布函数F(X)F(X)F(X)应该是线性的,并且F(a)=0,F(b)=1F(a)=0,F(b)=1F(a)=0,F(b)=1;
设F(x)=kx+CF(x)=kx+CF(x)=kx+C,并且有:
{F(a)=0F(b)=1\begin{cases} F(a)=0\\ F(b)=1 \end{cases} {F(a)=0F(b)=1
解得
F(x)=1b−ax−ab−aF(x)=\frac{1}{b-a}x-\frac{a}{b-a} F(x)=b−a1x−b−aa
即
F(x)=x−ab−a\boxed{F(x)=\frac{x-a}{b-a}} F(x)=b−ax−a
故概率密度函数f(x)=F′(x)f(x)=F'(x)f(x)=F′(x)
f(x)={1b−a,a≤X≤b0,其他\boxed{ f(x)= \begin{cases} \frac{1}{b-a}, \quad a \le X \le b \\ 0,\quad 其他 \end{cases}} f(x)={b−a1,a≤X≤b0,其他
即,求XXX在[m,n][m,n][m,n]区间上的概率即:
P(m≤X≤n)=∫mn1b−adx=n−mb−a,a≤m≤n≤b\boxed{ P(m \le X \le n) = \int_{m}^{n}\frac{1}{b-a} \, dx=\frac{n-m}{b-a},\quad a \le m \le n \le b} P(m≤X≤n)=∫mnb−a1dx=b−an−m,a≤m≤n≤b
分布特征值
- 期望,很好理解就是定于区间的juzn
E(X)=a+b2E(X)=\frac{a+b}{2}E(X)=2a+b - 方差Var(X)=(b−a)212\text{Var}(X)=\frac{(b-a)^2}{12}Var(X)=12(b−a)2
推导:
对于连续型随机变量 XXX,其概率密度函数为 f(x)f(x)f(x),期望 E(x)E(x)E(x)定义为:
E(X)=∫−∞+∞x⋅f(x)dx\begin{align*} E(X)&=\int_{-\infty}^{+\infty}x\cdot f(x)dx\\ \end{align*} E(X)=∫−∞+∞x⋅f(x)dx
对于服从均匀分布的随机变量X∼U(a,b)X\sim U(a,b)X∼U(a,b)则有:
E(X)=∫bax⋅1b−adx=1b−a∫baxdx=1b−a×[x22]ab=1b−a×b2−a22=a+b2\begin{align*} E(X)&=\int_{b}^{a}x\cdot \frac{1}{b-a}dx\\ &= \frac{1}{b-a}\int_{b}^{a}xdx\\ &= \frac{1}{b-a}\times \left[ \frac{x^2}{2} \right]_{a}^{b}\\ &=\frac{1}{b-a}\times\frac{b^2-a^2}{2}\\ &=\frac{a+b}{2} \end{align*} E(X)=∫bax⋅b−a1dx=b−a1∫baxdx=b−a1×[2x2]ab=b−a1×2b2−a2=2a+b
方差 Var(X)\text{Var}(X)Var(X)定义为:
Var(X)=E(X2)−[E(X)]2\text{Var}(X)=E(X^2)-[E(X)]^2 Var(X)=E(X2)−[E(X)]2
对于服从均匀分布的随机变量X∼U(a,b)X\sim U(a,b)X∼U(a,b)则有:
E(X2)=∫bax2⋅1b−adx=1b−a∫bax2dx=1b−a×[x33]ab=1b−a×b3−a33=1b−a×(b−a)(a2+ab+b2)3=a2+ab+b23\begin{align*} E(X^2)&=\int_{b}^{a}x^2\cdot \frac{1}{b-a}dx\\ &= \frac{1}{b-a}\int_{b}^{a}x^2dx\\ &= \frac{1}{b-a}\times \left[ \frac{x^3}{3} \right]_{a}^{b}\\ &=\frac{1}{b-a}\times\frac{b^3-a^3}{3}\\ &=\frac{1}{b-a}\times\frac{(b-a)(a^2+ab+b^2)}{3}\\ &=\frac{a^2+ab+b^2}{3} \end{align*} E(X2)=∫bax2⋅b−a1dx=b−a1∫bax2dx=b−a1×[3x3]ab=b−a1×3b3−a3=b−a1×3(b−a)(a2+ab+b2)=3a2+ab+b2
E(X)2=(a+b2)2=a2+2ab+b24\begin{align*} E(X)^2&=(\frac{a+b}{2})^2\\ &=\frac{a^2+2ab+b^2}{4} \end{align*} E(X)2=(2a+b)2=4a2+2ab+b2
Var(X)=E(X2)−[E(X)]2=a2+ab+b23−a2+2ab+b24=4a2+4ab+4b2−3a2−6ab−3b212=a2−2ab+b212=(b−a)212\begin{align*} \text{Var}(X)&=E(X^2)-[E(X)]^2\\ &=\frac{a^2+ab+b^2}{3}-\frac{a^2+2ab+b^2}{4}\\ &=\frac{4a^2+4ab+4b^2-3a^2-6ab-3b^2}{12}\\ &=\frac{a^2-2ab+b^2}{12}\\ &=\frac{(b-a)^2}{12} \end{align*} Var(X)=E(X2)−[E(X)]2=3a2+ab+b2−4a2+2ab+b2=124a2+4ab+4b2−3a2−6ab−3b2=12a2−2ab+b2=12(b−a)2
自己操作试试吧,可视化查看: 连续均匀分布
例题
从区间[0,1][0,1][0,1]中随机的选择一个数,求此数小于0.4的概率?
设随机变量XXX表示从区间[0,1][0,1][0,1]中随机选择的一个数,由题意得X∼U(0,1)X\sim U(0,1)X∼U(0,1),求P(X<0.4)P(X<0.4)P(X<0.4);
使用概率密度函数计算
P(X<0.4)=∫mn1b−adx=∫00.411−0dx=[x]00.4=0.4P(X<0.4)= \int_{m}^{n}\frac{1}{b-a} \, dx=\int_0^{0.4}\frac{1}{1-0}dx=[x]_0^{0.4}=0.4 P(X<0.4)=∫mnb−a1dx=∫00.41−01dx=[x]00.4=0.4
或使用累积分布函数计算
P(X<0.4)=F(0.4)=F(x)=x−ab−a=0.4−01−0=0.4P(X<0.4)=F(0.4)=F(x)=\frac{x-a}{b-a}=\frac{0.4-0}{1-0}=0.4 P(X<0.4)=F(0.4)=F(x)=b−ax−a=1−00.4−0=0.4