1. 回顾期望的定义

对于连续性随机变量 $X$ ，期望为：
$E_{X\sim f(x)}[X] = \int_{\Omega}xf(x)dx$
其中 $f (x)$ 为概率密度函数， $\Omega$ 为概率密度函数的定义域。

对于离散型随机变量 $X$ ，期望为：
$\sum_x xP(X = x)$
其中 $P (X = x)$ 表示随机变量 $X$ 等于 $x$ 时的概率。

2. 积分，期望，求和，均值

然而在机器学习当中，我们常常会发现这种等式，它将求期望，求和，积分统一了起来：
$\sum_x xp(x) = \int xp(x)dx \tag1$
实际上这种写法是不严谨的。如果我们理解了本文开头部分就会发现，连等式第二，第三项中的 $p (x)$ 表达的含义是不一样的。第二项的 $p (x)$ 表达的是 $x$ 事件发生的概率（或者称为随机变量 $X$ 等于 $x$ 的概率），而第三项的 $p (x)$ 则是概率密度函数。

那么为什么在求期望时，能够把求和与积分统一起来（第二项和第三项）？我们可以回顾一下概率密度函数的意义。

定义: $f (x)$ 为概率密度函数， $\int^b_a f(x)dx$ 表示随机变量 $X$ 属于 $[a, b]$ 区间的概率。

2.1. 期望与求积分，求均值的关系：

为了一般性，我们考虑对函数 $F (x)$ 求期望，其中 $x$ 服从概率密度函数 $f (x)$ ：
$E_{X \sim f(x)}[F(X)] = \int_\Omega F(x)f(x)dx$
将 $\Omega$ 拆分成多个无穷小的区间 $\Omega_i$ ，在每个无穷小区间内，我们认为 $F (x)$ 不变，因此可以视为常数：
$\int_\Omega F(x)f(x)dx = \sum_i F(x_i)\int_{\Omega_i}f(x)dx \tag2$
同时根据概率密度函数的定义， $\int_{\Omega_i}f(x)dx$ 即为： $\in \Omega_i$ 这个区间的概率，记为 $p(x_i)$ 。由于区间是无穷小的，我们可以直接近似为随机变量 $X=x_i$ 这一事件发生的概率。

因此 $(2)$ 式又可以写做：
$\begin{align*} \int_\Omega F(x)f(x)dx & = \sum_i F(x_i)\int_{\Omega_i}f(x)dx \\ & = \sum_i^n F(x_i)p(x_i) \\ & = \sum_i^n F(x_i) \frac{N(x_i)}{N} \\ & = \frac{1}{N}\sum_i^n F(x_i) N(x_i) \tag2 \end{align*}$
其中 $N$ 为总实验次数， $N(x_i)$ 表示随机实验中，随机变量 $X = x_i$ 这一事件发生的次数。
我们可以发现 $(2)$ 式可以近似表示成: $N$ 次实验中， $F (x)$ 取值之和的平均值。即 $E_{X\sim f(x)}[F(x)]$ ：在 $x$ 服从概率密度函数 $f (x)$ 的情况下的期望，或者说是 $F (x)$ 相对于概率密度函数 $f (x)$ 的期望（相对期望）。
由于 $F (x)$ 可以替换成任意以 $x$ 为自变量的函数，我们可以令 $F (x) = x$ ，即为 $(1)$ 式。

需要注意的是，求均值是对积分的近似表示，这是因为：

拆分的区间在实际计算的过程中，不可能是无穷小的，只能尽可能小。 对应于实际采样/实验的次数是有限的。
区间内的采样不可能是完全均匀的：实际的实验/采样过程中，随机变量 $X$ 有可能会倾向于取某一段区间内的值（对应于 $X$ 一直位于重复的 $\Omega_i$ ），有些区间内的值可能一直无法取到。比如高斯分布， $\sigma$ 外的值很难取到。当然，增加重复实验/采样的次数可以缓解这个问题。

有人这里会说，既然 $x$ 一直位于重复的 $\Omega_i$ ，那么我对区间 $\Omega$ 构造均匀分布，然后对这个均匀分布采样不就行了？但是我们要注意， $\sim f(x)$ ，而 $f (x)$ 并不一定是这个对应的均匀分布。因此这种方式不可行。
当然，我们可以采用重要性采样来解决某些值一直取不到的问题，感兴趣的读者可以自行查阅。

蒙特卡洛方法求积分，最朴素的手段就是定义一个在积分上下限这个区间上的均匀分布，在这个均匀分布上采样，然后求均值。

因此，出现了求期望，可以把求积分，求和，求均值都联系在一起。甚至于说，只要出现求积分，也可以与求均值，求和联系在一起（蒙特卡洛积分）。

3. 总结

出现了这种期望的形式 $E_{X \sim f(x)}[F(X)] = \int F(x)f(x)dx$ ，其中 $f (x)$ 为概率密度函数。我们都可以用求和再求均值的方式来近似：
$\int F(x)f(x)dx = \frac{1}{N}\sum_i^N F(x_i)$
其中 $N$ 为总实验次数， $x_i$ 表示第 $i$ 次实验随机变量的取值。
也可以表示为：
$\int F(x)f(x)dx = \sum_i^nF(x_i) \cdot p(x_i)$
这里的 $n$ 表示随机变量 $X$ 有 $n$ 个取值， $p(x_i)$ 为随机变量 $X = x_i$ 的概率。上面两个式子是完全等价的。但需要注意： $x_i$ 的含义不一样。