数学基础#
本文旨在通俗易懂地介绍基本概念,部分表述可能不完全严谨。
随机事件#
概念:在试验中可能发生也可能不发生的事件称为随机事件。随机事件通常用大写字母 $A$、$B$、$C$ 等表示。
$P(A)$ 表示事件 $A$ 发生的概率。
概率运算法则#
事件独立
定义:如果两个事件的发生互不影响,则称这两个事件独立。
公式:$P(A, B) = P(A)P(B)$ 其中 $P(A, B)$ 表示事件 $A$ 和事件 $B$ 同时发生的概率。
条件概率
定义:在事件 $B$ 发生的条件下,事件 $A$ 发生的概率称为条件概率,记作 $P(A|B)$。
公式:$P(A|B) = \frac{P(A, B)}{P(B)}$
全概率公式
定义:如果事件 $B_1, B_2, \dots, B_n$ 是样本空间 $S$ 的一个划分(即它们互不相交,且并集为 $S$),则有:
$$P(A) = \sum_{i=1}^n P(A|B_i)P(B_i)$$也就是说,事件 $A$ 的概率等于其在各个互斥事件 $B_i$ 上发生的条件概率与 $B_i$ 本身概率乘积之和。
贝叶斯公式
定义:如果事件 $B_1, B_2, \dots, B_n$ 是样本空间 $S$ 的一个划分,则有:
$$P(B_i|A) = \frac{P(A|B_i)P(B_i)}{\sum_{j=1}^n P(A|B_j)P(B_j)}$$也就是说,贝叶斯公式计算的是在事件 $A$ 已经发生的条件下,它是由某个特定原因(事件 $B_i$)引起的概率。
随机变量#
概念:随机变量是将随机事件的结果映射到一个数值的函数。
随机变量通常用大写字母 $X$、$Y$、$Z$ 等表示。
试验结果的全体称为样本空间,记作 $S$。
离散随机变量和连续随机变量#
离散随机变量
定义:如果随机变量 $X$ 的取值是有限或可数的,则称 $X$ 为离散随机变量。
连续随机变量
定义:如果随机变量 $X$ 的取值在一个或多个区间内,是不可数的,则称 $X$ 为连续随机变量。
对随机变量 $X=a$ 的概率,记作 $P(X=a)$,在不引起混淆的情况下,有时也简写为 $P(a)$。
多维随机变量#
设随机变量 $X$、$Y$ 为离散型,求边缘概率的公式为:
$$ P(Y=y) = \sum_{i=1}^n P(X=x_i, Y=y) = \sum_{x} P(X=x, Y=y) $$概率分布#
概率分布:指用于表述随机变量取值的概率规律。
离散随机变量常用分布:伯努利分布 (Bernoulli Distribution) 即一次试验中,随机变量 $X$ 只有两种可能的取值(例如成功/失败)。
| $X$ | $0$ | $1$ |
|---|---|---|
| $P(X=k)$ | $1-p$ | $p$ |
其概率质量函数为:
$$ P(X=k) = p^k(1-p)^{1-k}, \quad k \in \{0, 1\} $$该式子表示,当结果为 1(成功)的概率为 $p$ 时,随机变量取值为 $k$ 的概率。
连续随机变量常用分布:正态分布(高斯分布,Gaussian Distribution) 一维正态分布的概率密度函数:
$$ f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} $$图像为:

图像的对称轴位于 $x=\mu$ 处,此处也是概率密度的峰值点,$\mu$ 是均值。 当随机变量 $X$ 服从标准正态分布时,写作 $X \sim N(0,1)$,此时均值为 0,方差为 1。
期望、方差、协方差#
期望#
数学期望(均值):用于衡量随机变量取值的平均水平。
设随机变量 $X$ 的概率分布为 $P(X=x_i) = p_i, i=1, 2, \dots, n$。
- 离散型:$E(X) = \sum_{i=1}^n x_i p_i$
- 连续型:$E(X) = \int_{-\infty}^{\infty} x f(x) dx$
随机变量函数的数学期望:
- 离散型:$E(g(X)) = \sum_{i=1}^n g(x_i) p_i$
- 连续型:$E(g(X)) = \int_{-\infty}^{\infty} g(x) f(x) dx$
其中 $g(X)$ 是随机变量 $X$ 的函数。
数学期望的性质:
- 常数的期望是其本身,即 $E(C)=C$。
- 若 $C$ 是常数,则 $E(CX) = C \cdot E(X)$。
- $E(X_1+X_2) = E(X_1) + E(X_2)$。
- 如果 $X$ 和 $Y$ 相互独立,则 $E(XY) = E(X)E(Y)$。
数学期望在论文中的常用表达: 一般地,数学期望可能会写成这样:
$$ E_{X \sim P_{data}}[X] $$这表示我们所求的数学期望的随机变量 $X$ 服从概率分布 $P_{data}$。
还有一些会写成这样:
$$ E_{(X,Y) \sim P}[X] $$这表示对随机变量 $X$ 关于 $(X,Y)$ 的联合概率分布 $P$ 求期望。它等价于求 $X$ 的边缘期望,即 $E[X]$。
方差#
方差:用于衡量随机变量的离散程度或波动性。
$$ D(X) = E[(X - E(X))^2] = E(X^2) - [E(X)]^2 $$其中 $E(X^2)$ 表示随机变量 $X$ 的平方的数学期望。
方差的性质:
- 常数的方差为 0,即 $D(C) = 0$。
- 设 $C$ 是常数,则 $D(CX) = C^2 D(X)$。
- 设 $X$、$Y$ 为随机变量,则 $$ D(X \pm Y) = D(X) + D(Y) \pm 2Cov(X,Y) $$ 当 $X$、$Y$ 相互独立时, $Cov(X,Y)=0$,有 $$ D(X \pm Y) = D(X) + D(Y) $$
协方差#
协方差:反映随机变量之间的线性关系强度和方向。
假设有随机变量 $X$、$Y$,其协方差为:
$$ Cov(X,Y) = E\{[X - E(X)][Y - E(Y)]\} $$协方差的性质:
- 任意随机变量与常数的协方差为 0。
- 设 $C$ 是常数,则 $Cov(CX,Y) = C \cdot Cov(X,Y)$。
- 设 $X$、$Y$、$Z$ 为随机变量,则 $Cov(X \pm Y, Z) = Cov(X, Z) \pm Cov(Y, Z)$。
极大似然估计#
概念:一种根据样本数据来估计模型参数的方法,其目标是找到能使观测样本出现概率最大的参数值。
具体步骤:
- 写出似然函数。
- 对似然函数取对数,并整理得到对数似然函数。
- 对对数似然函数关于参数求导数,并令其为零。
- 求解该方程组,得到参数的估计值。
似然函数:对于单个观测值 $x$,其似然函数 $L(\theta|x)$ 在形式上等于概率(密度)函数。离散型时为 $P(x|\theta)$,连续型时为 $f(x|\theta)$。其中 $\theta$ 表示所要求的概率分布的参数。
极大似然估计通常假设样本是独立同分布的(i.i.d.)。
信息熵#
概念:描述一个随机变量取值的不确定性或信息量的大小。
$$ H(X)=-\sum_{i=1}^n P(x_i) \log_{2} P(x_i) = -E[\log_{2}P(X)] $$KL 散度(相对熵)#
概念:一种用于衡量两个概率分布之间差异的非对称性指标。
$$ KL(q||p)=\sum_{i=1}^n q(x_i) \log_{2} \frac{q(x_i)}{p(x_i)}=\int q(x) \log_{2} \frac{q(x)}{p(x)} dx $$性质:
- 非负性:$KL(q||p) \geq 0$。当且仅当两个概率分布完全相同时,KL 散度为 0。
- 非对称性:通常 $KL(q||p) \neq KL(p||q)$。

