Tao–Vu · 加性组合学 · 第 1 章概率方法

1.2　二阶矩方法The second moment method

本页为译文 + 高中讲解合一：黑色正文为忠实翻译；彩色框（目标 / 例 / 分步推演 / 自测）与配图为面向高中生的详解，逐步推演、举例、画图，不用比喻。

本节目标上一节的“一阶矩方法”只告诉我们一个随机变量 \(X\) 平均有多大（即它的期望 \(E(X)\)）。但平均值不能保证每次的取值都贴近它。本节要回答：\(X\) 会不会经常远远偏离它的平均值？我们将用 \(X\) 的方差 \(\operatorname{Var}(X)\)（“二阶矩”信息）来约束这种偏离，这套办法叫二阶矩方法，核心工具是切比雪夫不等式。

一阶矩方法（the first moment method）能让我们通过期望 \(E(X)\) 来控制一个随机变量 \(X\) 的数量级。但在许多情形里，这种控制是不够的：我们还需要确认 \(X\) 通常不会过分地偏离它的期望值。这类估计被称为大偏差不等式（large deviation inequalities），它们是本学科中一组基础性的工具。它们可能比一阶矩方法强得多，但通常需要一些关于独立性或近似独立性的假设。

为什么“平均值”不够用设想抛 \(100\) 枚均匀硬币，记正面总数为 \(X\)。它的期望是 \(E(X)=50\)。但只知道“平均是 \(50\)”，并不能排除“这一次恰好出现 \(90\) 个正面”这种极端结果。一阶矩方法只回答“中心在哪儿”；要回答“离中心能跑多远、跑那么远的概率有多小”，就必须看第二个量——方差。

期望 \(E(X)\)：所有可能取值按概率加权的“平均位置”，刻画中心。
方差 \(\operatorname{Var}(X)=E\big(|X-E(X)|^2\big)\)：偏离中心的平方的平均值，刻画分散程度（越小越集中）。
标准差 \(\operatorname{Var}(X)^{1/2}\)：方差开根号，与 \(X\) 同量纲，是衡量“典型偏离”的天然尺子。

两条曲线的中心（期望）相同，但绿色曲线方差小、紧贴中心，蓝色曲线方差大、摊得很开。方差正是“离中心能跑多远”的度量。

最简单的这类大偏差不等式是切比雪夫不等式（Chebyshev's inequality），它用方差 \(\operatorname{Var}(X)\) 来控制偏离：

定理 1.5（切比雪夫不等式）设 \(X\) 是一个随机变量。则对任意正数 \(\lambda\)， \[\tag{1.8}P\Big(|X-E(X)|>\lambda\,\operatorname{Var}(X)^{1/2}\Big)\le\frac{1}{\lambda^2}.\]

读懂这行公式把标准差 \(\operatorname{Var}(X)^{1/2}\) 当作一把“尺子”。不等式说的是：\(X\) 偏离中心超过 \(\lambda\) 把尺子那么远的概率，不会超过 \(\dfrac{1}{\lambda^2}\)。例如取 \(\lambda=10\)，则跑出 \(10\) 个标准差之外的概率至多是 \(\dfrac{1}{100}\)。\(\lambda\) 越大，这个上界以平方的速度变小。

证明. 我们可以假设 \(\operatorname{Var}(X)>0\)，因为 \(\operatorname{Var}(X)=0\) 的情形是平凡的。由马尔可夫不等式（Markov's inequality）我们有 \[P\Big(|X-E(X)|^2>\lambda^2\operatorname{Var}(X)\Big)\le\frac{E\big(|X-E(X)|^2\big)}{\lambda^2\operatorname{Var}(X)}=\frac{1}{\lambda^2},\] 结论随之得证。♦

把这条证明拆成最小的步子，便于看清它“为什么对”：

先处理平凡情形。若 \(\operatorname{Var}(X)=0\)，说明 \(X\) 恒等于 \(E(X)\)，根本不会偏离，左边概率为 \(0\)，不等式自动成立。故下面假设 \(\operatorname{Var}(X)>0\)，可以放心做除法。
把绝对值不等式平方。因为两边都非负，事件 \(|X-E(X)|>\lambda\operatorname{Var}(X)^{1/2}\) 与事件 \(|X-E(X)|^2>\lambda^2\operatorname{Var}(X)\) 是同一个事件，概率相等。这一步把“一次方的偏离”换成了“平方的偏离”，好让方差登场。
对非负量 \(Y=|X-E(X)|^2\) 用马尔可夫不等式。马尔可夫不等式说：对非负随机变量 \(Y\) 与任意 \(t>0\)，\(P(Y>t)\le \dfrac{E(Y)}{t}\)。这里取 \(t=\lambda^2\operatorname{Var}(X)\)。
代入关键事实 \(E(Y)=\operatorname{Var}(X)\)。根据方差的定义 \(\operatorname{Var}(X)=E\big(|X-E(X)|^2\big)\)，分子恰好是 \(\operatorname{Var}(X)\)，于是 \[\frac{E\big(|X-E(X)|^2\big)}{\lambda^2\operatorname{Var}(X)}=\frac{\operatorname{Var}(X)}{\lambda^2\operatorname{Var}(X)}=\frac{1}{\lambda^2}.\] 方差在分子分母中相消，正好留下 \(1/\lambda^2\)。♦

例：抛 100 枚硬币仍记 \(100\) 枚均匀硬币的正面总数为 \(X\)。每枚硬币贡献独立的 \(0/1\)，可算出 \(E(X)=50\)，\(\operatorname{Var}(X)=100\times\tfrac14=25\)，故标准差 \(\operatorname{Var}(X)^{1/2}=5\)。

问“正面数偏离 \(50\) 超过 \(15\) 个”的概率。\(15\) 个等于 \(15/5=3\) 把尺子，即 \(\lambda=3\)。
由 (1.8)：\(P(|X-50|>15)\le \dfrac{1}{3^2}=\dfrac19\approx 0.111\)。
问“偏离超过 \(25\) 个”（即出现 \(75\) 以上或 \(25\) 以下）：\(25/5=5\)，\(\lambda=5\)，上界 \(\dfrac{1}{25}=0.04\)。

切比雪夫给出的只是上界（真实概率往往小得多），但它的好处是无需知道分布的细节，只要有期望和方差就能用。

因此，切比雪夫不等式断言：以高概率有 \(X=E(X)+O\big(\operatorname{Var}(X)^{1/2}\big)\)；而在相反方向上，显然 \(|X-E(X)|\ge \operatorname{Var}(X)^{1/2}\) 以正概率成立。运用这些事实的做法被称为二阶矩方法（the second moment method）。请注意，切比雪夫不等式同时给出了 \(X\) 的上尾（upper tail）与下尾（lower tail）界，且尾部以 \(1/\lambda^2\) 而非 \(1/\lambda\) 的速度衰减。

两个方向，一句话总结

正方向（集中）：\(X\) 几乎总是落在离中心 \(O(\operatorname{Var}^{1/2})\) 的范围内——方差小就意味着 \(X\) 紧紧聚在期望附近。
反方向（不会太集中）：\(X\) 也确实会以正概率偏离至少一个标准差——它不会完全钉死在期望上。

“二阶矩方法”就是同时利用这两面：用方差既把 \(X\) 关进期望附近的小区间，又保证 \(X\) 不至于退化成常数。

同样跑到 \(\lambda\) 把尺子之外，切比雪夫给出的上界 \(1/\lambda^2\)（红）随 \(\lambda\) 增大比 \(1/\lambda\)（蓝）下降得快得多。这正是“二阶矩”比“一阶矩”更有力的直观来源。

即时自测

某随机变量 \(X\) 满足 \(E(X)=20\)、\(\operatorname{Var}(X)=9\)。用切比雪夫不等式估计 \(P(|X-20|>12)\) 的上界。（提示：标准差是多少？\(\lambda=?\)）
把 (1.8) 中的 \(\lambda\) 换成 \(2\)，写出切比雪夫不等式的具体形式，并说明它在文字上的含义。
证明里第 2 步为什么可以把 \(|X-E(X)|>\lambda\operatorname{Var}(X)^{1/2}\) 两边同时平方而不改变事件？（提示：两边都非负。）

返回全书目录