Tao–Vu · 加性组合学 · 第 1 章概率方法

1.3　指数矩方法The exponential moment method

本页为译文 + 高中讲解合一：黑色正文为忠实翻译；彩色框（目标 / 例 / 分步推演）与配图为面向高中生的详解，逐步推演、举例、画图，不用比喻。

本节目标我们想知道：一个随机量 \(X\) 偏离它的平均值 \(E(X)\) 有多远？切比雪夫不等式只能给出“偏离 \(\lambda\) 倍标准差的概率约为 \(\lambda^{-2}\)”这种多项式速度的下降。本节要换一种武器——对 \(e^{tX}\)（而不是 \(X\) 本身）用马尔可夫不等式——把尾部概率压到指数下降 \(e^{-\lambda^2/4}\) 这么小。最终成果是切尔诺夫不等式（Chernoff's inequality）：许多个相互独立的有界随机变量之和，会以极高概率紧紧聚在它的均值附近。

切比雪夫不等式表明：如果我们能控制二阶矩 \(\mathrm{Var}(X)=E(|X-E(X)|^2)\)，那么随机变量 \(X\) 以概率 \(1-O(\lambda^{-2})\) 取到值 \(E(X)+O(\lambda\,\mathrm{Var}(X)^{1/2})\)。如果改用更高阶的矩，就能得到比 \(O(\lambda^{-2})\) 更好的尾概率衰减。特别地，如果我们能控制诸如 \(E(e^{tX})\)（\(t\) 为某个实参数）这样的指数矩¹，那么就能在上、下尾概率中得到指数式的衰减，因为马尔可夫不等式给出

\[P(X\ge\lambda)=P(e^{tX}\ge e^{t\lambda})\le \frac{E(e^{tX})}{e^{t\lambda}}\tag{1.15}\]

对 \(t>0\) 与 \(\lambda\in\mathbb{R}\) 成立，类似地

\[P(X\le-\lambda)=P(e^{-tX}\ge e^{t\lambda})\le \frac{E(e^{-tX})}{e^{t\lambda}}\tag{1.16}\]

对相同范围的 \(t,\lambda\) 成立。量 \(E(e^{tX})\) 称为 \(X\) 的一个指数矩（exponential moment），而函数 \(t\mapsto E(e^{tX})\) 称为矩生成函数（moment generating function），这要归功于泰勒展开

\[E(e^{tX})=1+tE(X)+\frac{t^2}{2!}E(X^2)+\frac{t^3}{3!}E(X^3)+\cdots .\]

运用 (1.15) 或 (1.16) 的做法就称为指数矩方法（the exponential moment method）。当然，要想有效使用它，必须能够计算出指数矩 \(E(e^{tX})\)。计算它的一件预备工具是下面的引理。

为什么换成 \(e^{tX}\) 就更狠直接对 \(X\) 用马尔可夫不等式 \(P(X\ge\lambda)\le E(X)/\lambda\) 只给出 \(1/\lambda\) 这种慢速衰减。关键观察：函数 \(t\mapsto e^{tX}\) 在 \(X\) 大的时候爆炸式增长，所以一旦发生 \(X\ge\lambda\) 这种“坏事”，\(e^{tX}\) 会变得巨大。把这个放大后的量塞进马尔可夫不等式，分母 \(e^{t\lambda}\) 又能随 \(\lambda\) 指数增长，两相配合就把概率压成指数小。

事件 \(\{X\ge\lambda\}\) 与事件 \(\{e^{tX}\ge e^{t\lambda}\}\) 完全等价——因为 \(t>0\) 时 \(u\mapsto e^{tu}\) 严格递增，两边取这个函数不改变大小关系。
对非负随机变量 \(e^{tX}\) 用马尔可夫不等式 \(P(Y\ge a)\le E(Y)/a\)，取 \(Y=e^{tX}\)、\(a=e^{t\lambda}\)，即得 (1.15)。
注意 \(t\) 是我们自由选取的参数。证明的常规套路是：先写出含 \(t\) 的上界，再挑一个最优的 \(t\) 把这个上界压到最小。

两条曲线都随 \(\lambda\) 下降，但蓝线（指数衰减）下降得远比红线（多项式衰减）陡峭。\(\lambda\) 越大，二者差距越悬殊——这正是指数矩方法相对切比雪夫不等式的巨大改进。

引理 1.7 设 \(X\) 是满足 \(|X|\le 1\) 且 \(E(X)=0\) 的随机变量。则对任意 \(-1\le t\le 1\)，有 \[E(e^{tX})\le \exp\!\big(t^2\,\mathrm{Var}(X)\big).\]

证明. 由于 \(|tX|\le 1\)，对泰勒级数作一个简单的逐项比较，便得到不等式 \[e^{tX}\le 1+tX+t^2X^2 .\] 对两边取期望，利用期望的线性性以及假设 \(E(X)=0\)，我们得到 \[E(e^{tX})\le 1+t^2\,\mathrm{Var}(X)\le \exp\!\big(t^2\,\mathrm{Var}(X)\big),\] 这正是所求。♦

把证明的每一步算清楚

为什么 \(e^{u}\le 1+u+u^2\) 在 \(|u|\le 1\) 上成立（这里 \(u=tX\)）。 标准展开 \(e^{u}=1+u+\frac{u^2}{2!}+\frac{u^3}{3!}+\cdots\)。把从 \(u^2\) 起的尾巴 \(\frac{u^2}{2}+\frac{u^3}{6}+\cdots\) 和 \(u^2\) 比：当 \(|u|\le 1\) 时，可以验证这条尾巴不超过 \(u^2\)（因为 \(\frac1{2!}+\frac1{3!}+\cdots=e-2\approx0.718<1\)，而高次幂只会让 \(|u|\le1\) 的项更小）。于是 \(e^{u}\le 1+u+u^2\)。
取期望并用 \(E(X)=0\)。 \(E(e^{tX})\le E(1+tX+t^2X^2)=1+t\,E(X)+t^2E(X^2)=1+t^2E(X^2)\)。
认出方差。 因为 \(E(X)=0\)，所以 \(\mathrm{Var}(X)=E(X^2)-E(X)^2=E(X^2)\)。故上界即 \(1+t^2\mathrm{Var}(X)\)。
最后一步放缩。 对任意实数 \(s\) 有 \(1+s\le e^{s}\)（一条永远成立的基本不等式）。取 \(s=t^2\mathrm{Var}(X)\)，得 \(1+t^2\mathrm{Var}(X)\le \exp(t^2\mathrm{Var}(X))\)。把上界写成指数形式，是为了下一步在多个变量相乘时方便“指数相加”。

在 \(-1\le u\le 1\) 这一段，红色抛物线 \(1+u+u^2\) 始终压在蓝色曲线 \(e^{u}\) 之上（即 \(e^{u}\le 1+u+u^2\)）。这正是引理证明第一步用到的关键放缩；区间外则不再成立，所以引理需要 \(|X|\le1\)、\(|t|\le1\) 的限制。

这条引理本身的威力并不算大，因为它同时要求 \(X\) 与 \(t\) 都有界。然而，当它被应用到若干有界随机变量之和 \(X=X_1+\cdots+X_n\) 时，威力会被大大放大——前提是我们有一个非常强的假设：\(X_1,\dots,X_n\) 之间相互联合独立。更确切地说，我们有下面的定理。

定理 1.8（切尔诺夫不等式 Chernoff's inequality）假设 \(X_1,\dots,X_n\) 是联合独立的随机变量，且对所有 \(i\) 都有 \(|X_i-E(X_i)|\le 1\)。令 \(X:=X_1+\cdots+X_n\)，并设 \(\sigma:=\sqrt{\mathrm{Var}(X)}\) 为 \(X\) 的标准差。则对任意 \(\lambda>0\)， \[P\big(|X-E(X)|\ge \lambda\sigma\big)\le 2\max\!\big(e^{-\lambda^2/4},\,e^{-\lambda\sigma/2}\big).\tag{1.17}\]

不严格地说，(1.17) 断言：\(X=E(X)+O(\mathrm{Var}(X)^{1/2})\) 以高概率成立，而 \(X=E(X)+O(\ln^{1/2}n\,\mathrm{Var}(X)^{1/2})\) 以极高概率成立（即概率为 \(1-O(n^{-C})\)，其中 \(C\) 可取得很大）。当 \(\lambda\) 很大时，切尔诺夫定理给出的界相比切比雪夫不等式是一个巨大的改进。然而，\(X_i\) 的联合独立性是不可或缺的（习题 1.3.8）。在后文中，我们将发展切尔诺夫不等式的若干变体，其中允许 \(X_i\) 之间存在某种有限的相互作用。

两句“非正式断言”是什么意思

“高概率”那句。 在 (1.17) 中取 \(\lambda\) 为一个固定常数（比如 \(\lambda=10\)），右端就是一个固定的小数，于是 \(|X-E(X)|\le \lambda\sigma=O(\sigma)=O(\mathrm{Var}(X)^{1/2})\) 以接近 \(1\) 的概率成立。
“极高概率”那句。 想让失败概率小到 \(n^{-C}\)，就需要右端 \(e^{-\lambda^2/4}\approx n^{-C}\)，即 \(\lambda^2/4\approx C\ln n\)，于是 \(\lambda\approx 2\sqrt{C\ln n}=O(\ln^{1/2}n)\)。代回偏差 \(\lambda\sigma\)，就得到 \(O(\ln^{1/2}n\,\mathrm{Var}(X)^{1/2})\)。这解释了那个 \(\ln^{1/2}n\) 因子从何而来。
与切比雪夫对比。 切比雪夫只保证失败概率 \(\le\lambda^{-2}\)，要做到 \(n^{-C}\) 需 \(\lambda\approx n^{C/2}\)，偏差大得离谱；切尔诺夫只需 \(\lambda\approx\sqrt{\ln n}\)。这就是“巨大改进”。

证明. 通过从每个 \(X_i\) 中减去一个常数，我们可以把它们标准化为对每个 \(i\) 都有 \(E(X_i)=0\)（从而 \(E(X)=0\)）。注意到 \[P(|X|\ge\lambda\sigma)=P(X\ge\lambda\sigma)+P(X\le-\lambda\sigma).\] 由对称性，因此只需证明 \[P(X\ge\lambda\sigma)\le e^{-t\lambda\sigma/2},\tag{1.18}\] 其中 \(t:=\min(\lambda/2\sigma,\,1)\)。应用 (1.15)，我们有 \[P(X\ge\lambda\sigma)\le e^{-t\lambda\sigma}\,E\big(e^{tX_1}\cdots e^{tX_n}\big).\] 由于 \(X_i\) 联合独立，\(e^{tX_i}\) 也联合独立。利用这一点以及引理 1.7，我们得到 \[E\big(e^{tX_1}\cdots e^{tX_n}\big)=E(e^{tX_1})\cdots E(e^{tX_n})\le \exp(t^2\mathrm{Var}(X_1))\cdots\exp(t^2\mathrm{Var}(X_n)).\] 另一方面，由 (1.9) 我们有 \[\mathrm{Var}(X_1)+\cdots+\mathrm{Var}(X_n)=\sigma^2 .\] 把这些综合起来，便得到 \[P(X\ge\lambda\sigma)\le e^{-t\lambda\sigma}\,e^{t^2\sigma^2}.\] 由于 \(t\le\lambda/2\sigma\)，结论随之成立。♦

把证明逐块拆开

标准化 \(E(X_i)=0\)。 平移每个变量不改变方差，也不改变 \(X-E(X)\)，所以不失一般性可设均值为零。这样才能直接套用引理 1.7（它要求 \(E(X_i)=0\)，且此时 \(|X_i|\le1\) 正是定理假设 \(|X_i-E(X_i)|\le1\)）。
为什么只看上尾就够。 把 \(X\) 换成 \(-X\) 后下尾 \(P(X\le-\lambda\sigma)\) 变成上尾，结构完全一样，所以证一个、另一个免费得到；两尾相加就是开头那个 \(2\) 的来源。
独立 ⟹ 期望可拆成乘积。 相互独立的随机变量，其乘积的期望等于各自期望的乘积：\(E(\prod e^{tX_i})=\prod E(e^{tX_i})\)。这一步是整个证明的心脏，也是为什么必须假设联合独立。
对每个因子用引理 1.7。 得到 \(\prod \exp(t^2\mathrm{Var}(X_i))=\exp\!\big(t^2\sum\mathrm{Var}(X_i)\big)=\exp(t^2\sigma^2)\)。指数写法在这里大放异彩：相乘变成了指数上的相加。
独立 ⟹ 方差可相加（公式 1.9）。 \(\mathrm{Var}(X_1+\cdots+X_n)=\mathrm{Var}(X_1)+\cdots+\mathrm{Var}(X_n)=\sigma^2\)，把上一步的和换成 \(\sigma^2\)。
挑最优 \(t\)，收尾。 现在 \(P(X\ge\lambda\sigma)\le \exp(-t\lambda\sigma+t^2\sigma^2)\)。因为 \(t\le\lambda/2\sigma\)，所以 \(t^2\sigma^2=t\cdot(t\sigma^2)\le t\cdot\frac{\lambda}{2\sigma}\cdot\sigma^2=\frac{t\lambda\sigma}{2}\)，于是指数 \(\le -t\lambda\sigma+\frac{t\lambda\sigma}{2}=-\frac{t\lambda\sigma}{2}\)，即得 (1.18)。

从 (1.18) 怎样回到 (1.17) 代入 \(t=\min(\lambda/2\sigma,1)\) 分两种情况看 \(e^{-t\lambda\sigma/2}\)：

若 \(\lambda/2\sigma\le 1\)（即 \(\lambda\) 不太大），取 \(t=\lambda/2\sigma\)，则 \(e^{-t\lambda\sigma/2}=e^{-(\lambda/2\sigma)\lambda\sigma/2}=e^{-\lambda^2/4}\)。
若 \(\lambda/2\sigma> 1\)（\(\lambda\) 很大），取 \(t=1\)，则 \(e^{-t\lambda\sigma/2}=e^{-\lambda\sigma/2}\)。
两种情形合起来即 \(P(X\ge\lambda\sigma)\le\max(e^{-\lambda^2/4},e^{-\lambda\sigma/2})\)；上、下两尾相加，得到前置因子 \(2\)，这就是 (1.17)。

很多个相互独立、各自有界的随机变量加起来，结果几乎总落在均值 \(E(X)\) 附近、宽度约为标准差 \(\sigma\) 的窄带里。偏离 \(\lambda\sigma\) 之外的概率被切尔诺夫不等式压成指数小 \(e^{-\lambda^2/4}\)。这就是“集中（concentration）”现象。

现在让我们考虑一个特殊但重要的情形：当诸 \(X_i\) 是相互独立的布尔（或伯努利）变量时。

推论 1.9 设 \(X=t_1+\cdots+t_n\)，其中 \(t_i\) 是相互独立的布尔随机变量。则对任意 \(\varepsilon>0\)， \[P\big(|X-E(X)|\ge \varepsilon E(X)\big)\le 2\,e^{-\min(\varepsilon^2/4,\,\varepsilon/2)\,E(X)}.\tag{1.19}\]

推论 1.9 是怎样从定理 1.8 推出来的所谓“布尔变量” \(t_i\) 就是只取 \(0\) 或 \(1\) 的随机变量（比如“第 \(i\) 件事发生记 \(1\)，不发生记 \(0\)”）。

验证定理 1.8 的前提。 因 \(t_i\in\{0,1\}\)，其均值 \(E(t_i)=p_i\in[0,1]\)，故 \(|t_i-E(t_i)|\le1\)，满足有界假设。
关键不等式 \(\sigma^2\le E(X)\)。 单个布尔变量方差 \(\mathrm{Var}(t_i)=p_i(1-p_i)\le p_i=E(t_i)\)。对独立变量方差相加：\(\sigma^2=\sum p_i(1-p_i)\le\sum p_i=E(X)\)。
把偏差 \(\varepsilon E(X)\) 写成 \(\lambda\sigma\)。 令 \(\lambda\sigma=\varepsilon E(X)\)，即 \(\lambda=\varepsilon E(X)/\sigma\)。代入 (1.17)。
逐项放大指数（使界更宽、仍成立）。 \(\dfrac{\lambda^2}{4}=\dfrac{\varepsilon^2 E(X)^2}{4\sigma^2}\ge\dfrac{\varepsilon^2 E(X)}{4}\)（用了 \(\sigma^2\le E(X)\)），故 \(e^{-\lambda^2/4}\le e^{-\varepsilon^2E(X)/4}\)；又 \(\dfrac{\lambda\sigma}{2}=\dfrac{\varepsilon E(X)}{2}\)，故 \(e^{-\lambda\sigma/2}=e^{-\varepsilon E(X)/2}\)。
合并。 \(\max\) 的两项都被 \(e^{-\min(\varepsilon^2/4,\varepsilon/2)E(X)}\) 控制，于是 \(P\le 2e^{-\min(\varepsilon^2/4,\varepsilon/2)E(X)}\)，即 (1.19)。

这个形式之所以好用，是因为右端只依赖于相对误差 \(\varepsilon\) 与期望 \(E(X)\) 这两个量——在组合应用里，我们往往一眼就能估出 \(E(X)\)。

例：抛 \(n\) 次硬币设 \(t_i\) 表示第 \(i\) 次抛掷是否为正面（正面记 \(1\)，反面记 \(0\)，公平硬币 \(p=1/2\)），它们相互独立。\(X=t_1+\cdots+t_n\) 是正面总数，\(E(X)=n/2\)。问：正面数偏离 \(n/2\) 超过 \(10\%\)（即 \(\varepsilon=0.1\)）的概率有多大？

由 (1.19)，\(\min(\varepsilon^2/4,\varepsilon/2)=\min(0.0025,\,0.05)=0.0025\)。
故 \(P(|X-n/2|\ge 0.1\cdot n/2)\le 2e^{-0.0025\,(n/2)}=2e^{-n/800}\)。
取 \(n=10000\)：上界为 \(2e^{-12.5}\approx 7.5\times10^{-6}\)。也就是说，抛一万次硬币，正面数偏离 \(5000\) 超过 \(\pm500\) 的概率不到百万分之八。
对比切比雪夫：\(\sigma^2=n/4=2500\)，\(\sigma=50\)，偏差 \(500=10\sigma\)，切比雪夫只给 \(P\le 1/10^2=0.01\)。指数矩方法把界从 \(10^{-2}\) 改进到了 \(10^{-6}\)——这就是它的威力。

¹ 为避免可积性或可测性方面的问题，在讨论中我们不妨假设这里的随机变量 \(X\) 只取有限多个值；这恰是组合应用中重要的情形。

返回全书目录