1.3 指数矩方法The exponential moment method
本页为译文 + 高中讲解合一:黑色正文为忠实翻译;彩色框(目标 / 例 / 分步推演)与配图为面向高中生的详解,逐步推演、举例、画图,不用比喻。
切比雪夫不等式表明:如果我们能控制二阶矩 \(\mathrm{Var}(X)=E(|X-E(X)|^2)\),那么随机变量 \(X\) 以概率 \(1-O(\lambda^{-2})\) 取到值 \(E(X)+O(\lambda\,\mathrm{Var}(X)^{1/2})\)。如果改用更高阶的矩,就能得到比 \(O(\lambda^{-2})\) 更好的尾概率衰减。特别地,如果我们能控制诸如 \(E(e^{tX})\)(\(t\) 为某个实参数)这样的指数矩1,那么就能在上、下尾概率中得到指数式的衰减,因为马尔可夫不等式给出
\[P(X\ge\lambda)=P(e^{tX}\ge e^{t\lambda})\le \frac{E(e^{tX})}{e^{t\lambda}}\tag{1.15}\]对 \(t>0\) 与 \(\lambda\in\mathbb{R}\) 成立,类似地
\[P(X\le-\lambda)=P(e^{-tX}\ge e^{t\lambda})\le \frac{E(e^{-tX})}{e^{t\lambda}}\tag{1.16}\]对相同范围的 \(t,\lambda\) 成立。量 \(E(e^{tX})\) 称为 \(X\) 的一个指数矩(exponential moment),而函数 \(t\mapsto E(e^{tX})\) 称为矩生成函数(moment generating function),这要归功于泰勒展开
\[E(e^{tX})=1+tE(X)+\frac{t^2}{2!}E(X^2)+\frac{t^3}{3!}E(X^3)+\cdots .\]运用 (1.15) 或 (1.16) 的做法就称为指数矩方法(the exponential moment method)。当然,要想有效使用它,必须能够计算出指数矩 \(E(e^{tX})\)。计算它的一件预备工具是下面的引理。
- 事件 \(\{X\ge\lambda\}\) 与事件 \(\{e^{tX}\ge e^{t\lambda}\}\) 完全等价——因为 \(t>0\) 时 \(u\mapsto e^{tu}\) 严格递增,两边取这个函数不改变大小关系。
- 对非负随机变量 \(e^{tX}\) 用马尔可夫不等式 \(P(Y\ge a)\le E(Y)/a\),取 \(Y=e^{tX}\)、\(a=e^{t\lambda}\),即得 (1.15)。
- 注意 \(t\) 是我们自由选取的参数。证明的常规套路是:先写出含 \(t\) 的上界,再挑一个最优的 \(t\) 把这个上界压到最小。
- 为什么 \(e^{u}\le 1+u+u^2\) 在 \(|u|\le 1\) 上成立(这里 \(u=tX\))。 标准展开 \(e^{u}=1+u+\frac{u^2}{2!}+\frac{u^3}{3!}+\cdots\)。把从 \(u^2\) 起的尾巴 \(\frac{u^2}{2}+\frac{u^3}{6}+\cdots\) 和 \(u^2\) 比:当 \(|u|\le 1\) 时,可以验证这条尾巴不超过 \(u^2\)(因为 \(\frac1{2!}+\frac1{3!}+\cdots=e-2\approx0.718<1\),而高次幂只会让 \(|u|\le1\) 的项更小)。于是 \(e^{u}\le 1+u+u^2\)。
- 取期望并用 \(E(X)=0\)。 \(E(e^{tX})\le E(1+tX+t^2X^2)=1+t\,E(X)+t^2E(X^2)=1+t^2E(X^2)\)。
- 认出方差。 因为 \(E(X)=0\),所以 \(\mathrm{Var}(X)=E(X^2)-E(X)^2=E(X^2)\)。故上界即 \(1+t^2\mathrm{Var}(X)\)。
- 最后一步放缩。 对任意实数 \(s\) 有 \(1+s\le e^{s}\)(一条永远成立的基本不等式)。取 \(s=t^2\mathrm{Var}(X)\),得 \(1+t^2\mathrm{Var}(X)\le \exp(t^2\mathrm{Var}(X))\)。把上界写成指数形式,是为了下一步在多个变量相乘时方便“指数相加”。
这条引理本身的威力并不算大,因为它同时要求 \(X\) 与 \(t\) 都有界。然而,当它被应用到若干有界随机变量之和 \(X=X_1+\cdots+X_n\) 时,威力会被大大放大——前提是我们有一个非常强的假设:\(X_1,\dots,X_n\) 之间相互联合独立。更确切地说,我们有下面的定理。
不严格地说,(1.17) 断言:\(X=E(X)+O(\mathrm{Var}(X)^{1/2})\) 以高概率成立,而 \(X=E(X)+O(\ln^{1/2}n\,\mathrm{Var}(X)^{1/2})\) 以极高概率成立(即概率为 \(1-O(n^{-C})\),其中 \(C\) 可取得很大)。当 \(\lambda\) 很大时,切尔诺夫定理给出的界相比切比雪夫不等式是一个巨大的改进。然而,\(X_i\) 的联合独立性是不可或缺的(习题 1.3.8)。在后文中,我们将发展切尔诺夫不等式的若干变体,其中允许 \(X_i\) 之间存在某种有限的相互作用。
- “高概率”那句。 在 (1.17) 中取 \(\lambda\) 为一个固定常数(比如 \(\lambda=10\)),右端就是一个固定的小数,于是 \(|X-E(X)|\le \lambda\sigma=O(\sigma)=O(\mathrm{Var}(X)^{1/2})\) 以接近 \(1\) 的概率成立。
- “极高概率”那句。 想让失败概率小到 \(n^{-C}\),就需要右端 \(e^{-\lambda^2/4}\approx n^{-C}\),即 \(\lambda^2/4\approx C\ln n\),于是 \(\lambda\approx 2\sqrt{C\ln n}=O(\ln^{1/2}n)\)。代回偏差 \(\lambda\sigma\),就得到 \(O(\ln^{1/2}n\,\mathrm{Var}(X)^{1/2})\)。这解释了那个 \(\ln^{1/2}n\) 因子从何而来。
- 与切比雪夫对比。 切比雪夫只保证失败概率 \(\le\lambda^{-2}\),要做到 \(n^{-C}\) 需 \(\lambda\approx n^{C/2}\),偏差大得离谱;切尔诺夫只需 \(\lambda\approx\sqrt{\ln n}\)。这就是“巨大改进”。
- 标准化 \(E(X_i)=0\)。 平移每个变量不改变方差,也不改变 \(X-E(X)\),所以不失一般性可设均值为零。这样才能直接套用引理 1.7(它要求 \(E(X_i)=0\),且此时 \(|X_i|\le1\) 正是定理假设 \(|X_i-E(X_i)|\le1\))。
- 为什么只看上尾就够。 把 \(X\) 换成 \(-X\) 后下尾 \(P(X\le-\lambda\sigma)\) 变成上尾,结构完全一样,所以证一个、另一个免费得到;两尾相加就是开头那个 \(2\) 的来源。
- 独立 ⟹ 期望可拆成乘积。 相互独立的随机变量,其乘积的期望等于各自期望的乘积:\(E(\prod e^{tX_i})=\prod E(e^{tX_i})\)。这一步是整个证明的心脏,也是为什么必须假设联合独立。
- 对每个因子用引理 1.7。 得到 \(\prod \exp(t^2\mathrm{Var}(X_i))=\exp\!\big(t^2\sum\mathrm{Var}(X_i)\big)=\exp(t^2\sigma^2)\)。指数写法在这里大放异彩:相乘变成了指数上的相加。
- 独立 ⟹ 方差可相加(公式 1.9)。 \(\mathrm{Var}(X_1+\cdots+X_n)=\mathrm{Var}(X_1)+\cdots+\mathrm{Var}(X_n)=\sigma^2\),把上一步的和换成 \(\sigma^2\)。
- 挑最优 \(t\),收尾。 现在 \(P(X\ge\lambda\sigma)\le \exp(-t\lambda\sigma+t^2\sigma^2)\)。因为 \(t\le\lambda/2\sigma\),所以 \(t^2\sigma^2=t\cdot(t\sigma^2)\le t\cdot\frac{\lambda}{2\sigma}\cdot\sigma^2=\frac{t\lambda\sigma}{2}\),于是指数 \(\le -t\lambda\sigma+\frac{t\lambda\sigma}{2}=-\frac{t\lambda\sigma}{2}\),即得 (1.18)。
- 若 \(\lambda/2\sigma\le 1\)(即 \(\lambda\) 不太大),取 \(t=\lambda/2\sigma\),则 \(e^{-t\lambda\sigma/2}=e^{-(\lambda/2\sigma)\lambda\sigma/2}=e^{-\lambda^2/4}\)。
- 若 \(\lambda/2\sigma> 1\)(\(\lambda\) 很大),取 \(t=1\),则 \(e^{-t\lambda\sigma/2}=e^{-\lambda\sigma/2}\)。
- 两种情形合起来即 \(P(X\ge\lambda\sigma)\le\max(e^{-\lambda^2/4},e^{-\lambda\sigma/2})\);上、下两尾相加,得到前置因子 \(2\),这就是 (1.17)。
现在让我们考虑一个特殊但重要的情形:当诸 \(X_i\) 是相互独立的布尔(或伯努利)变量时。
- 验证定理 1.8 的前提。 因 \(t_i\in\{0,1\}\),其均值 \(E(t_i)=p_i\in[0,1]\),故 \(|t_i-E(t_i)|\le1\),满足有界假设。
- 关键不等式 \(\sigma^2\le E(X)\)。 单个布尔变量方差 \(\mathrm{Var}(t_i)=p_i(1-p_i)\le p_i=E(t_i)\)。对独立变量方差相加:\(\sigma^2=\sum p_i(1-p_i)\le\sum p_i=E(X)\)。
- 把偏差 \(\varepsilon E(X)\) 写成 \(\lambda\sigma\)。 令 \(\lambda\sigma=\varepsilon E(X)\),即 \(\lambda=\varepsilon E(X)/\sigma\)。代入 (1.17)。
- 逐项放大指数(使界更宽、仍成立)。 \(\dfrac{\lambda^2}{4}=\dfrac{\varepsilon^2 E(X)^2}{4\sigma^2}\ge\dfrac{\varepsilon^2 E(X)}{4}\)(用了 \(\sigma^2\le E(X)\)),故 \(e^{-\lambda^2/4}\le e^{-\varepsilon^2E(X)/4}\);又 \(\dfrac{\lambda\sigma}{2}=\dfrac{\varepsilon E(X)}{2}\),故 \(e^{-\lambda\sigma/2}=e^{-\varepsilon E(X)/2}\)。
- 合并。 \(\max\) 的两项都被 \(e^{-\min(\varepsilon^2/4,\varepsilon/2)E(X)}\) 控制,于是 \(P\le 2e^{-\min(\varepsilon^2/4,\varepsilon/2)E(X)}\),即 (1.19)。
- 由 (1.19),\(\min(\varepsilon^2/4,\varepsilon/2)=\min(0.0025,\,0.05)=0.0025\)。
- 故 \(P(|X-n/2|\ge 0.1\cdot n/2)\le 2e^{-0.0025\,(n/2)}=2e^{-n/800}\)。
- 取 \(n=10000\):上界为 \(2e^{-12.5}\approx 7.5\times10^{-6}\)。也就是说,抛一万次硬币,正面数偏离 \(5000\) 超过 \(\pm500\) 的概率不到百万分之八。
- 对比切比雪夫:\(\sigma^2=n/4=2500\),\(\sigma=50\),偏差 \(500=10\sigma\),切比雪夫只给 \(P\le 1/10^2=0.01\)。指数矩方法把界从 \(10^{-2}\) 改进到了 \(10^{-6}\)——这就是它的威力。
1 为避免可积性或可测性方面的问题,在讨论中我们不妨假设这里的随机变量 \(X\) 只取有限多个值;这恰是组合应用中重要的情形。
返回 全书目录