1.1 第一矩方法The first moment method
本页为译文 + 高中讲解合一:黑色正文为忠实翻译;彩色框(目标 / 例 / 分步推演)与配图为面向高中生的详解,逐步推演、举例、画图,不用比喻。
0 先约定记号(本节会反复用到)
在进入正题前,先回顾几个记号。对事件 \(E\),记 \(\mathbf P(E)\) 为它发生的概率;记 \(I(E)\) 为它的示性函数(指示变量):当 \(E\) 发生时 \(I(E)=1\),否则 \(I(E)=0\)。对随机变量 \(X\),记 \(\mathbf E(X)\) 为它的期望(也叫一阶矩、平均值),\(\operatorname{Var}(X)\) 为它的方差。例如
\[\mathbf E\big(I(E)\big)=\mathbf P(E);\qquad \operatorname{Var}\big(I(E)\big)=\mathbf P(E)-\mathbf P(E)^2.\tag{1.1}\]若 \(F\) 是一个非零概率的事件,我们定义另一事件 \(E\) 关于 \(F\) 的条件概率为 \[\mathbf P(E\mid F):=\frac{\mathbf P(E\wedge F)}{\mathbf P(F)},\] 并类似地定义随机变量 \(X\) 的条件期望为 \[\mathbf E(X\mid F):=\frac{\mathbf E\big(X\,I(F)\big)}{\mathbf E\big(I(F)\big)}=\sum_x x\,\mathbf P(X=x\mid F).\] 若一个随机变量取值落在 \(\{0,1\}\) 中,就称它是布尔型(boolean)的;等价地,它就是某个事件 \(E\) 的示性函数 \(I(E)\)。
1 第一矩方法与马尔可夫不等式
概率方法最简单的实例就是第一矩方法,它试图用一个随机变量 \(X\) 的期望(即一阶矩)\(\mathbf E(X)\) 来控制 \(X\) 的分布。首先有一个平凡的观察(本质上就是鸽笼原理):
\(X\le \mathbf E(X)\) 以正概率发生,且 \(X\ge \mathbf E(X)\) 也以正概率发生。
它的一个更定量的版本如下。
这个证明短得几乎让人怀疑,下面把它拆开,逐步看清每一步的动机。
- 为什么 \(X\ge\lambda\,I(X\ge\lambda)\) 恒成立? 分两种情况验证(这就是“逐点比较”):
- 若事件 \(X\ge\lambda\) 发生:此时 \(I(X\ge\lambda)=1\),右边 \(=\lambda\);而左边 \(X\ge\lambda\),故 \(X\ge\lambda\) 成立。✔
- 若事件 \(X\ge\lambda\) 不发生:此时 \(I(X\ge\lambda)=0\),右边 \(=0\);而 \(X\) 非负,故 \(X\ge 0\) 成立。✔(这里正是用到 \(X\ge0\) 这个条件。)
- 取期望。 期望保持不等号方向(若处处 \(Y\ge Z\),则 \(\mathbf E(Y)\ge\mathbf E(Z)\))。于是 \[\mathbf E(X)\ge\mathbf E\big(\lambda\,I(X\ge\lambda)\big)=\lambda\,\mathbf E\big(I(X\ge\lambda)\big)=\lambda\,\mathbf P(X\ge\lambda).\] 最后一步用了 (1.1) 的 \(\mathbf E(I(E))=\mathbf P(E)\)。
- 两边除以 \(\lambda>0\),即得 \(\mathbf P(X\ge\lambda)\le \mathbf E(X)/\lambda\)。
不太严格地说,这个不等式断言:以高概率有 \(X=O(\mathbf E(X))\)。例如,取 \(\lambda=10\,\mathbf E(X)\),便得 \(\mathbf P\big(X\ge 10\,\mathbf E(X)\big)\le \tfrac1{10}\),即 \(X\le 10\,\mathbf E(X)\) 至少以概率 \(0.9\) 成立。注意这只是一个上尾估计:它给出 \(X\) 大幅超过 \(\mathbf E(X)\) 的可能性有多小的上界,却不能控制 \(X\) 大幅小于 \(\mathbf E(X)\) 的可能性。事实上,如果我们只知道期望 \(\mathbf E(X)\),那么不难看出 \(X\) 可以以任意接近 \(1\) 的概率取到零——所以第一矩方法给不出任何非平凡的下尾估计。稍后我们会引入更精细的方法,例如第二矩方法,它能同时给出进一步的上尾与下尾估计。
2 期望的线性性
要使用第一矩方法,当然需要会计算随机变量的期望。计算期望的一件根本工具是期望的线性性,它断言:当 \(X_1,\dots,X_n\) 是随机变量、\(c_1,\dots,c_n\) 是实数时, \[\mathbf E(c_1X_1+\cdots+c_nX_n)=c_1\mathbf E(X_1)+\cdots+c_n\mathbf E(X_n).\tag{1.3}\] 这条原理威力的来源在于:对各个 \(X_i\) 之间的独立或依赖关系毫无限制——无论它们怎样相互纠缠,等式 (1.3) 照样成立。
(1.3) 一个非常典型的应用,是估计某给定集合 \(A\) 的子集 \(B\) 的大小 \(|B|\),其中 \(B\) 是以某种随机方式生成的。由显然的恒等式 \[|B|=\sum_{a\in A}I(a\in B),\] 再结合 (1.3) 与 (1.1),便得 \[\mathbf E(|B|)=\sum_{a\in A}\mathbf P(a\in B).\tag{1.4}\] 我们再次强调:为使 (1.4) 成立,诸事件 “\(a\in B\)” 无需相互独立。
- 恒等式 \(|B|=\sum_{a\in A}I(a\in B)\) 为什么对? 让 \(a\) 跑遍大集合 \(A\)。某个 \(a\) 若落在 \(B\) 里,就贡献 \(I(a\in B)=1\);否则贡献 \(0\)。把这些 \(0\) 和 \(1\) 加起来,正好数出 \(B\) 里有多少元素,即 \(|B|\)。
- 取期望并用线性性。 \(\mathbf E(|B|)=\mathbf E\Big(\sum_{a\in A}I(a\in B)\Big)\overset{(1.3)}{=}\sum_{a\in A}\mathbf E\big(I(a\in B)\big)\overset{(1.1)}{=}\sum_{a\in A}\mathbf P(a\in B).\)
3 联合界(Union bound)
期望线性性原理的一个较弱版本是联合界:对任意事件 \(E_1,\dots,E_n\), \[\mathbf P(E_1\vee\cdots\vee E_n)\le\mathbf P(E_1)+\cdots+\mathbf P(E_n).\tag{1.5}\] (把它和 (1.3) 比较:在 (1.3) 中取 \(X_i:=I(E_i)\)、\(c_i:=1\)。)这个平凡的界依然很有用,尤其当事件 \(E_1,\dots,E_n\) 都罕见且相互关联不太强时(见习题 1.1.3)。
- “至少一个发生”等于 “\(N\ge1\)”。对非负整数变量 \(N\) 用马尔可夫不等式(\(\lambda=1\)):\(\mathbf P(N\ge1)\le \mathbf E(N)\)。
- 由线性性 \(\mathbf E(N)=\sum_i\mathbf E(I(E_i))=\sum_i\mathbf P(E_i)\)。合起来即 (1.5)。
- 它“浪费”在哪里:若两个事件有重叠,直接相加会把重叠部分的概率重复计入,所以只得到上界(“\(\le\)”而非“\(=\)”)。当事件都很罕见、几乎不重叠时,这个上界就相当准。
下面是一个与之相关的估计。
博雷尔–坎泰利引理另一种有用的表述是:若 \(F_1,F_2,\dots\) 是一列事件,满足 \(\sum_n\big(1-\mathbf P(F_n)\big)<\infty\),则以概率 \(1\),事件 \(F_n\) 中除有限个外全部发生。
- 设个数变量。 令 \(N=\sum_n I(E_n)\),它数的是“有多少个 \(E_n\) 发生”。其期望是 \(\mathbf E(N)=\sum_n\mathbf P(E_n)\),记这个有限的数为 \(S\)。
- 马尔可夫(\(\lambda=M\))。 \(\mathbf P(N\ge M)\le \dfrac{\mathbf E(N)}{M}=\dfrac{S}{M}.\)
- 取对立事件。 “发生的少于 \(M\) 个”就是 \(N
- “至多有限个”从何而来。 因 \(S=\sum_n\mathbf P(E_n)\) 有限,当 \(M\to\infty\) 时右端 \(1-S/M\to1\)。也就是说,“发生个数小于任意大的 \(M\)” 的概率都接近 \(1\),故发生个数有限的概率为 \(1\)。
- 对偶表述。 把 \(E_n\) 换成 “\(F_n\) 不发生” 这一事件,其概率为 \(1-\mathbf P(F_n)\);条件 \(\sum_n(1-\mathbf P(F_n))<\infty\) 即“\(F_n\) 不发生”至多有限个,等价于 \(F_n\) 除有限个外全部发生。
返回 全书目录