Tao–Vu · 加性组合学 · 第 1 章 概率方法

1.6 Janson 不等式Janson’s inequality

本页为译文 + 高中讲解合一:黑色正文为忠实翻译;彩色框(目标 / 例 / 分步推演 / 自测)与配图为面向高中生的详解,逐步推演、举例、画图,不用比喻。

本节目标在推论 1.9 中,我们已经为和式 \(t_1+\dots+t_n\)(一堆相互独立的 0/1 变量相加)建立了大偏差不等式。但许多应用里出现的量不是简单的和,而是一些乘积项的和,例如“随机图里三角形的个数”“随机集合里某种和式表示的个数”。这些乘积项彼此不独立(共用了同一个 \(t_j\)),所以旧办法不能直接套用。本节要解决的问题是:这样一个量 \(X\) 取值偏小(特别是 \(X=0\),即“一个都没有”)的概率有多大?答案就是 Janson 不等式,它的关键在于一个度量“项与项之间相互依赖程度”的量 \(\Delta\)。

1.6.1 布尔多项式与问题的提出

设 \(t_1,\dots,t_n\) 是联合独立的布尔(即取值 \(0\) 或 \(1\))随机变量。在推论 1.9 中,我们为多项式 \(t_1+\dots+t_n\) 建立了一个大偏差不等式。在许多应用中,对布尔变量 \(t_1,\dots,t_n\) 的更一般多项式 \(P(t_1,\dots,t_n)\) 求大偏差不等式同样是有意义的。一个特别重要的情形是布尔多项式

\[ X := \sum_{A\in\mathcal{A}}\ \prod_{j\in A} t_j, \]

其中 \(\mathcal{A}\) 是 \([1,n]\) 的某些非空子集构成的一个集族。注意,布尔多项式自动是非负单调递增的;因此,由 FKG 不等式(定理 1.19)可知,任意两个布尔多项式都是正相关的。更一般地,若 \(X\) 与 \(Y\) 是布尔多项式,则只要 \(f\) 是单调递增或单调递减的函数,\(f(X)\) 与 \(f(Y)\) 就是正相关的。特别地,我们得到

\[ \mathbb{E}\, e^{-s(X+Y)} \ \ge\ \mathbb{E}\, e^{-sX}\ \mathbb{E}\, e^{-sY} \tag{1.34} \]

对任意实数 \(s\) 成立。利用这个事实、指数矩方法以及一些额外的凸性论证,Janson [190] 导出了一个关于下尾概率 \(\mathbb{P}(X\le \mathbb{E}(X)-T)\) 的有力界。

先把记号读懂:\(X\) 到底在数什么

每个 \(A\in\mathcal{A}\) 是一组下标,例如 \(A=\{2,5\}\)。对应的那一项 \(\prod_{j\in A}t_j=t_2 t_5\),它等于 \(1\) 当且仅当 \(t_2=t_5=1\)(这一组下标“全部被点亮”),否则等于 \(0\)。所以

\[ X=\sum_{A\in\mathcal{A}}\prod_{j\in A}t_j=\#\{A\in\mathcal{A}:\ A\text{ 中的下标全部被点亮}\}. \]

也就是说,\(X\) 在数“有多少组被完整点亮”。例如下图取 \(n=5\),\(\mathcal{A}=\{\{1,2\},\{2,3\},\{4,5\}\}\),若 \(t_1=t_2=t_3=1\)、\(t_4=1,t_5=0\),则被完整点亮的组是 \(\{1,2\}\) 与 \(\{2,3\}\),故 \(X=2\)。

t1=1 t2=1 t3=1 t4=1 t5=0 {1,2} 全亮 → 1 {2,3} 全亮 → 1 {4,5} 缺 t5 → 0
\(X\) 计数“下标被全部点亮”的组:这里两组点亮、一组没点亮,故 \(X=2\)。当 \(X=0\) 时表示“没有任何一组被完整点亮”。
为什么这些项不独立、(1.34) 又在说什么

若两组共用了下标,例如 \(A=\{1,2\}\) 与 \(B=\{2,3\}\) 都含 \(t_2\),那么 \(\prod_{j\in A}t_j\) 与 \(\prod_{j\in B}t_j\) 就不独立:知道前者为 \(1\)(说明 \(t_2=1\))会提高后者为 \(1\) 的概率。这正是 \(X\) 不能直接当成“独立项之和”来处理的根源。

(1.34) 说的是:对于布尔多项式 \(X,Y\),把 \(e^{-s\,\cdot}\) 看成 \(X+Y\) 的单调函数,由正相关性,“先合后取期望”不小于“各自取期望再相乘”。这是下面证明能“拆开”的唯一缝隙——它取代了独立情形下的等式 \(\mathbb{E}\,e^{-s(X+Y)}=\mathbb{E}\,e^{-sX}\,\mathbb{E}\,e^{-sY}\),只不过这里是“\(\ge\)”而非“\(=\)”。

1.6.2 Janson 不等式

定理 1.28(Janson 不等式)设 \(t_1,\dots,t_n,\ \mathcal{A},\ X\) 如上所述。则对任意 \(0\le T\le \mathbb{E}(X)\),有下尾估计 \[ \mathbb{P}\big(X\le \mathbb{E}(X)-T\big)\ \le\ \exp\!\left(-\frac{T^2}{2\Delta}\right), \] 其中 \[ \Delta\ =\ \sum_{\substack{A,B\in\mathcal{A}:\ A\cap B\neq\varnothing}}\ \mathbb{E}\!\left(\prod_{j\in A\cup B} t_j\right). \] 特别地,我们有 \[ \mathbb{P}(X=0)\ \le\ \exp\!\left(-\frac{\mathbb{E}(X)^2}{2\Delta}\right). \]
把 \(\Delta\) 读懂:它在量化“依赖程度”

求和只跑遍那些相交的有序对 \((A,B)\)(即 \(A\cap B\neq\varnothing\),含 \(A=B\) 本身)。两组若相交,它们对应的项就互相牵连;\(\Delta\) 把所有这种牵连按 \(\mathbb{E}(\prod_{j\in A\cup B}t_j)\) 加权累加起来——它越大,说明项与项之间的依赖越强。

取 \(T=\mathbb{E}(X)\) 就得到最常用的特例 \(\mathbb{P}(X=0)\le \exp(-\mathbb{E}(X)^2/2\Delta)\):只要平均还有不少东西(\(\mathbb{E}(X)\) 大)而依赖又不太强(\(\Delta\) 不太大),那么“一个都没有”几乎不可能发生。

注记 1.29 非正式地说,Janson 不等式断言:若 \(\Delta=O(\mathbb{E}(X)^2)\),则 \(X=\Theta(\mathbb{E}(X))\) 以很大概率成立。在 \(\mathcal{A}\) 恰好是单元素族 \(\{1\},\dots,\{n\}\) 的情形,有 \(X=t_1+\dots+t_n\),\(\Delta=\mathbb{E}(X)\),于是上述论断本质上就是(推论 1.9 的下半部分)。
单元素情形:为什么 \(\Delta=\mathbb{E}(X)\)、又怎样回到推论 1.9

当每个 \(A\) 只含一个下标时,两组 \(A=\{i\},B=\{j\}\) 相交当且仅当 \(i=j\)。于是相交对只有“对角线” \(A=B\) 这一种,

\[ \Delta=\sum_{i}\mathbb{E}(t_i)=\mathbb{E}(t_1+\dots+t_n)=\mathbb{E}(X). \]

代入 \(\mathbb{P}(X\le\mathbb{E}(X)-T)\le\exp(-T^2/2\Delta)\),就得到 \(\exp(-T^2/2\mathbb{E}(X))\),正是独立 0/1 和式的标准下尾界(推论 1.9 的下半)。这说明 Janson 不等式是它的真正推广:把“互不相交的单点”换成“可能相交的子集”,代价就是分母从 \(\mathbb{E}(X)\) 变成更大的 \(\Delta\)。

B\A {1}{2}{3}{4} {1}{2}{3}{4} 只有对角线相交: Δ = Σ E(t_i) = E(X)
单元素族里,唯一相交的有序对是 \(A=B\)(对角线),故 \(\Delta\) 退化为 \(\mathbb{E}(X)\)。

1.6.3 把 \(\Delta\) 改写得更好用

量 \(\Delta\) 直接处理起来有点不方便。利用 \(t_j\) 的独立性,可以把它改写为

\[ \Delta\ =\ \sum_{A\in\mathcal{A}}\ \mathbb{E}\!\left(\prod_{j\in A}t_j\right)\ \sum_{\substack{B\in\mathcal{A}:\ A\cap B\neq\varnothing}}\ \mathbb{E}\!\left(\prod_{j\in B\setminus A}t_j\right). \]

由于 \(\mathbb{E}(X)=\sum_{A\in\mathcal{A}}\mathbb{E}\big(\prod_{j\in A}t_j\big)\),我们于是得到

\[ \Delta\ \le\ \mathbb{E}(X)\ \sup_{A\in\mathcal{A}}\ \sum_{\substack{B\in\mathcal{A}:\ A\cap B\neq\varnothing}}\ \mathbb{E}\!\left(\prod_{j\in B\setminus A}t_j\right). \tag{1.35} \]
这一步的逐步推演
  1. 对固定的相交对 \((A,B)\),把 \(A\cup B\) 分成两块:\(A\) 和 \(B\setminus A\)(两块无公共下标)。由独立性,\(\mathbb{E}\big(\prod_{j\in A\cup B}t_j\big)=\mathbb{E}\big(\prod_{j\in A}t_j\big)\cdot\mathbb{E}\big(\prod_{j\in B\setminus A}t_j\big)\)。
  2. 把 \(\Delta\) 中关于 \(B\) 的求和提出来,\(\mathbb{E}\big(\prod_{j\in A}t_j\big)\) 是与 \(B\) 无关的公因子,得到第一个等式。
  3. 把内层那个对 \(B\) 的和用它在所有 \(A\) 上的上确界 \(\sup_A\) 放大,再注意外层的 \(\sum_A\mathbb{E}(\prod_{j\in A}t_j)\) 恰是 \(\mathbb{E}(X)\),便得到 (1.35)。

(1.35) 的意义:要控制 \(\Delta\),只需对每一个 \(A\) 估出“与它相交的那些 \(B\) 所贡献的、扣掉重叠部分后的期望之和”,取最坏的一个即可。这把全局的双重求和化成了局部的、逐 \(A\) 的检验。

下面记录这个估计的一个特殊推论,它关于二次布尔多项式,我们稍后即将用到。

推论 1.30 设 \(t_1,\dots,t_n\) 如上,并令 \[ X=\sum_{\substack{1\le i\le j\le n:\ i\sim j}} t_i t_j, \] 其中 \(i\sim j\) 是 \([1,n]\) 上的某个对称关系。则有 \[ \mathbb{P}(X=0)\ \le\ \exp\!\left(-\frac{\mathbb{E}(X)}{\,2+4\sup_i\sum_{j:\,i\sim j}\mathbb{E}(t_j)\,}\right). \]
证明. 我们取 \(\mathcal{A}:=\{\{i,j\}:i\sim j\}\)。对任意 \(A\in\mathcal{A}\),容易验证 \[ \sum_{\substack{B\in\mathcal{A}:\ A\cap B\neq\varnothing}}\ \mathbb{E}\!\left(\prod_{j\in B\setminus A}t_j\right)\ \le\ 1+2\sup_i\sum_{j:\,i\sim j}\mathbb{E}(t_j), \] 于是由 (1.35) 与定理 1.28 即得结论。
把推论 1.30 翻译成“图”的语言

把对称关系 \(i\sim j\) 看成一张图:顶点是 \(1,\dots,n\),把每个满足 \(i\sim j\) 的对 \(\{i,j\}\) 连一条边。让每个顶点 \(j\) 以概率 \(\mathbb{E}(t_j)\) 独立地“被选中”(\(t_j=1\))。则 \(t_i t_j=1\) 当且仅当一条边的两个端点都被选中,于是

\[ X=\#\{\text{两端都被选中的边}\}. \]

“\(X=0\)” 就是“没有任何一条边的两端同时被选中”。下面验证那个不等式里 \(1+2\sup_i(\cdots)\) 是怎么来的:固定一条边 \(A=\{i,j\}\),与它相交的边 \(B\) 分三类。

i j A ① B=A:贡献 E(空积)=1 k ② 在 i 处相交 l ③ 在 j 处相交 ②③ 各贡献 ≤ sup_i Σ_{j:i∼j} E(t_j),相加得 2·sup;再加 ① 的 1
与 \(A=\{i,j\}\) 相交的边只可能在 \(i\) 处或 \(j\) 处与之共顶点(或就是 \(A\) 本身)。本身贡献 \(1\)(空积期望为 \(1\)),过 \(i\) 与过 \(j\) 各贡献至多 \(\sup_i\sum_{j:i\sim j}\mathbb{E}(t_j)\),合计 \(1+2\sup_i(\cdots)\)。

三类相加正好给出上界 \(1+2\sup_i\sum_{j:i\sim j}\mathbb{E}(t_j)\)。再把它放进 (1.35) 的 \(\sup_A\) 处、令 \(T=\mathbb{E}(X)\) 用定理 1.28,分母里的 \(2\Delta\) 就被 \(2\mathbb{E}(X)\cdot\big(1+2\sup(\cdots)\big)=\mathbb{E}(X)\cdot\big(2+4\sup(\cdots)\big)\) 代替,约去一个 \(\mathbb{E}(X)\) 后即得推论 1.30。

1.6.4 一个应用:素数的二阶互补基

在给出定理 1.28 的证明之前,让我们先给一个应用。这个应用再次涉及素数的互补基,但这一次是二阶而非一阶。下面的结果(应与定理 1.16 和定理 1.22 相比较)在 \(k=2\) 的情形最近由 Vu [376] 证明。

定理 1.31 对任意 \(k\ge 2\),素数集 \(P\) 有一个 \(k\) 阶互补基 \(B\in\mathbb{Z}^+\),满足对所有大的 \(n\) 都有 \(|B\cap[1,n]|=O(\log n)\)。
这条定理想说什么“\(P\) 的 \(k\) 阶互补基 \(B\)” 意思是:每个足够大的整数都能写成“\(1\) 个素数 + \(k\) 个 \(B\) 中元素”之和(这里 \(k=2\),即 \(n=p+i+j\),\(p\) 素数,\(i,j\in B\))。难点在于希望 \(B\) 尽可能稀疏:在 \([1,n]\) 中只放 \(O(\log n)\) 个元素,却仍能让所有大整数都被覆盖。下面用概率方法随机地造出这样一个 \(B\),并用 Janson 不等式(经推论 1.30)保证“某个 \(n\) 无法被表示”的概率小到可以忽略。
证明. 只需在 \(k=2\) 时建立结论即可。为构造 \(B\),我们再次使用概率方法。更确切地说,令 \(B\subset\mathbb{Z}^+\) 为一个随机集合,事件 \(n\in B\) 相互独立,概率为 \[ \mathbb{P}(n\in B)=\min\!\left(\frac{c}{n},\,1\right) \] 对所有 \(n\in\mathbb{Z}^+\) 成立,其中 \(c\) 是待定的正常数。和之前一样,我们不讨论“要求无穷多个独立随机变量”所带来的测度论问题,因为它们可以通过对本论证作适当的有限化来处理。令 \(t_n\) 为布尔随机变量 \(t_n:=\mathbb{I}(n\in B)\)。由推论 1.10,对所有大的 \(m\) 有 \[ \mathbb{P}\big(|B\cap[1,m]|\le 10c\log m\big)=1-O\!\left(\frac{1}{m^2}\right), \] 于是由 Borel–Cantelli 引理(引理 1.2),以概率 \(1\) 有 \[ |B\cap[1,m]|=O_c(\log m)\quad\text{对所有充分大的 }m>1. \tag{1.36} \] 现在,对每个 \(n\in\mathbb{Z}^+\),考虑计数函数 \[ r_{P+B+B}(n)=\big|\{(p,i,j)\in P\times B\times B:\ n=p+i+j\}\big|=\sum_{p缩减版本,即布尔多项式 \[ Y_n:=\sum_{\substack{i>j\ge n^{2/3}:\ i+j\in n-P}} t_i t_j. \] 显然 \(Y_n\le r_{P+B+B}(n)\),因此只需证明 \[ \mathbb{P}(Y_n=0)=O\!\left(\frac{1}{n^2}\right). \]
为什么要换成缩减版 \(Y_n\)

原始 \(r_{P+B+B}(n)\) 把所有满足 \(i+j=n-p\) 的对都算进来,包括 \(i=j\)(重复计数)和很小的 \(i,j\)(那里 \(\mathbb{P}(i\in B)=\min(c/i,1)\) 可能等于 \(1\),破坏估计)。\(Y_n\) 只保留 \(i>j\ge n^{2/3}\)(去掉小下标、去掉对角线 \(i=j\)),正好凑成推论 1.30 里那种“对称关系下的二次多项式”。因为 \(Y_n\le r_{P+B+B}(n)\),证明 \(Y_n>0\) 的概率高,就更强地保证了 \(r_{P+B+B}(n)>0\)。\(n-P\) 表示集合 \(\{n-p:p\in P,\ p

(续) 现在应用推论 1.30(用关系:\(i\sim j\) 当且仅当 \(i\ne j\) 且 \(i+j\in n-P\)),得到 \[ \mathbb{P}(Y_n=0)\ \le\ \exp\!\left(-\frac{\mathbb{E}(Y_n)}{\,2+4\sup_{i\ge n^{2/3}}\sum_{j\ge n^{2/3}:\,i+j\in n-P}\mathbb{E}(t_j)\,}\right). \] 由 \(t_j\) 的构造,以及附录中的命题 1.54,对任意 \(i\ge n^{2/3}\) 有 \[ \sum_{\substack{j\ge n^{2/3}:\ i+j\in n-P}}\mathbb{E}(t_j)=\sum_{p\le n-i-n^{2/3}}\min\!\left(\frac{c}{\,n-i-p\,},\,1\right)=O(c). \] 另一方面,由期望的线性性 (1.3) 与独立性,有 \[ \mathbb{E}(Y_n)=\sum_{\substack{i>j\ge n^{2/3}:\ i+j\in n-P}}\mathbb{E}(t_i t_j)=\sum_{\substack{i>j\ge n^{2/3}:\ i+j\in n-P}}\frac{c^2}{ij} \] \[ =c^2\sum_{p\le n-2n^{2/3}}\ \sum_{\substack{i>j\ge n^{2/3}:\ i+j=n-p}}\frac{1}{ij}=c^2\sum_{p\le n-2n^{2/3}}\frac{\log(n-p)}{n-p}=\Theta(c^2\log n), \] 其中最后一行再次使用了附录中的命题 1.54。把上述所有估计放在一起,我们得到 \[ \mathbb{P}(Y_n=0)\ \le\ \exp\big(-\Theta(c\log n)\big), \] 于是只要把 \(c\) 取得足够大,结论即成立。
收尾这一步的算账(逐步推演)
  1. 分母(依赖项):\(\sum_j \mathbb{E}(t_j)=O(c)\),所以推论 1.30 的分母 \(2+4\cdot O(c)=O(c)\)。
  2. 分子(平均值):\(\mathbb{E}(Y_n)=\Theta(c^2\log n)\),它随 \(n\to\infty\) 而趋于无穷,正是“平均上有很多种表示”。
  3. 相除:指数里的量 \(=\dfrac{\Theta(c^2\log n)}{O(c)}=\Theta(c\log n)\),故 \(\mathbb{P}(Y_n=0)\le e^{-\Theta(c\log n)}=n^{-\Theta(c)}\)。
  4. 选 \(c\):把 \(c\) 取大到使 \(\Theta(c)\ge 2\),便有 \(\mathbb{P}(Y_n=0)=O(1/n^2)\)。再用 Borel–Cantelli,几乎必然只有有限个 \(n\) 表示不出来——把这有限个补进 \(B\),并不破坏 (1.36) 的 \(O(\log n)\) 稀疏性。

关键点:分子是 \(c\) 的二次、分母是 \(c\) 的一次,所以增大 \(c\) 能让“失败概率”任意快地变小——这正是 Janson 不等式(经推论 1.30)赋予我们的杠杆。

1.6.5 定理 1.28 的证明

现在我们来证明定理 1.28。

定理 1.28 的证明. 我们将使用指数矩方法。通过一个极限论证,我们可以假设对所有 \(j\) 都有 \(\mathbb{P}(t_j=0),\ \mathbb{P}(t_j=1)>0\)。对任意 \(t>0\),引入矩母函数 \(F(t):=\mathbb{E}(e^{-tX})\)。由 (1.16) 有 \[ \mathbb{P}\big(X\le \mathbb{E}(X)-T\big)\ \le\ \frac{F(t)}{e^{-t(\mathbb{E}(X)-T)}}. \] 两边取对数,可见我们只需对某个 \(t>0\) 建立不等式 \[ \log F(t)+t(\mathbb{E}(X)-T)\ \le\ -\frac{T^2}{2\Delta}. \] 与定理 1.8 的情形不同,\(X\) 中的各被加项不一定独立,所以我们无法简单地把 \(F(t)=\mathbb{E}(e^{-tX})\) 分解为乘积。Janson 找到了一个绕过这一困难的漂亮论证。由于 \(F(0)=1\),由微积分基本定理可知 \[ \log F(t)=\int_0^t \frac{F'(s)}{F(s)}\,ds. \] 直接计算给出 \[ F'(s)=-\mathbb{E}(X e^{-sX})=-\sum_{A\in\mathcal{A}}\mathbb{E}\!\left(e^{-sX}\prod_{j\in A}t_j\right)=-\sum_{A\in\mathcal{A}}\mathbb{E}\big(e^{-sX}\,\big|\,E_A\big)\,\mathbb{P}(E_A), \] 其中 \(E_A\) 是事件“对所有 \(j\in A\) 都有 \(t_j=1\)”。于是,只需证明对某个 \(t>0\) 有 \[ \sum_{A\in\mathcal{A}}\mathbb{P}(E_A)\int_0^t \frac{\mathbb{E}(e^{-sX}\mid E_A)}{F(s)}\,ds-t(\mathbb{E}(X)-T)\ \ge\ \frac{T^2}{2\Delta}. \]
读懂开头三步
  1. Markov / 指数矩:对任意 \(t>0\),事件 \(\{X\le \mathbb{E}(X)-T\}\) 等价于 \(\{e^{-tX}\ge e^{-t(\mathbb{E}(X)-T)}\}\)(因 \(x\mapsto e^{-tx}\) 递减)。对非负量 \(e^{-tX}\) 用 Markov 不等式即得第一行。我们的目标就是为某个聪明选取的 \(t\) 把右边压到 \(e^{-T^2/2\Delta}\)。
  2. 用积分表示 \(\log F\):因为 \(F(0)=\mathbb{E}(e^0)=1\),\(\log F(t)=\log F(t)-\log F(0)=\int_0^t (\log F)'(s)\,ds=\int_0^t \frac{F'(s)}{F(s)}\,ds\)。把对数化成积分,是为了能逐点(对每个 \(s\))做估计。
  3. \(F'\) 的分解:\(F'(s)=\frac{d}{ds}\mathbb{E}(e^{-sX})=-\mathbb{E}(Xe^{-sX})\)。再把 \(X=\sum_A\prod_{j\in A}t_j\) 代入,每一项 \(\mathbb{E}(e^{-sX}\prod_{j\in A}t_j)\) 中的 \(\prod_{j\in A}t_j\) 是 \(0/1\) 的指示量,等于 \(1\) 恰好就是事件 \(E_A\);于是 \(\mathbb{E}(e^{-sX}\prod_{j\in A}t_j)=\mathbb{E}(e^{-sX}\mid E_A)\mathbb{P}(E_A)\)。这就把整体期望换成了“在 \(A\) 已被点亮的条件下”的期望——为下一步“拆掉与 \(A\) 无关的部分”做准备。
(续:拆分 \(X=Y_A+Z_A\)) 我们现在利用这样一个事实:\(e^{-sX}\) 的某些因子与 \(E_A\) 无关。对每个 \(A\in\mathcal{A}\),把 \(X\) 拆成 \(Y_A+Z_A\),它们是两个布尔多项式 \[ Y_A:=\sum_{\substack{B\in\mathcal{A}:\ A\cap B\neq\varnothing}}\ \prod_{j\in B}t_j;\qquad Z_A:=\sum_{\substack{B\in\mathcal{A}:\ A\cap B=\varnothing}}\ \prod_{j\in B}t_j. \] 由 (1.34)(在 \(E_A\) 所涉及的变量上取条件),我们得到 \[ \mathbb{E}(e^{-sX}\mid E_A)\ \ge\ \mathbb{E}(e^{-sY_A}\mid E_A)\,\mathbb{E}(e^{-sZ_A}\mid E_A). \] 另一方面,\(Z_A\) 与 \(E_A\) 独立,且从上方被 \(X\) 控制;因此 \[ \mathbb{E}(e^{-sZ_A}\mid E_A)=\mathbb{E}(e^{-sZ_A})\ \ge\ \mathbb{E}(e^{-sX})=F(s). \] 把这些估计合起来,我们就把问题化归为证明:对某个 \(t>0\) 有 \[ \sum_{A\in\mathcal{A}}\mathbb{P}(E_A)\int_0^t \mathbb{E}(e^{-sY_A}\mid E_A)\,ds-t(\mathbb{E}(X)-T)\ \ge\ \frac{T^2}{2\Delta}. \]
\(Y_A\) 与 \(Z_A\) 是怎么分的、为什么这样分

固定 \(A\),把所有 \(B\in\mathcal{A}\) 按“是否与 \(A\) 相交”分成两堆:

A(已点亮 = E_A) 与 A 相交 → 进 Y_A 与 A 不相交 → 进 Z_A(独立于 E_A)
\(X=Y_A+Z_A\):\(Y_A\) 收集所有“碰到 \(A\)”的项,\(Z_A\) 收集所有“躲开 \(A\)”的项。
  1. 由正相关 (1.34),\(\mathbb{E}(e^{-sX}\mid E_A)=\mathbb{E}(e^{-s(Y_A+Z_A)}\mid E_A)\ge \mathbb{E}(e^{-sY_A}\mid E_A)\mathbb{E}(e^{-sZ_A}\mid E_A)\)。
  2. \(Z_A\) 独立于 \(E_A\),故取条件没影响:\(\mathbb{E}(e^{-sZ_A}\mid E_A)=\mathbb{E}(e^{-sZ_A})\)。又 \(Z_A\le X\)(少了若干非负项),所以 \(e^{-sZ_A}\ge e^{-sX}\),取期望得 \(\ge F(s)\)。
  3. 把这个 \(\ge F(s)\) 代回,分母上的 \(F(s)\) 正好被约掉——这就是为何上一步要凑出 \(\frac{\mathbb{E}(e^{-sX}\mid E_A)}{F(s)}\) 这个比值。剩下只需控制带 \(Y_A\) 的项。
(续:两次 Jensen 不等式) 接下来,我们通过 Jensen 不等式(习题 1.2.4)利用函数 \(x\mapsto e^{-sx}\) 的凸性,得到 \[ \mathbb{E}(e^{-sY_A}\mid E_A)\ \ge\ e^{-s\,\mathbb{E}(Y_A\mid E_A)}. \] 由期望的线性性,我们有 \(\sum_{A\in\mathcal{A}}\mathbb{P}(E_A)=\mathbb{E}(X)\),于是再次应用 Jensen 不等式给出 \[ \sum_{A\in\mathcal{A}}\mathbb{P}(E_A)\,e^{-s\,\mathbb{E}(Y_A\mid E_A)}\ \ge\ \mathbb{E}(X)\,e^{-s\,\frac{\sum_{A\in\mathcal{A}}\mathbb{P}(E_A)\,\mathbb{E}(Y_A\mid E_A)}{\mathbb{E}(X)}}. \] 另一方面,由条件概率的定义,我们有 \[ \sum_{A\in\mathcal{A}}\mathbb{P}(E_A)\,\mathbb{E}(Y_A\mid E_A)=\sum_{A\in\mathcal{A}}\ \sum_{\substack{B\in\mathcal{A}:\ A\cap B\neq\varnothing}}\ \mathbb{E}\!\left(\mathbb{I}(E_A)\prod_{j\in B}t_j\right)=\Delta. \] 因此我们有 \[ \sum_{A\in\mathcal{A}}\mathbb{P}(E_A)\int_0^t \mathbb{E}(e^{-sY_A}\mid E_A)\,ds-t(\mathbb{E}(X)-T) \] \[ \ge\ \mathbb{E}(X)\int_0^t e^{-s\Delta/\mathbb{E}(X)}\,ds-t(\mathbb{E}(X)-T) \tag{1.37} \] \[ =\ \frac{\mathbb{E}(X)^2}{\Delta}\Big(1-e^{-t\Delta/\mathbb{E}(X)}\Big)-t(\mathbb{E}(X)-T). \tag{1.38} \] 若我们令 \(t:=T/\Delta\),则 \(t\Delta/\mathbb{E}(X)=T/\mathbb{E}(X)\le 1\),并且有 \[ 1-e^{-t\Delta/\mathbb{E}(X)}=1-e^{-T/\mathbb{E}(X)}\ \ge\ \frac{T}{\mathbb{E}(X)}-\frac{T^2}{2\mathbb{E}(X)^2}, \] 因而 \[ \sum_{A\in\mathcal{A}}\mathbb{P}(E_A)\int_0^t \mathbb{E}(e^{-sY_A}\mid E_A)\,ds-t(\mathbb{E}(X)-T)\ \ge\ \frac{T\mathbb{E}(X)}{\Delta}-\frac{T^2}{2\Delta}-\frac{T}{\Delta}(\mathbb{E}(X)-T)\ =\ \frac{T^2}{2\Delta}, \] 正如所要证的。
两次 Jensen 与最后代数的逐步推演
  1. 第一次 Jensen(对一个 \(A\)):\(e^{-sx}\) 是凸函数,凸函数的期望不小于期望处的函数值,即 \(\mathbb{E}(e^{-sY_A}\mid E_A)\ge e^{-s\mathbb{E}(Y_A\mid E_A)}\)。把“先指数后平均”换成“先平均后指数”的下界。
  2. 第二次 Jensen(对所有 \(A\) 加权平均):把权重 \(\frac{\mathbb{P}(E_A)}{\mathbb{E}(X)}\)(它们之和为 \(1\),因 \(\sum_A\mathbb{P}(E_A)=\mathbb{E}(X)\))作用在凸函数 \(e^{-s\,\cdot}\) 上,得到加权平均的下界,指数上出现 \(\frac{\sum_A\mathbb{P}(E_A)\mathbb{E}(Y_A\mid E_A)}{\mathbb{E}(X)}\)。
  3. 认出 \(\Delta\):\(\mathbb{P}(E_A)\mathbb{E}(Y_A\mid E_A)=\mathbb{E}(\mathbb{I}(E_A)Y_A)\),展开 \(Y_A\) 即 \(\sum_{B:A\cap B\neq\varnothing}\mathbb{E}(\mathbb{I}(E_A)\prod_{j\in B}t_j)\)。又 \(\mathbb{I}(E_A)=\prod_{j\in A}t_j\),故 \(\mathbb{I}(E_A)\prod_{j\in B}t_j=\prod_{j\in A\cup B}t_j\)(重复的 \(t_j\) 因 \(0/1\) 而 \(t_j^2=t_j\))。对 \(A,B\) 求和恰好就是 \(\Delta\) 的定义。
  4. 积分:\(\int_0^t e^{-s\Delta/\mathbb{E}(X)}ds=\frac{\mathbb{E}(X)}{\Delta}\big(1-e^{-t\Delta/\mathbb{E}(X)}\big)\),乘上前面的 \(\mathbb{E}(X)\) 得 (1.38) 的第一项。
  5. 代入 \(t=T/\Delta\) 并用二阶泰勒下界 \(1-e^{-u}\ge u-u^2/2\)(这里 \(u=T/\mathbb{E}(X)\in[0,1]\)),逐项展开化简,最后三项合并恰好得到 \(\frac{T^2}{2\Delta}\)。

这一串不等式全是“\(\ge\)”方向:每一步都把目标量往下压,最终仍不小于 \(\frac{T^2}{2\Delta}\),于是回到取对数前就是 \(\mathbb{P}(X\le\mathbb{E}(X)-T)\le e^{-T^2/2\Delta}\)。

注记 1.32 选取 \(t=T/\Delta\) 也许方便,但未必最优。通过对 (1.38) 的右端关于 \(t\) 进行优化,可以得到略好一些的界。
注记 1.33 Janson 不等式的证明不是对称的。换句话说,它无法被推广来给出上尾概率 \(\mathbb{P}(X\ge \mu+T)\) 的界。这个概率将在下一节中处理。
为什么“不对称”:直觉所在

整个证明的命脉是 (1.34):\(\mathbb{E}\,e^{-s(X+Y)}\ge\mathbb{E}\,e^{-sX}\mathbb{E}\,e^{-sY}\)。它来自正相关,而正相关只在 \(e^{-s\,\cdot}\)(\(s>0\) 时递减)这一个方向上给出我们需要的“\(\ge\)”。若想控制上尾 \(\mathbb{P}(X\ge\mu+T)\),需要 \(\mathbb{E}\,e^{+sX}\) 的上界,而正相关此时给的是反向的不等号,论证就断了。因此上尾要用别的工具(下一节)。

即时自测
  1. 设 \(\mathcal{A}=\{\{1,2\},\{2,3\},\{3,4\}\}\)(即 \(X=t_1t_2+t_2t_3+t_3t_4\))。写出所有满足 \(A\cap B\neq\varnothing\) 的有序对 \((A,B)\),并据此说明 \(\Delta\) 中一共有几项。
  2. 在“单元素族”情形 \(\mathcal{A}=\{\{1\},\dots,\{n\}\}\) 中,验证 \(\Delta=\mathbb{E}(X)\),并写出此时 Janson 不等式化成的具体形式。
  3. 在推论 1.30 的图语言里,若每个顶点被选中的概率都是 \(p\)、图是 \(d\)-正则的(每点恰 \(d\) 条边),用 \(p,d,\) 边数 \(m\) 表示出 \(\mathbb{P}(X=0)\) 的上界。

返回 全书目录