Tao–Vu · 加性组合学 · 第 1 章概率方法

1.6　Janson 不等式Janson’s inequality

本页为译文 + 高中讲解合一：黑色正文为忠实翻译；彩色框（目标 / 例 / 分步推演 / 自测）与配图为面向高中生的详解，逐步推演、举例、画图，不用比喻。

本节目标在推论 1.9 中，我们已经为和式 \(t_1+\dots+t_n\)（一堆相互独立的 0/1 变量相加）建立了大偏差不等式。但许多应用里出现的量不是简单的和，而是一些乘积项的和，例如“随机图里三角形的个数”“随机集合里某种和式表示的个数”。这些乘积项彼此不独立（共用了同一个 \(t_j\)），所以旧办法不能直接套用。本节要解决的问题是：这样一个量 \(X\) 取值偏小（特别是 \(X=0\)，即“一个都没有”）的概率有多大？答案就是 Janson 不等式，它的关键在于一个度量“项与项之间相互依赖程度”的量 \(\Delta\)。

1.6.1　布尔多项式与问题的提出

设 \(t_1,\dots,t_n\) 是联合独立的布尔（即取值 \(0\) 或 \(1\)）随机变量。在推论 1.9 中，我们为多项式 \(t_1+\dots+t_n\) 建立了一个大偏差不等式。在许多应用中，对布尔变量 \(t_1,\dots,t_n\) 的更一般多项式 \(P(t_1,\dots,t_n)\) 求大偏差不等式同样是有意义的。一个特别重要的情形是布尔多项式

\[ X := \sum_{A\in\mathcal{A}}\ \prod_{j\in A} t_j, \]

其中 \(\mathcal{A}\) 是 \([1,n]\) 的某些非空子集构成的一个集族。注意，布尔多项式自动是非负且单调递增的；因此，由 FKG 不等式（定理 1.19）可知，任意两个布尔多项式都是正相关的。更一般地，若 \(X\) 与 \(Y\) 是布尔多项式，则只要 \(f\) 是单调递增或单调递减的函数，\(f(X)\) 与 \(f(Y)\) 就是正相关的。特别地，我们得到

\[ \mathbb{E}\, e^{-s(X+Y)} \ \ge\ \mathbb{E}\, e^{-sX}\ \mathbb{E}\, e^{-sY} \tag{1.34} \]

对任意实数 \(s\) 成立。利用这个事实、指数矩方法以及一些额外的凸性论证，Janson [190] 导出了一个关于下尾概率 \(\mathbb{P}(X\le \mathbb{E}(X)-T)\) 的有力界。

先把记号读懂：\(X\) 到底在数什么

每个 \(A\in\mathcal{A}\) 是一组下标，例如 \(A=\{2,5\}\)。对应的那一项 \(\prod_{j\in A}t_j=t_2 t_5\)，它等于 \(1\) 当且仅当 \(t_2=t_5=1\)（这一组下标“全部被点亮”），否则等于 \(0\)。所以

\[ X=\sum_{A\in\mathcal{A}}\prod_{j\in A}t_j=\#\{A\in\mathcal{A}:\ A\text{ 中的下标全部被点亮}\}. \]

也就是说，\(X\) 在数“有多少组被完整点亮”。例如下图取 \(n=5\)，\(\mathcal{A}=\{\{1,2\},\{2,3\},\{4,5\}\}\)，若 \(t_1=t_2=t_3=1\)、\(t_4=1,t_5=0\)，则被完整点亮的组是 \(\{1,2\}\) 与 \(\{2,3\}\)，故 \(X=2\)。

\(X\) 计数“下标被全部点亮”的组：这里两组点亮、一组没点亮，故 \(X=2\)。当 \(X=0\) 时表示“没有任何一组被完整点亮”。

为什么这些项不独立、(1.34) 又在说什么

若两组共用了下标，例如 \(A=\{1,2\}\) 与 \(B=\{2,3\}\) 都含 \(t_2\)，那么 \(\prod_{j\in A}t_j\) 与 \(\prod_{j\in B}t_j\) 就不独立：知道前者为 \(1\)（说明 \(t_2=1\)）会提高后者为 \(1\) 的概率。这正是 \(X\) 不能直接当成“独立项之和”来处理的根源。

(1.34) 说的是：对于布尔多项式 \(X,Y\)，把 \(e^{-s\,\cdot}\) 看成 \(X+Y\) 的单调函数，由正相关性，“先合后取期望”不小于“各自取期望再相乘”。这是下面证明能“拆开”的唯一缝隙——它取代了独立情形下的等式 \(\mathbb{E}\,e^{-s(X+Y)}=\mathbb{E}\,e^{-sX}\,\mathbb{E}\,e^{-sY}\)，只不过这里是“\(\ge\)”而非“\(=\)”。

1.6.2　Janson 不等式

定理 1.28（Janson 不等式）设 \(t_1,\dots,t_n,\ \mathcal{A},\ X\) 如上所述。则对任意 \(0\le T\le \mathbb{E}(X)\)，有下尾估计 \[ \mathbb{P}\big(X\le \mathbb{E}(X)-T\big)\ \le\ \exp\!\left(-\frac{T^2}{2\Delta}\right), \] 其中 \[ \Delta\ =\ \sum_{\substack{A,B\in\mathcal{A}:\ A\cap B\neq\varnothing}}\ \mathbb{E}\!\left(\prod_{j\in A\cup B} t_j\right). \] 特别地，我们有 \[ \mathbb{P}(X=0)\ \le\ \exp\!\left(-\frac{\mathbb{E}(X)^2}{2\Delta}\right). \]

把 \(\Delta\) 读懂：它在量化“依赖程度”

求和只跑遍那些相交的有序对 \((A,B)\)（即 \(A\cap B\neq\varnothing\)，含 \(A=B\) 本身）。两组若相交，它们对应的项就互相牵连；\(\Delta\) 把所有这种牵连按 \(\mathbb{E}(\prod_{j\in A\cup B}t_j)\) 加权累加起来——它越大，说明项与项之间的依赖越强。

取 \(T=\mathbb{E}(X)\) 就得到最常用的特例 \(\mathbb{P}(X=0)\le \exp(-\mathbb{E}(X)^2/2\Delta)\)：只要平均还有不少东西（\(\mathbb{E}(X)\) 大）而依赖又不太强（\(\Delta\) 不太大），那么“一个都没有”几乎不可能发生。

注记 1.29 非正式地说，Janson 不等式断言：若 \(\Delta=O(\mathbb{E}(X)^2)\)，则 \(X=\Theta(\mathbb{E}(X))\) 以很大概率成立。在 \(\mathcal{A}\) 恰好是单元素族 \(\{1\},\dots,\{n\}\) 的情形，有 \(X=t_1+\dots+t_n\)，\(\Delta=\mathbb{E}(X)\)，于是上述论断本质上就是（推论 1.9 的下半部分）。

单元素情形：为什么 \(\Delta=\mathbb{E}(X)\)、又怎样回到推论 1.9

当每个 \(A\) 只含一个下标时，两组 \(A=\{i\},B=\{j\}\) 相交当且仅当 \(i=j\)。于是相交对只有“对角线” \(A=B\) 这一种，

\[ \Delta=\sum_{i}\mathbb{E}(t_i)=\mathbb{E}(t_1+\dots+t_n)=\mathbb{E}(X). \]

代入 \(\mathbb{P}(X\le\mathbb{E}(X)-T)\le\exp(-T^2/2\Delta)\)，就得到 \(\exp(-T^2/2\mathbb{E}(X))\)，正是独立 0/1 和式的标准下尾界（推论 1.9 的下半）。这说明 Janson 不等式是它的真正推广：把“互不相交的单点”换成“可能相交的子集”，代价就是分母从 \(\mathbb{E}(X)\) 变成更大的 \(\Delta\)。

单元素族里，唯一相交的有序对是 \(A=B\)（对角线），故 \(\Delta\) 退化为 \(\mathbb{E}(X)\)。

1.6.3　把 \(\Delta\) 改写得更好用

量 \(\Delta\) 直接处理起来有点不方便。利用 \(t_j\) 的独立性，可以把它改写为

\[ \Delta\ =\ \sum_{A\in\mathcal{A}}\ \mathbb{E}\!\left(\prod_{j\in A}t_j\right)\ \sum_{\substack{B\in\mathcal{A}:\ A\cap B\neq\varnothing}}\ \mathbb{E}\!\left(\prod_{j\in B\setminus A}t_j\right). \]

由于 \(\mathbb{E}(X)=\sum_{A\in\mathcal{A}}\mathbb{E}\big(\prod_{j\in A}t_j\big)\)，我们于是得到

\[ \Delta\ \le\ \mathbb{E}(X)\ \sup_{A\in\mathcal{A}}\ \sum_{\substack{B\in\mathcal{A}:\ A\cap B\neq\varnothing}}\ \mathbb{E}\!\left(\prod_{j\in B\setminus A}t_j\right). \tag{1.35} \]

这一步的逐步推演

对固定的相交对 \((A,B)\)，把 \(A\cup B\) 分成两块：\(A\) 和 \(B\setminus A\)（两块无公共下标）。由独立性，\(\mathbb{E}\big(\prod_{j\in A\cup B}t_j\big)=\mathbb{E}\big(\prod_{j\in A}t_j\big)\cdot\mathbb{E}\big(\prod_{j\in B\setminus A}t_j\big)\)。
把 \(\Delta\) 中关于 \(B\) 的求和提出来，\(\mathbb{E}\big(\prod_{j\in A}t_j\big)\) 是与 \(B\) 无关的公因子，得到第一个等式。
把内层那个对 \(B\) 的和用它在所有 \(A\) 上的上确界 \(\sup_A\) 放大，再注意外层的 \(\sum_A\mathbb{E}(\prod_{j\in A}t_j)\) 恰是 \(\mathbb{E}(X)\)，便得到 (1.35)。

(1.35) 的意义：要控制 \(\Delta\)，只需对每一个 \(A\) 估出“与它相交的那些 \(B\) 所贡献的、扣掉重叠部分后的期望之和”，取最坏的一个即可。这把全局的双重求和化成了局部的、逐 \(A\) 的检验。

下面记录这个估计的一个特殊推论，它关于二次布尔多项式，我们稍后即将用到。

推论 1.30 设 \(t_1,\dots,t_n\) 如上，并令 \[ X=\sum_{\substack{1\le i\le j\le n:\ i\sim j}} t_i t_j, \] 其中 \(i\sim j\) 是 \([1,n]\) 上的某个对称关系。则有 \[ \mathbb{P}(X=0)\ \le\ \exp\!\left(-\frac{\mathbb{E}(X)}{\,2+4\sup_i\sum_{j:\,i\sim j}\mathbb{E}(t_j)\,}\right). \]

证明. 我们取 \(\mathcal{A}:=\{\{i,j\}:i\sim j\}\)。对任意 \(A\in\mathcal{A}\)，容易验证 \[ \sum_{\substack{B\in\mathcal{A}:\ A\cap B\neq\varnothing}}\ \mathbb{E}\!\left(\prod_{j\in B\setminus A}t_j\right)\ \le\ 1+2\sup_i\sum_{j:\,i\sim j}\mathbb{E}(t_j), \] 于是由 (1.35) 与定理 1.28 即得结论。♦

把推论 1.30 翻译成“图”的语言

把对称关系 \(i\sim j\) 看成一张图：顶点是 \(1,\dots,n\)，把每个满足 \(i\sim j\) 的对 \(\{i,j\}\) 连一条边。让每个顶点 \(j\) 以概率 \(\mathbb{E}(t_j)\) 独立地“被选中”（\(t_j=1\)）。则 \(t_i t_j=1\) 当且仅当一条边的两个端点都被选中，于是

\[ X=\#\{\text{两端都被选中的边}\}. \]

“\(X=0\)” 就是“没有任何一条边的两端同时被选中”。下面验证那个不等式里 \(1+2\sup_i(\cdots)\) 是怎么来的：固定一条边 \(A=\{i,j\}\)，与它相交的边 \(B\) 分三类。

与 \(A=\{i,j\}\) 相交的边只可能在 \(i\) 处或 \(j\) 处与之共顶点（或就是 \(A\) 本身）。本身贡献 \(1\)（空积期望为 \(1\)），过 \(i\) 与过 \(j\) 各贡献至多 \(\sup_i\sum_{j:i\sim j}\mathbb{E}(t_j)\)，合计 \(1+2\sup_i(\cdots)\)。

三类相加正好给出上界 \(1+2\sup_i\sum_{j:i\sim j}\mathbb{E}(t_j)\)。再把它放进 (1.35) 的 \(\sup_A\) 处、令 \(T=\mathbb{E}(X)\) 用定理 1.28，分母里的 \(2\Delta\) 就被 \(2\mathbb{E}(X)\cdot\big(1+2\sup(\cdots)\big)=\mathbb{E}(X)\cdot\big(2+4\sup(\cdots)\big)\) 代替，约去一个 \(\mathbb{E}(X)\) 后即得推论 1.30。

1.6.4　一个应用：素数的二阶互补基

在给出定理 1.28 的证明之前，让我们先给一个应用。这个应用再次涉及素数的互补基，但这一次是二阶而非一阶。下面的结果（应与定理 1.16 和定理 1.22 相比较）在 \(k=2\) 的情形最近由 Vu [376] 证明。

定理 1.31 对任意 \(k\ge 2\)，素数集 \(P\) 有一个 \(k\) 阶互补基 \(B\in\mathbb{Z}^+\)，满足对所有大的 \(n\) 都有 \(|B\cap[1,n]|=O(\log n)\)。

这条定理想说什么“\(P\) 的 \(k\) 阶互补基 \(B\)” 意思是：每个足够大的整数都能写成“\(1\) 个素数 + \(k\) 个 \(B\) 中元素”之和（这里 \(k=2\)，即 \(n=p+i+j\)，\(p\) 素数，\(i,j\in B\)）。难点在于希望 \(B\) 尽可能稀疏：在 \([1,n]\) 中只放 \(O(\log n)\) 个元素，却仍能让所有大整数都被覆盖。下面用概率方法随机地造出这样一个 \(B\)，并用 Janson 不等式（经推论 1.30）保证“某个 \(n\) 无法被表示”的概率小到可以忽略。

证明. 只需在 \(k=2\) 时建立结论即可。为构造 \(B\)，我们再次使用概率方法。更确切地说，令 \(B\subset\mathbb{Z}^+\) 为一个随机集合，事件 \(n\in B\) 相互独立，概率为 \[ \mathbb{P}(n\in B)=\min\!\left(\frac{c}{n},\,1\right) \] 对所有 \(n\in\mathbb{Z}^+\) 成立，其中 \(c\) 是待定的正常数。和之前一样，我们不讨论“要求无穷多个独立随机变量”所带来的测度论问题，因为它们可以通过对本论证作适当的有限化来处理。令 \(t_n\) 为布尔随机变量 \(t_n:=\mathbb{I}(n\in B)\)。由推论 1.10，对所有大的 \(m\) 有 \[ \mathbb{P}\big(|B\cap[1,m]|\le 10c\log m\big)=1-O\!\left(\frac{1}{m^2}\right), \] 于是由 Borel–Cantelli 引理（引理 1.2），以概率 \(1\) 有 \[ |B\cap[1,m]|=O_c(\log m)\quad\text{对所有充分大的 }m>1. \tag{1.36} \] 现在，对每个 \(n\in\mathbb{Z}^+\)，考虑计数函数 \[ r_{P+B+B}(n)=\big|\{(p,i,j)\in P\times B\times B:\ n=p+i+j\}\big|=\sum_{p缩减版本，即布尔多项式 \[ Y_n:=\sum_{\substack{i>j\ge n^{2/3}:\ i+j\in n-P}} t_i t_j. \] 显然 \(Y_n\le r_{P+B+B}(n)\)，因此只需证明 \[ \mathbb{P}(Y_n=0)=O\!\left(\frac{1}{n^2}\right). \]

为什么要换成缩减版 \(Y_n\)

原始 \(r_{P+B+B}(n)\) 把所有满足 \(i+j=n-p\) 的对都算进来，包括 \(i=j\)（重复计数）和很小的 \(i,j\)（那里 \(\mathbb{P}(i\in B)=\min(c/i,1)\) 可能等于 \(1\)，破坏估计）。\(Y_n\) 只保留 \(i>j\ge n^{2/3}\)（去掉小下标、去掉对角线 \(i=j\)），正好凑成推论 1.30 里那种“对称关系下的二次多项式”。因为 \(Y_n\le r_{P+B+B}(n)\)，证明 \(Y_n>0\) 的概率高，就更强地保证了 \(r_{P+B+B}(n)>0\)。\(n-P\) 表示集合 \(\{n-p:p\in P,\ p

（续）现在应用推论 1.30（用关系：\(i\sim j\) 当且仅当 \(i\ne j\) 且 \(i+j\in n-P\)），得到 \[ \mathbb{P}(Y_n=0)\ \le\ \exp\!\left(-\frac{\mathbb{E}(Y_n)}{\,2+4\sup_{i\ge n^{2/3}}\sum_{j\ge n^{2/3}:\,i+j\in n-P}\mathbb{E}(t_j)\,}\right). \] 由 \(t_j\) 的构造，以及附录中的命题 1.54，对任意 \(i\ge n^{2/3}\) 有 \[ \sum_{\substack{j\ge n^{2/3}:\ i+j\in n-P}}\mathbb{E}(t_j)=\sum_{p\le n-i-n^{2/3}}\min\!\left(\frac{c}{\,n-i-p\,},\,1\right)=O(c). \] 另一方面，由期望的线性性 (1.3) 与独立性，有 \[ \mathbb{E}(Y_n)=\sum_{\substack{i>j\ge n^{2/3}:\ i+j\in n-P}}\mathbb{E}(t_i t_j)=\sum_{\substack{i>j\ge n^{2/3}:\ i+j\in n-P}}\frac{c^2}{ij} \] \[ =c^2\sum_{p\le n-2n^{2/3}}\ \sum_{\substack{i>j\ge n^{2/3}:\ i+j=n-p}}\frac{1}{ij}=c^2\sum_{p\le n-2n^{2/3}}\frac{\log(n-p)}{n-p}=\Theta(c^2\log n), \] 其中最后一行再次使用了附录中的命题 1.54。把上述所有估计放在一起，我们得到 \[ \mathbb{P}(Y_n=0)\ \le\ \exp\big(-\Theta(c\log n)\big), \] 于是只要把 \(c\) 取得足够大，结论即成立。♦

收尾这一步的算账（逐步推演）

分母（依赖项）：\(\sum_j \mathbb{E}(t_j)=O(c)\)，所以推论 1.30 的分母 \(2+4\cdot O(c)=O(c)\)。
分子（平均值）：\(\mathbb{E}(Y_n)=\Theta(c^2\log n)\)，它随 \(n\to\infty\) 而趋于无穷，正是“平均上有很多种表示”。
相除：指数里的量 \(=\dfrac{\Theta(c^2\log n)}{O(c)}=\Theta(c\log n)\)，故 \(\mathbb{P}(Y_n=0)\le e^{-\Theta(c\log n)}=n^{-\Theta(c)}\)。
选 \(c\)：把 \(c\) 取大到使 \(\Theta(c)\ge 2\)，便有 \(\mathbb{P}(Y_n=0)=O(1/n^2)\)。再用 Borel–Cantelli，几乎必然只有有限个 \(n\) 表示不出来——把这有限个补进 \(B\)，并不破坏 (1.36) 的 \(O(\log n)\) 稀疏性。

关键点：分子是 \(c\) 的二次、分母是 \(c\) 的一次，所以增大 \(c\) 能让“失败概率”任意快地变小——这正是 Janson 不等式（经推论 1.30）赋予我们的杠杆。

1.6.5　定理 1.28 的证明

现在我们来证明定理 1.28。

定理 1.28 的证明. 我们将使用指数矩方法。通过一个极限论证，我们可以假设对所有 \(j\) 都有 \(\mathbb{P}(t_j=0),\ \mathbb{P}(t_j=1)>0\)。对任意 \(t>0\)，引入矩母函数 \(F(t):=\mathbb{E}(e^{-tX})\)。由 (1.16) 有 \[ \mathbb{P}\big(X\le \mathbb{E}(X)-T\big)\ \le\ \frac{F(t)}{e^{-t(\mathbb{E}(X)-T)}}. \] 两边取对数，可见我们只需对某个 \(t>0\) 建立不等式 \[ \log F(t)+t(\mathbb{E}(X)-T)\ \le\ -\frac{T^2}{2\Delta}. \] 与定理 1.8 的情形不同，\(X\) 中的各被加项不一定独立，所以我们无法简单地把 \(F(t)=\mathbb{E}(e^{-tX})\) 分解为乘积。Janson 找到了一个绕过这一困难的漂亮论证。由于 \(F(0)=1\)，由微积分基本定理可知 \[ \log F(t)=\int_0^t \frac{F'(s)}{F(s)}\,ds. \] 直接计算给出 \[ F'(s)=-\mathbb{E}(X e^{-sX})=-\sum_{A\in\mathcal{A}}\mathbb{E}\!\left(e^{-sX}\prod_{j\in A}t_j\right)=-\sum_{A\in\mathcal{A}}\mathbb{E}\big(e^{-sX}\,\big|\,E_A\big)\,\mathbb{P}(E_A), \] 其中 \(E_A\) 是事件“对所有 \(j\in A\) 都有 \(t_j=1\)”。于是，只需证明对某个 \(t>0\) 有 \[ \sum_{A\in\mathcal{A}}\mathbb{P}(E_A)\int_0^t \frac{\mathbb{E}(e^{-sX}\mid E_A)}{F(s)}\,ds-t(\mathbb{E}(X)-T)\ \ge\ \frac{T^2}{2\Delta}. \]

读懂开头三步

Markov / 指数矩：对任意 \(t>0\)，事件 \(\{X\le \mathbb{E}(X)-T\}\) 等价于 \(\{e^{-tX}\ge e^{-t(\mathbb{E}(X)-T)}\}\)（因 \(x\mapsto e^{-tx}\) 递减）。对非负量 \(e^{-tX}\) 用 Markov 不等式即得第一行。我们的目标就是为某个聪明选取的 \(t\) 把右边压到 \(e^{-T^2/2\Delta}\)。
用积分表示 \(\log F\)：因为 \(F(0)=\mathbb{E}(e^0)=1\)，\(\log F(t)=\log F(t)-\log F(0)=\int_0^t (\log F)'(s)\,ds=\int_0^t \frac{F'(s)}{F(s)}\,ds\)。把对数化成积分，是为了能逐点（对每个 \(s\)）做估计。
\(F'\) 的分解：\(F'(s)=\frac{d}{ds}\mathbb{E}(e^{-sX})=-\mathbb{E}(Xe^{-sX})\)。再把 \(X=\sum_A\prod_{j\in A}t_j\) 代入，每一项 \(\mathbb{E}(e^{-sX}\prod_{j\in A}t_j)\) 中的 \(\prod_{j\in A}t_j\) 是 \(0/1\) 的指示量，等于 \(1\) 恰好就是事件 \(E_A\)；于是 \(\mathbb{E}(e^{-sX}\prod_{j\in A}t_j)=\mathbb{E}(e^{-sX}\mid E_A)\mathbb{P}(E_A)\)。这就把整体期望换成了“在 \(A\) 已被点亮的条件下”的期望——为下一步“拆掉与 \(A\) 无关的部分”做准备。

（续：拆分 \(X=Y_A+Z_A\)）我们现在利用这样一个事实：\(e^{-sX}\) 的某些因子与 \(E_A\) 无关。对每个 \(A\in\mathcal{A}\)，把 \(X\) 拆成 \(Y_A+Z_A\)，它们是两个布尔多项式 \[ Y_A:=\sum_{\substack{B\in\mathcal{A}:\ A\cap B\neq\varnothing}}\ \prod_{j\in B}t_j;\qquad Z_A:=\sum_{\substack{B\in\mathcal{A}:\ A\cap B=\varnothing}}\ \prod_{j\in B}t_j. \] 由 (1.34)（在 \(E_A\) 所涉及的变量上取条件），我们得到 \[ \mathbb{E}(e^{-sX}\mid E_A)\ \ge\ \mathbb{E}(e^{-sY_A}\mid E_A)\,\mathbb{E}(e^{-sZ_A}\mid E_A). \] 另一方面，\(Z_A\) 与 \(E_A\) 独立，且从上方被 \(X\) 控制；因此 \[ \mathbb{E}(e^{-sZ_A}\mid E_A)=\mathbb{E}(e^{-sZ_A})\ \ge\ \mathbb{E}(e^{-sX})=F(s). \] 把这些估计合起来，我们就把问题化归为证明：对某个 \(t>0\) 有 \[ \sum_{A\in\mathcal{A}}\mathbb{P}(E_A)\int_0^t \mathbb{E}(e^{-sY_A}\mid E_A)\,ds-t(\mathbb{E}(X)-T)\ \ge\ \frac{T^2}{2\Delta}. \]

\(Y_A\) 与 \(Z_A\) 是怎么分的、为什么这样分

固定 \(A\)，把所有 \(B\in\mathcal{A}\) 按“是否与 \(A\) 相交”分成两堆：

\(Y_A\)：与 \(A\) 相交的那些 \(B\) 的项之和——它们与“\(A\) 是否点亮”相互牵连。
\(Z_A\)：与 \(A\) 不相交的那些 \(B\) 的项之和——它们只用到 \(A\) 之外的变量，因此与 \(E_A\) 完全独立。

\(X=Y_A+Z_A\)：\(Y_A\) 收集所有“碰到 \(A\)”的项，\(Z_A\) 收集所有“躲开 \(A\)”的项。

由正相关 (1.34)，\(\mathbb{E}(e^{-sX}\mid E_A)=\mathbb{E}(e^{-s(Y_A+Z_A)}\mid E_A)\ge \mathbb{E}(e^{-sY_A}\mid E_A)\mathbb{E}(e^{-sZ_A}\mid E_A)\)。
\(Z_A\) 独立于 \(E_A\)，故取条件没影响：\(\mathbb{E}(e^{-sZ_A}\mid E_A)=\mathbb{E}(e^{-sZ_A})\)。又 \(Z_A\le X\)（少了若干非负项），所以 \(e^{-sZ_A}\ge e^{-sX}\)，取期望得 \(\ge F(s)\)。
把这个 \(\ge F(s)\) 代回，分母上的 \(F(s)\) 正好被约掉——这就是为何上一步要凑出 \(\frac{\mathbb{E}(e^{-sX}\mid E_A)}{F(s)}\) 这个比值。剩下只需控制带 \(Y_A\) 的项。

（续：两次 Jensen 不等式）接下来，我们通过 Jensen 不等式（习题 1.2.4）利用函数 \(x\mapsto e^{-sx}\) 的凸性，得到 \[ \mathbb{E}(e^{-sY_A}\mid E_A)\ \ge\ e^{-s\,\mathbb{E}(Y_A\mid E_A)}. \] 由期望的线性性，我们有 \(\sum_{A\in\mathcal{A}}\mathbb{P}(E_A)=\mathbb{E}(X)\)，于是再次应用 Jensen 不等式给出 \[ \sum_{A\in\mathcal{A}}\mathbb{P}(E_A)\,e^{-s\,\mathbb{E}(Y_A\mid E_A)}\ \ge\ \mathbb{E}(X)\,e^{-s\,\frac{\sum_{A\in\mathcal{A}}\mathbb{P}(E_A)\,\mathbb{E}(Y_A\mid E_A)}{\mathbb{E}(X)}}. \] 另一方面，由条件概率的定义，我们有 \[ \sum_{A\in\mathcal{A}}\mathbb{P}(E_A)\,\mathbb{E}(Y_A\mid E_A)=\sum_{A\in\mathcal{A}}\ \sum_{\substack{B\in\mathcal{A}:\ A\cap B\neq\varnothing}}\ \mathbb{E}\!\left(\mathbb{I}(E_A)\prod_{j\in B}t_j\right)=\Delta. \] 因此我们有 \[ \sum_{A\in\mathcal{A}}\mathbb{P}(E_A)\int_0^t \mathbb{E}(e^{-sY_A}\mid E_A)\,ds-t(\mathbb{E}(X)-T) \] \[ \ge\ \mathbb{E}(X)\int_0^t e^{-s\Delta/\mathbb{E}(X)}\,ds-t(\mathbb{E}(X)-T) \tag{1.37} \] \[ =\ \frac{\mathbb{E}(X)^2}{\Delta}\Big(1-e^{-t\Delta/\mathbb{E}(X)}\Big)-t(\mathbb{E}(X)-T). \tag{1.38} \] 若我们令 \(t:=T/\Delta\)，则 \(t\Delta/\mathbb{E}(X)=T/\mathbb{E}(X)\le 1\)，并且有 \[ 1-e^{-t\Delta/\mathbb{E}(X)}=1-e^{-T/\mathbb{E}(X)}\ \ge\ \frac{T}{\mathbb{E}(X)}-\frac{T^2}{2\mathbb{E}(X)^2}, \] 因而 \[ \sum_{A\in\mathcal{A}}\mathbb{P}(E_A)\int_0^t \mathbb{E}(e^{-sY_A}\mid E_A)\,ds-t(\mathbb{E}(X)-T)\ \ge\ \frac{T\mathbb{E}(X)}{\Delta}-\frac{T^2}{2\Delta}-\frac{T}{\Delta}(\mathbb{E}(X)-T)\ =\ \frac{T^2}{2\Delta}, \] 正如所要证的。♦

两次 Jensen 与最后代数的逐步推演

第一次 Jensen（对一个 \(A\)）：\(e^{-sx}\) 是凸函数，凸函数的期望不小于期望处的函数值，即 \(\mathbb{E}(e^{-sY_A}\mid E_A)\ge e^{-s\mathbb{E}(Y_A\mid E_A)}\)。把“先指数后平均”换成“先平均后指数”的下界。
第二次 Jensen（对所有 \(A\) 加权平均）：把权重 \(\frac{\mathbb{P}(E_A)}{\mathbb{E}(X)}\)（它们之和为 \(1\)，因 \(\sum_A\mathbb{P}(E_A)=\mathbb{E}(X)\)）作用在凸函数 \(e^{-s\,\cdot}\) 上，得到加权平均的下界，指数上出现 \(\frac{\sum_A\mathbb{P}(E_A)\mathbb{E}(Y_A\mid E_A)}{\mathbb{E}(X)}\)。
认出 \(\Delta\)：\(\mathbb{P}(E_A)\mathbb{E}(Y_A\mid E_A)=\mathbb{E}(\mathbb{I}(E_A)Y_A)\)，展开 \(Y_A\) 即 \(\sum_{B:A\cap B\neq\varnothing}\mathbb{E}(\mathbb{I}(E_A)\prod_{j\in B}t_j)\)。又 \(\mathbb{I}(E_A)=\prod_{j\in A}t_j\)，故 \(\mathbb{I}(E_A)\prod_{j\in B}t_j=\prod_{j\in A\cup B}t_j\)（重复的 \(t_j\) 因 \(0/1\) 而 \(t_j^2=t_j\)）。对 \(A,B\) 求和恰好就是 \(\Delta\) 的定义。
积分：\(\int_0^t e^{-s\Delta/\mathbb{E}(X)}ds=\frac{\mathbb{E}(X)}{\Delta}\big(1-e^{-t\Delta/\mathbb{E}(X)}\big)\)，乘上前面的 \(\mathbb{E}(X)\) 得 (1.38) 的第一项。
代入 \(t=T/\Delta\) 并用二阶泰勒下界 \(1-e^{-u}\ge u-u^2/2\)（这里 \(u=T/\mathbb{E}(X)\in[0,1]\)），逐项展开化简，最后三项合并恰好得到 \(\frac{T^2}{2\Delta}\)。

这一串不等式全是“\(\ge\)”方向：每一步都把目标量往下压，最终仍不小于 \(\frac{T^2}{2\Delta}\)，于是回到取对数前就是 \(\mathbb{P}(X\le\mathbb{E}(X)-T)\le e^{-T^2/2\Delta}\)。

注记 1.32 选取 \(t=T/\Delta\) 也许方便，但未必最优。通过对 (1.38) 的右端关于 \(t\) 进行优化，可以得到略好一些的界。

注记 1.33 Janson 不等式的证明不是对称的。换句话说，它无法被推广来给出上尾概率 \(\mathbb{P}(X\ge \mu+T)\) 的界。这个概率将在下一节中处理。

为什么“不对称”：直觉所在

整个证明的命脉是 (1.34)：\(\mathbb{E}\,e^{-s(X+Y)}\ge\mathbb{E}\,e^{-sX}\mathbb{E}\,e^{-sY}\)。它来自正相关，而正相关只在 \(e^{-s\,\cdot}\)（\(s>0\) 时递减）这一个方向上给出我们需要的“\(\ge\)”。若想控制上尾 \(\mathbb{P}(X\ge\mu+T)\)，需要 \(\mathbb{E}\,e^{+sX}\) 的上界，而正相关此时给的是反向的不等号，论证就断了。因此上尾要用别的工具（下一节）。

即时自测

设 \(\mathcal{A}=\{\{1,2\},\{2,3\},\{3,4\}\}\)（即 \(X=t_1t_2+t_2t_3+t_3t_4\)）。写出所有满足 \(A\cap B\neq\varnothing\) 的有序对 \((A,B)\)，并据此说明 \(\Delta\) 中一共有几项。
在“单元素族”情形 \(\mathcal{A}=\{\{1\},\dots,\{n\}\}\) 中，验证 \(\Delta=\mathbb{E}(X)\)，并写出此时 Janson 不等式化成的具体形式。
在推论 1.30 的图语言里，若每个顶点被选中的概率都是 \(p\)、图是 \(d\)-正则的（每点恰 \(d\) 条边），用 \(p,d,\) 边数 \(m\) 表示出 \(\mathbb{P}(X=0)\) 的上界。

返回全书目录

1.6.1 布尔多项式与问题的提出

1.6.2 Janson 不等式

1.6.3 把 \(\Delta\) 改写得更好用

1.6.4 一个应用：素数的二阶互补基

1.6.5 定理 1.28 的证明

1.6.1　布尔多项式与问题的提出

1.6.2　Janson 不等式

1.6.3　把 \(\Delta\) 改写得更好用

1.6.4　一个应用：素数的二阶互补基

1.6.5　定理 1.28 的证明