Tao–Vu · 加性组合学 · 第 7 章 Littlewood–Offord 问题

7.3 埃森集中不等式The Esséen concentration inequality

本页为译文 + 高中讲解合一:黑色正文为忠实翻译;彩色框(目标 / 定义 / 引理 / 命题 / 例 / 分步推演)与配图为面向高中生的详解,逐步推演、举例、画图,不用比喻。

本节目标前面几节关心的是随机游走 \(X_v^{(\mu)}\) 恰好落到某一个点 \(x\) 的概率。但很多时候我们真正想知道的是:它落进一整片区域(比如一个立方体、一个球)的概率有多大。本节给出一件处理这类“区域集中”问题的趁手工具——埃森(Esséen)集中不等式。它的核心思想是:用特征函数(傅里叶变换)\(\mathbb{E}\,e(\xi\cdot X)\) 的大小,去控制概率分布的集中程度。我们会先把不等式讲清楚、证出来,再把它套到随机游走上,得到一个高维的集中估计(命题 7.18)。

从“落到一点”到“落进一片区域”

在若干应用中,我们关心的不是随机游走 \(X_v^{(\mu)}\) 最终停在某个指定点的概率,而是它落进空间中某块区域(例如一个立方体)的概率。在某些“离散”情形下(例如当 \(v_1,\dots,v_n\) 取值于一个格点时),我们可以简单地用并集界(union bound)从前者过渡到后者,但这并不总是最好的办法。处理一般的集中问题时,一件有用的工具是埃森的一个简单集中不等式。

为什么并集界不总是够好 设区域是一个边长 \(R\) 的立方体,里面含有大约 \(R^d\) 个格点。并集界的做法是:把落到区域里的概率,拆成分别落到每一个格点的概率之和: \[\mathbb{P}(X\in \text{区域})\le \sum_{x\in\text{区域}}\mathbb{P}(X=x).\] 如果每个点的概率都 \(\le p\),这给出 \(\le R^d\,p\)。当 \(R\) 较大、或维数 \(d\) 较高时,因子 \(R^d\) 会把估计放得很松。更糟的是,若 \(v_j\) 不落在格点上(取连续值),区域里根本没有“可数的点”可拆,并集界完全失效。埃森不等式则不依赖这种逐点拆分,对连续与离散一视同仁。
区域(含若干格点) 单独一个点 x P(X = x) P(X 落进区域)
左:我们想估计 \(X\) 落进一整块区域的概率;并集界把它拆成区域内每个格点(深绿点)概率之和,区域越大代价越高。右:旧的逐点估计只管一个点。埃森不等式直接给区域版本的界。

记号准备

记号记 \(e(x):=\exp(2\pi i x)\)。对于向量,\(\xi\cdot X\) 表示 \(\mathbb{R}^d\) 上通常的内积,\(|\xi|\) 表示通常的(欧氏)长度。于是 \[\mathbb{E}\,e(\xi\cdot X)=\mathbb{E}\,\exp\!\big(2\pi i\,\xi\cdot X\big)\] 就是随机变量 \(X\) 的特征函数(在 \(\xi\) 处取值),即概率分布的傅里叶变换。
直觉:特征函数为什么能“看出”集中 取 \(d=1\)。如果 \(X\) 高度集中(几乎总等于同一个值 \(a\)),那么 \(e(\xi X)\approx e(\xi a)\) 是一个长度为 \(1\) 的复数,对所有 \(\xi\) 几乎都不抵消,于是 \(|\mathbb{E}\,e(\xi X)|\approx 1\),在很宽的 \(\xi\) 区间上都接近 \(1\)。 反之,如果 \(X\) 摊得很开(分布很“平”),不同取值贡献的复数 \(e(\xi X)\) 朝各个方向,互相抵消,\(|\mathbb{E}\,e(\xi X)|\) 很快就掉到接近 \(0\)。 所以:特征函数在原点附近保持“大”的范围越宽,分布就越集中。埃森不等式正是把这句话变成一条精确的不等式——用 \(\int_{|\xi|<\varepsilon}|\mathbb{E}\,e(\xi\cdot X)|\,d\xi\) 这个积分来量化“保持大的范围有多宽”。

埃森集中不等式

引理 7.17(埃森集中不等式)[101] 设 \(X\) 是在 \(\mathbb{R}^d\) 中取有限多个值的随机变量。设 \(x_0\in\mathbb{R}^d\),并设 \(R,\varepsilon>0\)。则 \[\sup_{x_0\in\mathbb{R}^d}\mathbb{P}\big(|X-x_0|\le R\big)=O\!\left(\frac{R}{\sqrt d}+\frac{\sqrt d}{\varepsilon}\right)^{\!d}\int_{\xi\in\mathbb{R}^d:\,|\xi|<\varepsilon}\big|\mathbb{E}\,e(\xi\cdot X)\big|\,d\xi.\] 这里 \(e(x):=\exp(2\pi i x)\),\(\xi\cdot X\) 是 \(\mathbb{R}^d\) 上通常的内积,\(|\xi|\) 是通常的长度。
怎么读这条不等式 左边 \(\sup_{x_0}\mathbb{P}(|X-x_0|\le R)\) 是 \(X\) 落进任何一个半径 \(R\) 的球的最大概率——它度量了分布最“拥挤”的地方有多拥挤(即集中函数)。右边由两部分相乘:
  1. 几何因子 \(\big(R/\sqrt d+\sqrt d/\varepsilon\big)^{d}\):只跟球的半径 \(R\)、自由参数 \(\varepsilon\) 和维数 \(d\) 有关,是覆盖论证带来的“体积代价”。
  2. 分析因子 \(\displaystyle\int_{|\xi|<\varepsilon}|\mathbb{E}\,e(\xi\cdot X)|\,d\xi\):特征函数在小邻域 \(|\xi|<\varepsilon\) 上的积分,正是前面说的“特征函数保持大的程度”。
参数 \(\varepsilon\) 由我们自由选取:\(\varepsilon\) 越大,积分范围越宽(分析因子可能更大),但几何因子里的 \(\sqrt d/\varepsilon\) 越小。实际使用时,要根据问题去平衡这两项(在命题 7.18 中我们会取 \(\varepsilon=1/k\))。
证明. 通过把 \(X\) 与 \(R\) 同时按 \(\varepsilon\) 作缩放,我们可以不妨设 \(\varepsilon=\sqrt d\)。于是一个简单的覆盖论证(例如借助推论 3.15)表明,只需证明:存在某个小的绝对常数 \(c>0\),使得对所有 \(x_0\in\mathbb{R}^d\) 有 \[\mathbb{P}\big(|X-x_0|\le c\sqrt d\big)\le O(1)^d\int_{\xi\in\mathbb{R}^d:\,|\xi|<\sqrt d}\big|\mathbb{E}\,e(\xi\cdot X)\big|\,d\xi.\] 再通过把 \(X\) 平移 \(x_0\)(这不影响右边),我们可以不妨设 \(x_0=0\)。 现在,由标准的高斯积分恒等式 \[\int_{\xi\in\mathbb{R}^d} e^{-\pi C|\xi|^2}\,e(\xi\cdot X)\,d\xi=C^{-d/2}\,e^{-\pi|X|^2/C}\qquad(\forall\,C>0),\] 我们看出 \[\left|\int_{\xi\in\mathbb{R}^d:\,|\xi|<\sqrt d/2} e^{-\pi C|\xi|^2}\,e(\xi\cdot X)\,d\xi\right|=\Omega(1)^d\tag{7.4}\] 对一切满足 \(|X|\le c\sqrt d\) 的 \(X\) 成立——只要 \(c\) 取得足够小、\(C\) 取得足够大。把它平方,得到 \[\int_{\xi\in\mathbb{R}^d:\,|\xi|<\sqrt d} e(\xi\cdot X)\,w(\xi)\,d\xi=\Omega(1)^d\,\mathbf{1}\big(|X|\le c\sqrt d\big),\] 其中 \[w(\xi):=\int_{|\xi_1|,\,|\xi-\xi_1|<\sqrt d/2} e^{-\pi C|\xi_1|^2}\,e^{-\pi C|\xi-\xi_1|^2}\,d\xi_1.\] 对两边取期望,得到 \[\int_{\xi\in\mathbb{R}^d:\,|\xi|<\sqrt d}\big|\mathbb{E}\,e(\xi\cdot X)\big|\,w(\xi)\,d\xi\ge\Omega(1)^d\,\mathbb{P}\big(|X|\le c\sqrt d\big).\] 由 (3.8) 我们看出 \(w(\xi)=O(1)^d\),于是结论得证。

把证明拆成最小的步子

  1. 归一化(缩放)。 不等式两边对 \(X,R,\varepsilon\) 的同步缩放是“齐次”的,所以可以先把尺度调成最方便的 \(\varepsilon=\sqrt d\)。这一步只是为了让后面的数字干净。
  2. 覆盖论证:从大球退到固定小球。 任何半径 \(R\) 的大球,都能用 \(O\!\big(R/\sqrt d\big)^d\) 个半径 \(c\sqrt d\) 的小球盖住。落进大球 \(\Rightarrow\) 落进某个小球,于是 \[\mathbb{P}(|X-x_0|\le R)\le \big(\text{小球个数}\big)\times\max_{x_1}\mathbb{P}(|X-x_1|\le c\sqrt d).\] 这正是几何因子 \(\big(R/\sqrt d+\sqrt d/\varepsilon\big)^d\) 的来源。所以只剩下半径为 \(c\sqrt d\) 的固定小球要处理。
  3. 平移到原点。 把球心移到 \(0\),不妨证 \(\mathbb{P}(|X|\le c\sqrt d)\) 的界。
  4. 用高斯做“探针”。 高斯函数 \(e^{-\pi C|\xi|^2}\) 的傅里叶变换还是高斯 \(C^{-d/2}e^{-\pi|X|^2/C}\)。把积分限制在 \(|\xi|<\sqrt d/2\) 上,当 \(|X|\) 小时(\(\le c\sqrt d\)),相位 \(e(\xi\cdot X)\) 转得不快、不互相抵消,于是积分的绝对值仍然 \(\ge\Omega(1)^d\),这就是 (7.4)。也就是说:只要 \(X\) 离原点近,这个高斯加权的傅里叶积分就一定不小
  5. 平方 = 自相关。 把 (7.4) 平方,两个积分相乘合并成关于 \(\xi=\xi_1+(\xi-\xi_1)\) 的单重积分,权重 \(w(\xi)\) 就是高斯的自卷积(自相关)。平方后右边自然出现指示函数 \(\mathbf 1(|X|\le c\sqrt d)\):\(X\) 近则 \(\ge\Omega(1)^d\),否则 \(\ge 0\)。
  6. 取期望,换出概率与特征函数。 对随机的 \(X\) 取期望:右边 \(\mathbb{E}\,\mathbf 1(|X|\le c\sqrt d)=\mathbb{P}(|X|\le c\sqrt d)\);左边把期望搬进积分,并用 \(|\mathbb{E}(\cdots)|\le\mathbb{E}|\cdots|\) 得到 \(|\mathbb{E}\,e(\xi\cdot X)|\)。再用 \(w(\xi)=O(1)^d\)(来自 (3.8))把权重去掉,就得到 \[\mathbb{P}(|X|\le c\sqrt d)\le O(1)^d\int_{|\xi|<\sqrt d}\big|\mathbb{E}\,e(\xi\cdot X)\big|\,d\xi.\] 这正是第 2 步剩下要证的核心。
半径 R 的大球 用 O((R/√d)^d) 个半径 c√d 的小球盖住 只需处理 固定半径 c√d 的小球
覆盖论证:大球落点必落进某个小球,所以“落进大球”的概率不超过“小球个数 × 单个小球的概率”。小球个数贡献几何因子 \((R/\sqrt d+\sqrt d/\varepsilon)^d\),剩下只需估计一个固定小球。

用在随机游走上:式 (7.5)

特别地,把引理 7.17 用到随机变量 \(X_v^{(\mu)}\) 上(其中 \(v=(v_1,\dots,v_n)\),\(0\le\mu\le 1\)),我们就得到引理 7.11 的如下类比: \[\mathbb{P}\big(\,|X_v^{(\mu)}-x_0|\le R\,\big)=O\!\left(\frac{R}{\sqrt d}+\frac{\sqrt d}{\varepsilon}\right)^{\!d}\int_{\xi\in\mathbb{R}^d:\,|\xi|<\varepsilon}\ \prod_{j=1}^{n}\big|1-\mu+\mu\cos(2\pi\,\xi\cdot v_j)\big|\,d\xi.\tag{7.5}\]

为什么特征函数变成了乘积 \(\prod_j|1-\mu+\mu\cos(2\pi\xi\cdot v_j)|\) 随机游走 \(X_v^{(\mu)}=\sum_{j=1}^n \eta_j v_j\),其中各 \(\eta_j\) 相互独立,且 \[\mathbb{P}(\eta_j=+1)=\tfrac{\mu}{2},\quad \mathbb{P}(\eta_j=-1)=\tfrac{\mu}{2},\quad \mathbb{P}(\eta_j=0)=1-\mu.\] 由独立性,特征函数是各步的乘积: \[\mathbb{E}\,e(\xi\cdot X_v^{(\mu)})=\prod_{j=1}^n\mathbb{E}\,e(\eta_j\,\xi\cdot v_j).\] 而单步的期望是 \[\mathbb{E}\,e(\eta_j\,\xi\cdot v_j)=(1-\mu)\cdot 1+\tfrac{\mu}{2}e(\xi\cdot v_j)+\tfrac{\mu}{2}e(-\xi\cdot v_j)=1-\mu+\mu\cos(2\pi\,\xi\cdot v_j),\] 这里用了 \(\tfrac12\big(e(t)+e(-t)\big)=\cos(2\pi t)\)。把它代进引理 7.17 的 \(|\mathbb{E}\,e(\xi\cdot X)|\),就得到 (7.5) 里的乘积。

一个应用:高维 Littlewood–Offord 集中估计

作为应用,我们给出推论 7.10 的一个高维类比,代价是损失一个依赖于维数的常数。

命题 7.18 [207], [167] 设 \(0<\mu\le 1\),并设 \(n\) 充分大(依赖于 \(\mu\))。设 \(v_1,\dots,v_n\) 是 \(\mathbb{R}^d\) 中的元素,且对所有 \(i\) 有 \(|v_i|\ge 1\)。则对任意 \(x_0\in\mathbb{R}^d\),对一切 \(k\ge 1\), \[\mathbb{P}\big(\,|X_v^{(\mu)}-x_0|\le k\,\big)\le O(1)^d\,\frac{k}{\sqrt{\mu n}}.\]

值得注意的是,右边只随 \(k\) 线性增长,而不是人们也许会天真地预期的 \(k^d\) 增长。这反映了如下启发式:随机变量 \(X_v^{(\mu)}\) 倾向于在一维子空间上集中得最厉害(参见习题 7.2.3)。

线性 \(k\) 还是 \(k^d\)?——这是本命题的灵魂 半径为 \(k\) 的球在 \(\mathbb{R}^d\) 中体积约为 \(k^d\)。如果概率质量是“均匀摊在 \(d\) 维空间里”的,那么把球放大 \(k\) 倍,落进去的概率也应放大约 \(k^d\) 倍。 但命题说实际上只放大了 \(k\) 倍。原因:随机游走的质量并非均匀铺满 \(d\) 维,而是集中在某条一维直线方向上。沿这条线,加大半径 \(k\) 才线性多收集到质量;其余 \(d-1\) 个方向上质量本来就稀薄,加大半径几乎没多收。于是增长是一维式的 \(k\),而不是 \(d\) 维式的 \(k^d\)。这正是 Littlewood–Offord 现象的高维体现。
天真预期:均匀铺满(~k^d) 实际:集中在一条线上(~k) 一维方向
左:若质量均匀铺满 \(d\) 维,半径放大 \(k\) 倍则概率 \(\sim k^d\)。右:实际质量集中在某条一维直线方向上,放大半径只在该方向线性收集质量,故概率 \(\sim k\)。
证明. 由 (7.5)(取 \(R=k\) 及 \(\varepsilon=1/k\)),只需证明 \[\int_{\xi\in\mathbb{R}^d:\,|\xi|\le 1/k}\ \prod_{j=1}^{n}\big|1-\mu+\mu\cos(2\pi\,\xi\cdot v_j)\big|\,d\xi=O\!\left(\frac{1}{k\sqrt d}\right)^{\!d}\frac{k}{\sqrt{\mu n}}.\] 应用赫尔德(Hölder)不等式,我们把问题归约为证明 \[\int_{\xi\in\mathbb{R}^d:\,|\xi|\le 1/k}\big|1-\mu+\mu\cos(2\pi\,\xi\cdot v_j)\big|^{n}\,d\xi=O\!\left(\frac{1}{k\sqrt d}\cdot\frac{k}{\sqrt{\mu n}}\right)^{\!d}.\]
提供的原文 PDF 在此处(命题 7.18 的证明被赫尔德不等式归约为上面这个单变量积分后)结束。下面的“收尾推演”是为读者补足的讲解,说明这个单变量积分估计如何完成证明,并非原书正文。
收尾推演(讲解补充,非原文):单变量积分怎么估 归约后只剩一个“单步”的积分。直觉与逐步是这样的:
  1. 把余弦换成下降的指数。 利用 \(1-\mu+\mu\cos(2\pi t)=1-2\mu\sin^2(\pi t)\le \exp\!\big(-2\mu\sin^2(\pi t)\big)\)(因 \(1-u\le e^{-u}\))。所以 \[\big|1-\mu+\mu\cos(2\pi\,\xi\cdot v_j)\big|^{n}\le \exp\!\big(-2\mu n\,\sin^2(\pi\,\xi\cdot v_j)\big).\] 这把一个“振荡的、绝对值小于 \(1\)”的量,换成了一个随 \(|\xi\cdot v_j|\) 增大而迅速衰减的高斯型钟形
  2. 在小区域里把 \(\sin\) 线性化。 当 \(|\xi|\le 1/k\) 时 \(\xi\cdot v_j\) 很小,\(\sin(\pi t)\approx \pi t\),于是被积函数 \(\approx \exp\!\big(-2\pi^2\mu n\,(\xi\cdot v_j)^2\big)\)。这是一个标准的高斯,沿 \(v_j\) 方向的有效宽度约为 \(1/\sqrt{\mu n}\)。
  3. 算高斯积分的体积。 把这个 \(d\) 维高斯(被 \(|\xi|\le 1/k\) 截断)积出来:沿 \(v_j\) 方向贡献宽度 \(\sim 1/\sqrt{\mu n}\),其余每个方向被球 \(|\xi|\le 1/k\) 截断、贡献宽度 \(\sim 1/k\)。于是 \[\int_{|\xi|\le 1/k}\!\exp\!\big(-2\pi^2\mu n\,(\xi\cdot v_j)^2\big)\,d\xi\ \lesssim\ \frac{1}{\sqrt{\mu n}}\cdot\Big(\frac{1}{k}\Big)^{d-1}=O\!\left(\frac{1}{k\sqrt d}\cdot\frac{k}{\sqrt{\mu n}}\right)^{\!d}\!\cdot O(1)^d,\] 正是所需的形式(\(O(1)^d\) 的依赖维数常数被允许)。这里 \(|v_j|\ge 1\) 保证了 \(v_j\) 方向上 \(\xi\cdot v_j\) 确实“走得动”,高斯才真的窄。
  4. 合起来。 把这个单变量界乘回几何因子 \(\big(R/\sqrt d+\sqrt d/\varepsilon\big)^d\)(此处 \(=O(k\sqrt d)^d\)),\(d\) 次幂彼此抵消,只剩一个 \(k/\sqrt{\mu n}\): \[\mathbb{P}\big(|X_v^{(\mu)}-x_0|\le k\big)\le O(1)^d\,\frac{k}{\sqrt{\mu n}}.\] 线性的 \(k\)(而非 \(k^d\))正是从这里来的:只有 \(v_j\) 那一个方向是“窄而长”的高斯,其余 \(d-1\) 个方向的 \(1/k\) 因子恰好与几何因子里的 \(k\) 抵消掉。
即时自测
  1. 在引理 7.17 中,若把 \(\varepsilon\) 取得很大,几何因子 \((R/\sqrt d+\sqrt d/\varepsilon)^d\) 会变小还是变大?积分因子的范围会变宽还是变窄?由此说明为什么要“平衡” \(\varepsilon\)。
  2. 验证单步特征函数 \(\mathbb{E}\,e(\eta_j\,\xi\cdot v_j)=1-\mu+\mu\cos(2\pi\,\xi\cdot v_j)\),并说明当 \(\mu=1\)(即每步必走 \(\pm v_j\))时它退化成什么。
  3. 命题 7.18 的右边为何是 \(k/\sqrt{\mu n}\) 而不是 \((k/\sqrt{\mu n})^d\)?用“质量集中在一维方向”这一启发式,结合上面的收尾推演第 3、4 步,说出 \(d\) 次幂在哪里被抵消。

返回 全书目录