7.2 傅里叶分析方法The Fourier-analytic approach
本页为译文 + 高中讲解合一:黑色正文为忠实翻译;彩色框(目标 / 定义 / 引理 / 推论 / 例 / 分步推演)与配图为面向高中生的详解,逐步推演、举例、画图,不用比喻。本节是全书较硬的一节,凡有公式都先给出最小的具体例子(常取所有 \(v_j=1\) 的“掷硬币随机游走”)再讲一般情形。
现在我们来介绍 Halász 的傅里叶分析方法。用概率论的语言会比较方便。对加法群 \(Z\) 中任意一个步长 \(n\)-元组 \(v=(v_1,\dots,v_n)\),我们用记号 \(X_v\) 表示随机变量 \[X_v:=\varepsilon_1 v_1+\cdots+\varepsilon_n v_n,\] 其中 \(\varepsilon_1,\dots,\varepsilon_n\) 是相互独立的随机变量,各以概率 \(1/2\) 取值 \(-1\) 或 \(+1\)。显然,\(\mathbb P(X_v=x)\) 等于把 \(x\) 写成 \(\varepsilon_1 v_1+\cdots+\varepsilon_n v_n\)(其中 \(\varepsilon_1,\dots,\varepsilon_n\in\{-1,1\}\))的表示法个数除以 \(2^n\)。注意 \(X_v\) 在对 \(n\)-元组 \(v\) 作置换下是不变的。我们用 \(vw\) 表示 \(v\) 与 \(w\) 的拼接。于是 Littlewood–Offord 问题就是要控制给定 \(v\) 时 \(X_v\) 的分布;而逆 Littlewood–Offord 问题则是:在已知 \(X_v\) 具有某种“反常”的分布性质时,反推 \(v\) 必须具有的某种结构信息。
引入更一般的随机变量 \(X_v^{(\mu)}\)(对任意 \(0\le\mu\le1\))会很有用,它定义为 \[X_v^{(\mu)}:=\varepsilon_1^{(\mu)}v_1+\cdots+\varepsilon_n^{(\mu)}v_n,\] 其中 \(\varepsilon_1^{(\mu)},\dots,\varepsilon_n^{(\mu)}\) 是相互独立的随机变量,各以概率 \(\mu/2\) 取 \(+1\) 和 \(-1\),以概率 \(1-\mu\) 取 \(0\)。于是当 \(\mu=1\) 时 \(X_v^{(\mu)}\) 就回到 \(X_v\);另一个极端 \(\mu=0\) 时它退化为常数 \(0\)。中间的情形对应于步长为 \(v_1,\dots,v_n\) 的“懒惰随机游走”(lazy random walks)。由于 \(\varepsilon_i\) 有相当大的概率取 \(0\),可以预期 \(X_v^{(\mu)}\) 会比 \(X_v\) 更集中;事实也确实如此。在实际操作中,\(\mu\le1/2\) 的情形比 \(\mu=1\) 的情形更便于做傅里叶分析,这是因为我们马上会用到的某种“正性”(positivity)性质。
“正性”指的是:本节核心公式里会出现因子 \(1-\mu+\mu\cos(2\pi\theta)\)。由于 \(\cos\ge-1\),这个因子 \(\ge 1-2\mu\);只要 \(\mu\le1/2\),它就恒为非负。非负的量好处大——可以两边取对数、可以当成“权重”来比较大小,傅里叶分析里许多放缩都依赖它。\(\mu=1\) 时这个因子 \(1-1+\cos=\cos\) 可正可负,处理起来麻烦得多,这就是偏爱 \(\mu\le1/2\) 的原因。
本节我们考虑离散问题:理解随机变量 \(X_v^{(\mu)}\) 集中在单个点的概率 \(\mathbb P(X_v^{(\mu)}=x)\)。下一节将简要讨论类似的、集中在一个立方体中的概率 \(\mathbb P(X_v^{(\mu)}\in Q)\)。
两步技术化简:把背景群换成“有限且阶为奇数”
我们先对问题做一些技术性的化简。
第一,可以化归到背景群 \(Z\) 为有限的情形。这只要对步长 \(v_1,\dots,v_n\) 施加一个合适的 \(n\) 阶 Freiman 同构(见习题 5.3.3)即可达到,同时注意这不改变 \(X_v\) 的分布。
第二,还可以进一步化归到 \(Z\) 的阶为奇数的情形。要看清这一点,由推论 3.8,任何有限加法群都能写成一个 2-挠群(2-torsion group)与一个奇数阶群的乘积。随机变量 \(X_v\) 投影到 2-挠群分量上时表现是平凡的(因为在这个群里 \(+v_j=-v_j\)),所以不失一般性,我们可以投影到另一个因子上。注意,如果原来的元素 \(v_1,\dots,v_n\) 处在某个无挠群(如 \(\mathbb Z^d\))中,那么由引理 5.25,我们现在可以把这些向量放进一个奇素数阶的循环群里。(这样做时可能暂时遮蔽掉 \(v_1,\dots,v_d\) 的某些“维数”结构,所以在论证的某些阶段,有时回到原来的背景群会更方便。)
把分布写成傅里叶变换:核心引理 7.11
做了这些化简后,我们现在可以用傅里叶变换来表达 \(X_v\) 的分布。和往常一样,我们在 \(Z\) 上固定一个对称的、非退化的双线性型 \(\xi\cdot x\)(取值在 \(\mathbb R/\mathbb Z\) 中)。以下记 \(e(t):=e^{2\pi i t}\)。
- 为什么 \(1-\mu+\mu\cos(2\pi\,\xi\cdot v_j)\) 正好是某个期望。 对单个步长 \(\varepsilon_j^{(\mu)}v_j\) 算期望 \(\mathbb E\,e(\xi\cdot\varepsilon_j^{(\mu)}v_j)\):以概率 \(\mu/2\) 取 \(+v_j\),贡献 \(\tfrac{\mu}{2}e(\xi\cdot v_j)\);以概率 \(\mu/2\) 取 \(-v_j\),贡献 \(\tfrac{\mu}{2}e(-\xi\cdot v_j)\);以概率 \(1-\mu\) 取 \(0\),贡献 \(1-\mu\)。相加并用 \(\tfrac12(e(\theta)+e(-\theta))=\cos(2\pi\theta)\),恰得 \(1-\mu+\mu\cos(2\pi\,\xi\cdot v_j)\)。
- 为什么连乘 \(\prod_j\) 出现。 因为各步 \(\varepsilon_j^{(\mu)}\) 相互独立,整段游走的指数期望 \(\mathbb E\,e(\xi\cdot X_v^{(\mu)})=\mathbb E\,e\!\bigl(\xi\cdot\sum_j\varepsilon_j^{(\mu)}v_j\bigr)=\prod_j\mathbb E\,e(\xi\cdot\varepsilon_j^{(\mu)}v_j)\)——独立随机变量之和的指数期望等于各自期望之积。
- 为什么对 \(\xi\) 取期望就抓出了概率。 这正是傅里叶反演(引理 4.5):对群里所有“频率” \(\xi\) 求平均 \(\mathbb E_{\xi\in Z}\,e(\xi\cdot y)\),当 \(y=0\) 时等于 \(1\),否则等于 \(0\)。所以 \(\mathbb E_{\xi}\,e(\xi\cdot(X_v^{(\mu)}-x))\) 恰好挑出“\(X_v^{(\mu)}=x\)”这一事件,对它再取概率期望就得到 \(\mathbb P(X_v^{(\mu)}=x)\)。
这条引理已经突出了 \(0\le\mu\le\tfrac12\) 这一情形的特殊地位:此时 \(1-\mu+\mu\cos(2\pi\,\xi\cdot v_j)\) 变成非负的。在更进一步的情形 \(0\le\mu\le\tfrac14\) 下,我们有下面这条初等却极有用的估计: \[1-\mu+\mu\cos(2\pi\,\xi\cdot v_j)=\exp\!\Bigl(-\Theta\bigl(\mu\,\|\xi\cdot v_j\|_{\mathbb R/\mathbb Z}^2\bigr)\Bigr),\tag{7.1}\] 这里 \(\|x\|_{\mathbb R/\mathbb Z}\) 表示 \(x\) 到最近整数的距离。
由引理 7.11 立刻得到的比较型界:推论 7.12
由引理 7.11,我们能立即建立若干关于“一个分布 \(X_v^{(\mu)}\) 如何控制另一个分布”的有用界限。
- (控制 / Domination) 若 \(0\le\mu\le\mu'\le1\),且 \(\mu'\le1/2\) 与 \(\mu\le\mu'/4\) 中至少有一个成立,则 \[\mathbb P\!\left(X_{vw}^{(\mu')}=x\right)\le\mathbb P\!\left(X_v^{(\mu)}=0\right)=\mathbb E_{\xi\in Z}\prod_{j=1}^n\bigl(1-\mu+\mu\cos(2\pi\,\xi\cdot v_j)\bigr).\] 特别地,若 \(\mu\le1/2\),则 \(X_v^{(\mu)}\) 在原点处的集中程度比在任何其它点都高。
- (重复 / Duplication) 若 \(0\le\mu\le1/2\),则对所有整数 \(k\ge1\), \[\mathbb P\!\left(X_{vw}^{(\mu)}=x\right)\le\mathbb P\!\left(X_{v^k}^{(\mu/k)}=0\right),\] 其中 \(v^k\) 表示 \(v\) 的 \(k\) 份拼接。
- (赫尔德 / Hölder) 若 \(w_1,\dots,w_k\) 是 \(Z\) 中的元组(长度可不同),\(0\le\mu\le1/2\),则 \[\mathbb P\!\left(X_{vw_1\cdots w_k}^{(\mu)}=x\right)\le\prod_{i=1}^k\mathbb P\!\left(X_{vw_i^k}^{(\mu)}=0\right)^{1/k}.\]
重复公式同理由初等不等式 \[(1-\mu)+\mu\cos(2\pi\theta)\le\Bigl(1-\frac{\mu}{k}+\frac{\mu}{k}\cos(2\pi\theta)\Bigr)^k\] 推出,这只要两边取对数并利用 \(\log(1-t)\) 在区间 \(0
- “控制”在直觉上说什么。 它说:把 \(\mu'\) 调小成 \(\mu\)、并把多余的步长 \(w\) 删掉,得到的随机和在原点处的概率,必定不小于原来那个和落在任意点 \(x\) 的概率。两件事都让分布更集中(更懒、步更少),所以单点概率只升不降。最后一句“原点最集中”是因为公式里只有 \(x=0\) 时 \(\cos(2\pi\,\xi\cdot x)\equiv1\) 取到最大,其它 \(x\) 的 \(\cos\) 会有正有负地相消。
- 为什么 \(\mu\le\mu'/4\) 这一支需要 \(\xi\to2\xi\)。 当 \(\mu'\) 可能大于 \(1/2\) 时,因子未必非负,不能直接放缩。这时用倍角技巧:\(|\cos(\pi\theta)|\) 被一个非负的、关于 \(\cos(2\pi\theta)\) 的线性式压住,再把变量 \(\xi\) 换成 \(2\xi\) 就把 \(\pi\) 变回 \(2\pi\)。换元可逆正是靠群的阶为奇数。代价是把系数从 \(\mu'\) 缩到 \(\mu'/4\),这就是条件里那个 \(4\) 的来源。
- “重复”为何把 \(\mu\) 除以 \(k\)。 把每个步长复制 \(k\) 份,同时把迈步概率从 \(\mu\) 降到 \(\mu/k\),总的“有效迈步量”大致守恒,但分布更集中。凹性不等式保证复制后原点概率只增不减。
上述推论表明,当 \(\mu\le1/2\) 时,量 \(\mathbb P(X_v^{(\mu)}=0)\) 在对元组 \(v\)(例如增删重复元素)和参数 \(\mu\) 做“小修小补”时是相当稳定的。作为一个应用,我们给出推论 7.4 的一个傅里叶分析版本。
- 把链条看清楚。 第一步用“重复”把 \(v\) 复制成 \(vv\) 并把 \(\mu\) 减半;第二步插入 \(v_j^k\)(某个非零步长复制 \(k\) 份);第三步用控制把多余部分删掉,只留 \(v_j^k\)。于是问题归结为“同一个非零步长走 \(k\) 步”的最简单游走。
- 为什么最后是高斯积分。 \(\bigl(1-\tfrac\mu2+\tfrac\mu2\cos\bigr)^k\) 经 (7.1) 变成 \(\exp(-\Theta(k\mu\|\xi\|^2))\),这是个钟形(高斯型)曲线,宽度约 \(1/\sqrt{\mu k}\)。整条曲线下的面积就约为它的高度 \(O(1)\) 乘宽度,即 \(O(1/\sqrt{\mu k})\)。这就是 \(1/\sqrt{\mu k}\) 这个量级的来源——它本质上是中心极限定理“\(n\) 步随机游走的典型范围约 \(\sqrt n\)、单点概率约 \(1/\sqrt n\)”的精确版本。
我们指出,在 \(\mu=1\) 的情形,推论 7.4 给出尖锐的界 \[\mathbb P\!\left(X_v^{(1)}=x\right)\le\binom{k}{\lfloor k/2\rfloor}\Big/2^k=\Theta\!\left(\frac{1}{\sqrt k}\right),\] 这要归功于斯特林公式 (1.52)。这表明傅里叶分析方法能给出差一个绝对常数即尖锐的界。如果步长 \(v_1,\dots,v_n\) 足够“高维”,还能做得比这个 \(O(1/\sqrt k)\) 型的界更好;见习题 7.2.3。
更深的分布不等式:Halász 相对集中不等式
现在我们给出一条更深刻的分布不等式,它特别地依赖于柯西–达文波特不等式(定理 5.4)。
注意,控制不等式只给出 \(\mathbb P(X_v^{(\mu')}=x)\le\mathbb P(X_v^{(\mu)}=0)\)。因此当 \(\mu\) 显著小于 \(\mu'\) 时,Halász 不等式更优——此时它断言 \(X_v^{(\mu)}\) 在原点处的集中频率远高于 \(X_v^{(\mu')}\)(因为第一项前面的系数 \(\sqrt{\mu/\mu'}\) 很小,要让不等式成立,\(\mathbb P(X_v^{(\mu)}=0)\) 必须相对很大)。关于这条不等式的更多讨论及更定量的版本,见 [195]、[364]、[365]。
- 定义两族函数 \(F\)(用大参数 \(\mu'\))、\(G\)(用小参数 \(\mu\))。由引理 7.11,要比的两个概率分别是 \(F,G\) 的平均值。
- 看“水平集” \(\{F>\alpha\}\)(\(F\) 比阈值 \(\alpha\) 还大的那些频率 \(\xi\))。由 (7.1),\(F(\xi)>\alpha\) 等价于 \(\sum_j\|\xi\cdot v_j\|^2\) 很小,即 \(\xi\) 在“好集合”里。
- 把好集合里的 \(m\) 个频率相加 \(\xi_1+\cdots+\xi_m\),由三角不等式它的 \(\sum\|\cdot\|^2\) 至多放大 \(m^2\) 倍。只要 \(m=c\sqrt{\mu'/\mu}\),放大量恰好被 \(\mu'/\mu\) 的差距吸收,使得这个和仍落在 \(\{G>\alpha\}\) 里。于是 \(m\{F>\alpha\}\subseteq\{G>\alpha\}\)。
- 柯西–达文波特登场:在 \(Z_p\) 里,把一个集合自加 \(m\) 次,大小至少变成原来的 \(m\) 倍(直到填满整个群)。所以 \(\{G>\alpha\}\) 至少是 \(\{F>\alpha\}\) 的 \(m\) 倍大,即 \(\mathbb P(\{F>\alpha\})\le\frac1m\mathbb P(\{G>\alpha\})\)。
- 对所有阈值 \(\alpha\) 积分,就把“\(F\) 的平均 \(\le\frac1m\,G\) 的平均”兑现出来。\(\frac1m=\sqrt{\mu/\mu'}\) 正是不等式里那个小系数。
更直接的单点界:Halász 集中不等式
对上述论证稍作修改,可得到关于 \(\mathbb P(X_v^{(\mu)}=x)\) 的一个更直接的界。
- (7.3) 在说什么。 \(\|\xi\cdot v_j\|^2\)(到最近整数距离的平方)与 \(1-\cos(2\pi\,\xi\cdot v_j)\) 是同阶的——两者都在 \(\xi\cdot v_j\) 为整数时为 \(0\)、离整数越远越大。于是“\(\sum\cos\ge n/2\)”就等价于“\(\sum\|\cdot\|^2\) 较小”,即 \(\xi\) 让多数 \(\xi\cdot v_j\) 都接近整数。
- 分段求和的好处。 直接对 \(\mathbb E\exp(-\Theta(\mu\sum\|\cdot\|^2))\) 估计不好下手,于是按指数的大小(用整数 \(m\) 标记“\(\sum\|\cdot\|^2\approx m/\mu\)”这一层)切片,每片的权重是 \(\exp(-\Theta(m))\),再乘上落在该片的频率比例。柯西–达文波特把每片比例都压到 \(\sqrt{m/(\mu n)}\) 乘“最集中那层”的比例。
- 结论的形状。 把各片求和,几何衰减的 \(\exp(-\Theta(m))\) 把 \(\sqrt m\) 压住,留下总系数 \(1/\sqrt{\mu n}\)。所以最终单点概率 \(\lesssim\frac{1}{\sqrt{\mu n}}\times(\text{“多数 }\xi\cdot v_j\text{ 接近整数”的频率比例})\)。后一个比例越小,说明 \(v\) 越“分散”,随机和越不集中。
这个界很容易就蕴含推论 7.13,而且事实上要强得多。例如,我们有:
我们指出,在 \(\mu=1\) 的情形,本推论的后半句最早是在 [310] 中用组合方法建立的(精确的阈值见 [330])。
- 若所有 \(v_i\) 互不相同,则每个 \(m_j\) 要么是 \(0\) 要么是 \(1\),于是 \(\sum_j m_j^2=\sum_j m_j=n\)。代入主界 \(\mu^{-1/2}n^{-5/2}\cdot n=\mu^{-1/2}n^{-3/2}\),得后半句。
- 另一极端:若 \(v=(1,1,\dots,1)\)(全相同),则 \(m_1=n\),\(\sum m_j^2=n^2\),主界给出 \(\mu^{-1/2}n^{-1/2}\)——正是推论 7.13 那个较弱的 \(1/\sqrt{\mu n}\)。
- 所以“元素越分散(重复越少),随机和越不集中”被定量化为:单点概率 \(\propto\sum m_j^2\)。习题 7.2.6 表明在 \(m_j\) 递减时这个界已无法改进(除常数外)。
习题
- 7.2.1 证明:在推论 7.12 控制不等式的条件 \(\mu\le\mu'/4\) 中,常数 \(4\) 不能换成任何更小的常数,即使在最重要的 \(\mu'=1\) 情形也如此。
- 7.2.2 若 \(v=(v_1,\dots,v_n)\) 是整数元组,证明对所有整数 \(m\), \[\mathbb P\!\left(X_v^{(\mu)}=m\right)=\int_0^1\cos(2\pi m\xi)\prod_{j=1}^n\bigl(1-\mu+\mu\cos(2\pi v_j\xi)\bigr)\,d\xi.\]
- 7.2.3 [167] 设 \(1\le k\le n\) 且 \(d\ge1\),设 \(v=(v_1,\dots,v_n)\) 是 \(\mathbb R^d\) 中向量的元组,且是“非退化”的,即 \(\mathbb R^d\) 的每个真子空间至多包含 \(v_1,\dots,v_n\) 中的 \(n-k\) 个。证明对每个 \(0<\mu\le1\) 与 \(x\in\mathbb R^d\), \[\mathbb P\!\left(X_v^{(\mu)}=x\right)=O_d\bigl((\mu k)^{-d/2}\bigr).\] (提示:仿照推论 7.13,从形如 \(\mathbb P(X_{v^d}^{(\mu/d)}=0)\) 的表达式出发,适当地运用 Hölder 不等式以得到形如 \(\mathbb P(X_{w_1^k w_2^k\cdots w_d^k}^{(\mu/d)})\) 的量,其中 \(w_1,\dots,w_d\in\mathbb R^d\) 线性无关。)给出例子说明这个界在 \(O_d(\cdot)\) 记号中的隐含常数意义下是最优的。
- 7.2.4 [364] 在引理 7.14 的记号与假设下,建立 Halász 不等式的如下定量特例: \[\mathbb P\!\left(X_v^{(1)}=x\right)\le\frac12\mathbb P\!\left(X_v^{(1/16)}=0\right)+\mathbb P\!\left(X_v^{(1/16)}=0\right)^4.\]
- 7.2.5 证明:当 \(Z\) 是非循环有限群时,引理 7.14 可以失效。特别地,若 \(Z=\mathbb F_3^d\),证明在适当选取元组 \(v\) 时,对很大一段 \(\mu\) 的范围,\(\mathbb P(X_v^{(\mu)}=0)\) 可以与 \(1/3^d\) 同阶。这说明柯西–达文波特不等式在 Halász 论证中起到的关键作用。
- 7.2.6 证明:若 \(m_j\) 关于 \(j\) 递减,则推论 7.16 的右端除隐含常数外不可改进。(提示:计算 \(X_v^{(\mu)}\) 的方差。)
- 7.2.7 设 \(0<\mu\le1\),并设 \(n\) 充分大(依赖于 \(\mu\))。设 \(v=(v_1,\dots,v_n)\) 取值于某奇素数 \(p\) 的 \(Z_p\) 中的一个加性集合 \(S\) 内。证明对任意偶整数 \(k\ge2\) 与 \(x\in Z\), \[\mathbb P\!\left(X_v^{(\mu)}=x\right)\le O_k\!\left(\mu^{-1/2}n^{-2k-\frac12}\|S\|_{2k}^{(2k)}\sum_{j\in S}m_j^2\right),\] 其中 \(m_j\) 为 \(j\) 在 \(v\) 中出现的次数,\(\|\cdot\|_{2k}^{(2k)}\) 常数由定义 4.26 给出。特别地,若 \(v_j\) 互不相同,则 \[\mathbb P\!\left(X_v^{(\mu)}=x\right)\le O_k\!\left(\mu^{-1/2}n^{-(2k+1)/2}\|S\|_{2k}^{(2k)}\right).\] 于是 \(X_v^{(\mu)}\) 只有在 \(v\) 的支撑集的 \(\Lambda(p)\) 常数很大时才能显著集中。
- 7.2.8 [167] 设 \(0<\mu\le1\),\(n\) 充分大(依赖于 \(\mu\))。设 \(v_1,\dots,v_n\) 是非零整数,\(k\ge2\) 为偶整数。推广推论 7.16,证明对任意 \(x\in Z\), \[\mathbb P\!\left(X_v^{(\mu)}=x\right)\le O_k\!\left(\mu^{-1/2}n^{-2k-\frac12}R_k\right),\] 其中 \(R_k\) 是方程 \[\varepsilon_1 v_{i_1}+\cdots+\varepsilon_{2k}v_{i_{2k}}=0\] 的解的个数。
1. 事实上,一个有用的启发式是把 \(X_{v^k}^{(\mu)}\) 想成(差常数倍意义下)类似于等差数列 \([-\sqrt{\mu k},\,\sqrt{\mu k}]\cdot v\) 上的均匀分布;注意这一启发式有切尔诺夫(Chernoff)不等式支撑。
2. 严格说来,这里应写成 \[\mathbb P_{Z_p}\bigl(m\{\xi:G(\xi)>\alpha\}\bigr)\ge\max\bigl(m\,\mathbb P_{Z_p}(\{\xi:F(\xi)>\alpha\})-(m-1)/p,\,1\bigr),\] 因为柯西–达文波特不等式只蕴含 \(|A+B|\ge\min\{|A|+|B|-1,\,p\}\)(对 \(Z_p\) 的任意子集 \(A,B\))。然而由于可以取 \(p\) 任意大,\((m-1)/p\) 这一项可以忽略。
返回 全书目录