Tao–Vu · 加性组合学 · 第 10 章 k=3 的 Szemerédi 定理

10.3 整数情形The integer case

本页为译文 + 高中讲解合一:黑色正文为忠实翻译;彩色框(目标 / 例 / 分步推演 / 自测)与配图为面向高中生(与初学者)的详解,逐步推演、举例、画图,不用比喻。本节较难,讲解会把每一步的动机都点出来。

本节目标前两节(10.1、10.2)处理的是有限群(如 \(\mathbb{Z}_N\)、\(\mathbb{F}_3^n\))里的 Roth 定理。本节回到 Roth 当年最初的战场——普通整数区间 \([1,N]=\{1,2,\dots,N\}\)。核心困难只有一个:\([1,N]\) 不是一个群(两个区间里的数相加会跑出区间),所以前面在群上用得很顺手的 Fourier 工具不能照搬。本节就是把那套"密度增量"机器改造到整数区间上。

我们现在勾勒整数情形下 Roth 定理的证明(这正是 Roth 当年论证的原始背景)。这里我们会写得相对简略,因为这个结果稍后将被更强的 Roth–Bourgain 定理(定理 10.30)所取代。

背景速记:什么是 Roth 定理Roth 定理是 \(k=3\) 的 Szemerédi 定理:只要正整数集合 \(A\subset[1,N]\) 的密度 \(|A|/N\) 不随 \(N\) 趋于 \(0\)(即 \(A\) "占据正比例"),那么当 \(N\) 足够大时,\(A\) 中必然含有一个长度为 3 的等差数列 \(a,\,a+d,\,a+2d\)(\(d\neq 0\))。本节要做的就是证明它。

整体策略:两个零件

正如定理 10.12 的证明那样,我们需要两个零件(ingredient):

因为 \([1,N]\) 并不真的是一个群,我们无法直接套用推论 10.10。不过,我们有下面这个替代品。

为什么要这两个零件(密度增量法的逻辑)这是 Roth 证明的"发动机"。整个论证是一个循环
  1. 假设 \(A\) 在 \([1,N]\) 中密度为 \(\delta\),且不含三项等差数列。
  2. 零件一告诉我们:\(A\) 必定"不均匀"——它在某个线性相位上偏离平均值很多(偏离量 \(\Omega(\delta^2)\))。
  3. 零件二把这种不均匀变成好处:能找到一个更短的等差数列 \(P'\),使 \(A\) 在 \(P'\) 上的密度比 \(\delta\) 明显更大
  4. 把 \(P'\) 看成新的"区间",重复上述过程。密度只能涨不能超过 \(1\),所以涨不了几次就被卡住——这与"密度一直能涨"矛盾。矛盾说明:\(A\) 其实必须含有三项等差数列。
本节给出的就是上面第 2 步(命题 10.24)和第 3 步(引理 10.25)这两个零件。
A 密度 δ, 且无三项等差数列 零件一(命题10.24) 出现线性偏倚 Ω(δ²) 零件二(引理10.25) 子数列上密度↑ 在更短数列 P′ 上重复 密度 ≤1,涨不了几轮 → 矛盾
密度增量循环:每转一圈密度严格上升,但密度上限是 1,所以不可能无限循环——除非一开始的"无三项等差数列"假设就是错的。

零件一:缺少等差数列 ⟹ 不均匀

命题 10.24(缺少等差数列蕴含不均匀性) 设 \(P\) 是一个整数构成的等差数列,\(A\subset P\) 满足 \(|A|=\delta|P|\)(其中 \(0<\delta\le 1\))。再假设 \(|P|\ge 100/\delta^2\),且 \(A\) 不含长度为 3 的等差数列。那么存在 \(\xi\in\mathbb{R}/\mathbb{Z}\) 使得 \[\bigl|\,\mathbb{E}_{n\in P}\,(1_A(n)-\delta)\,e(n\xi)\,\bigr| = \Omega(\delta^2).\]
符号解读 所以命题是说:如果 \(A\) 没有三项等差数列,那它的平衡函数一定和某个旋转相位 \(e(n\xi)\) "对得上",相关性大到 \(\Omega(\delta^2)\)。直觉上,真正随机的集合相关性应该接近 0;相关性大说明 \(A\) "不随机、有结构"。
证明. 通过一个重新标度(rescaling)的论证,可以不妨设 \(P=[1,N]\)。(任何等差数列都可以经过平移和缩放对应到 \([1,N]\),而三项等差数列这一性质在这种线性变换下保持不变。)

由 Bertrand 公设(习题 1.10.3),我们可以找到一个素数 \(p\) 落在 \(2N\) 与 \(4N\) 之间。我们按通常的方式把 \(A\) 视为 \(\mathbb{Z}_p\) 的一个子集(并给 \(\mathbb{Z}_p\) 配上标准双线性型)。由 (10.2) 以及关于 \(A\) 的假设可知 \[\Lambda_3(1_A,1_A,1_A)=\frac{1}{p^2}\,|A|\;\le\;\frac{\delta}{4N}.\]

为什么 \(\Lambda_3(1_A,1_A,1_A)=|A|/p^2\)

\(\Lambda_3(1_A,1_A,1_A)\) 是计数三项等差数列的(归一化)三线性型:它正比于 \(A\) 中满足 \(x+z=2y\) 的三元组 \((x,y,z)\) 的个数,归一化因子为 \(1/p^2\)。这样的三元组分两类:

  1. 平凡的:\(x=y=z\)(公差 \(d=0\))。它有 \(|A|\) 个,因为只要从 \(A\) 里挑一个点即可。
  2. 非平凡的:\(d\neq 0\) 的真三项等差数列。但题设 \(A\) 不含这种,所以个数为 \(0\)。

于是三元组总数 \(=|A|\),故 \(\Lambda_3=|A|/p^2\)。又因为 \(|A|=\delta N\) 且 \(p\ge 2N\): \[\frac{|A|}{p^2}=\frac{\delta N}{p^2}\le\frac{\delta N}{(2N)^2}=\frac{\delta}{4N}.\] 这就是上式。

现在我们把 \(1_A\) 做如下分解: \[1_A=f_U+f_{U^\perp},\qquad f_{U^\perp}:=\delta\,1_{[1,N]},\quad f_U:=1_A-f_{U^\perp}.\] 一个简单的计算表明 \[\Lambda_3(f_{U^\perp},f_{U^\perp},f_{U^\perp})\;\ge\;\frac{\delta^3}{100}\] (比如说)。由关于 \(N\) 的假设(\(N\ge 100/\delta^2\)),我们得到 \[\bigl|\Lambda_3(f_U+f_{U^\perp},\,f_U+f_{U^\perp},\,f_U+f_{U^\perp})-\Lambda_3(f_{U^\perp},f_{U^\perp},f_{U^\perp})\bigr|=\Omega(\delta^3).\]

这一步在干什么:把"结构部分"与"涨落部分"分开
  • \(f_{U^\perp}=\delta 1_{[1,N]}\) 是结构部分:把 \(A\) 抹平成密度处处为 \(\delta\) 的"理想均匀集"。它含有大量三项等差数列,所以 \(\Lambda_3(f_{U^\perp},f_{U^\perp},f_{U^\perp})\approx\delta^3\cdot(\text{常数})\ge \delta^3/100\)。这是"应该有的"等差数列数量。
  • \(f_U=1_A-\delta 1_{[1,N]}\) 是涨落部分(即上面的平衡函数),在 \([1,N]\) 上平均为 \(0\)。
  • 第一式 \(\Lambda_3(1_A,1_A,1_A)\le\delta/(4N)\) 说明实际的等差数列数量几乎为 \(0\)(因为没有非平凡的)。
  • 把 \(1_A=f_U+f_{U^\perp}\) 代回:实际数量 \(\approx 0\),理想数量 \(\ge\delta^3/100\),两者相差至少 \(\Omega(\delta^3)\)。这个差额必须由含 \(f_U\) 的项来"抵消"——也就是说,涨落 \(f_U\) 必须很大。
条件 \(N\ge 100/\delta^2\) 在这里保证 \(\delta/(4N)\le \delta\cdot\delta^2/400=\delta^3/400\) 远小于 \(\delta^3/100\),所以差额确实是 \(\Omega(\delta^3)\) 级别。

左边可以拆成七项之和(把每个 \(f_U+f_{U^\perp}\) 展开,共 \(2^3=8\) 项,减去那一项纯 \(f_{U^\perp}\) 后剩 7 项),所以其中至少有一项是 \(\Omega(\delta^3)\)。为便于讨论,我们不妨假设 \[\bigl|\Lambda_3(f_U,f_U,f_U)\bigr|=\Omega(\delta^3);\] 其余六种情形是类似的(要点在于:这七项每一项都至少含有一个 \(f_U\))。利用 (10.6) 和三角不等式,我们得出 \[\sum_{\xi\in\mathbb{Z}_p}|\hat f_U(\xi)|^2\,|\hat f_U(-2\xi)|=\Omega(\delta^3).\]

什么是 \(\hat f_U(\xi)\),以及 (10.6) 的形状

\(\hat f_U(\xi)\) 是 \(f_U\) 的Fourier 系数,衡量 \(f_U\) 与相位 \(e(n\xi)\) 的相关程度。公式 (10.6) 把三项等差数列的计数写成 Fourier 端的求和,典型形状为 \[\Lambda_3(f,f,f)=\sum_{\xi}\hat f(\xi)\,\hat f(\xi)\,\hat f(-2\xi).\] 对绝对值用三角不等式,就得到上面那个含 \(|\hat f_U(\xi)|^2|\hat f_U(-2\xi)|\) 的和。这一步把"等差数列很多"翻译成了"某些 Fourier 系数很大"。

另一方面,由 Plancherel 定理我们有 \[\sum_{\xi\in\mathbb{Z}_p}|\hat f_U(\xi)|^2=\|f_U\|_{L^2(\mathbb{Z})}^2=O\!\left(\|1_A\|_{L^2(\mathbb{Z}_p)}^2+\|\delta 1_{[1,N]}\|_{L^2(\mathbb{Z}_p)}^2\right)=O(\delta).\] 我们由此得出:存在 \(\xi\in\mathbb{Z}_p\) 使得 \[|\hat f_U(-2\xi)|=\Omega(\delta^2),\] 从而 \[\bigl|\,\mathbb{E}_{n\in[1,N]}(1_A(n)-\delta)\,e(2n\xi/p)\,\bigr|=\Omega(\delta^2).\] 命题得证。

最后两步的算术(为什么得到 \(\Omega(\delta^2)\))
  1. Plancherel 给出总能量 \(\sum_\xi|\hat f_U(\xi)|^2=O(\delta)\)。直观:\(1_A\) 的 \(L^2\) 范数平方就是密度 \(\delta\),而 \(\delta 1_{[1,N]}\) 的 \(L^2\) 范数平方约为 \(\delta^2\le\delta\),相加仍是 \(O(\delta)\)。
  2. 把 \(\sum_\xi|\hat f_U(\xi)|^2|\hat f_U(-2\xi)|\) 中的因子 \(|\hat f_U(-2\xi)|\) 用它的最大值 \(M:=\max_\xi|\hat f_U(-2\xi)|\) 来上界: \[\Omega(\delta^3)=\sum_\xi|\hat f_U(\xi)|^2|\hat f_U(-2\xi)|\;\le\;M\cdot\sum_\xi|\hat f_U(\xi)|^2=M\cdot O(\delta).\]
  3. 因此 \(M\ge \Omega(\delta^3)/O(\delta)=\Omega(\delta^2)\)。取到最大值的那个 \(\xi\) 就是所求。把 \(\hat f_U(-2\xi)\) 写回平均的形式,即得末式(这里相位是 \(e(2n\xi/p)\),对应 \(\mathbb{R}/\mathbb{Z}\) 上的 \(\xi'=2\xi/p\))。
1_A(实际集合) = f_U⊥ = δ·1(抹平的均匀背景) + f_U = 1_A − δ·1(涨落,平均为 0) 高出背景的为正, 背景以下的为负,正负相消得 0
分解的核心思想:把"真实的 \(A\)"写成"完美均匀的背景 \(f_{U^\perp}\)"加上"高低起伏的涨落 \(f_U\)"。背景自带充足的等差数列;既然实际等差数列几乎为零,涨落 \(f_U\) 就必须大到足以把背景的贡献抵消掉——这正是不均匀性的来源。

零件二:不均匀 ⟹ 密度增量

类似地,我们有下面这个引理 10.15 的对应版本。

引理 10.25(不均匀性蕴含密度增量) 设 \(f:\mathbb{Z}\to\mathbb{R}\) 是一个支撑在某等差数列 \(P\) 上的函数,满足对所有 \(n\) 有 \(|f(n)|\le 1\)、\(\sum_n f(n)=0\),且对某个 \(\xi\in\mathbb{R}/\mathbb{Z}\) 与 \(\sigma>0\) 有 \[\bigl|\,\mathbb{E}_{n\in P}f(n)e(n\xi)\,\bigr|\ge\sigma.\] 那么存在一个等差数列 \(P'\subset P\),满足 \(|P'|=\Omega(\sigma^2|P|^{1/2})\) 且 \[\bigl|\,\mathbb{E}_{n\in P'}f(n)\,\bigr|\ge\sigma/4.\]
这个引理要解决的问题命题 10.24 给我们一个事实:"\(f\)(平衡函数)和旋转相位 \(e(n\xi)\) 相关性大"。但相关性大是"复数端"的信息,对我们没有直接用处。我们真正想要的是实数端的好处:找到一段普通的等差数列 \(P'\),使 \(f\) 在上面的平均值很大——这等价于 \(A\) 在 \(P'\) 上的密度比 \(\delta\) 明显更高。引理 10.25 就是这座桥。
关键技巧:相位 \(e(n\xi)\) 在整个 \([1,N]\) 上转个不停,但如果我们只看公差为 \(r\) 的一小段(\(r\xi\) 接近整数),相位在这一段上几乎不变。在这一小段上,"与旋转相位相关"就退化成了"普通平均值大"。
证明. 同样地,我们可以取 \(P=[1,N]\)。利用 Kronecker 逼近定理(推论 3.25),我们能找到一个整数 \(1\le r\le N^{1/2}\),使得 \[\|r\xi\|_{\mathbb{R}/\mathbb{Z}}\le N^{-1/2}.\] 令 \(P_0\) 记等差数列 \([1,\sigma N^{1/2}/100]\cdot r\)(即公差为 \(r\)、首项为 \(r\)、长度约为 \(\sigma N^{1/2}/100\) 的等差数列)。那么我们有 \[\mathbb{E}_{x\in P_0}\sum_n f(n+x)\,e(n\xi)\,e(x\xi)=\sum_n f(n)\,e(n\xi)\ge\sigma N,\] 其中 \(e\) 即方程 (4.1) 所定义者。

Kronecker 逼近 + 第一个等式的来历
  • Kronecker 逼近定理:对任意 \(\xi\),总能找到不太大的整数 \(r\)(这里 \(r\le N^{1/2}\)),使 \(r\xi\) 离最近的整数很近(这里距离 \(\le N^{-1/2}\))。记号 \(\|t\|_{\mathbb{R}/\mathbb{Z}}\) 表示 \(t\) 到最近整数的距离。这保证:沿公差 \(r\) 走一步,相位 \(e(x\xi)\) 几乎不动。
  • 第一个等式:对固定的 \(x\),作变量替换 \(m=n+x\), \[\sum_n f(n+x)e(n\xi)e(x\xi)=\sum_m f(m)e((m-x)\xi)e(x\xi)=\sum_m f(m)e(m\xi),\] 与 \(x\) 无关!所以对 \(x\) 求平均还是它本身。再由题设 \(\bigl|\mathbb{E}_{n\in[1,N]}f(n)e(n\xi)\bigr|\ge\sigma\),即 \(\bigl|\sum_n f(n)e(n\xi)\bigr|\ge\sigma N\)(必要时调相位使其取正实部)。

另一方面,对 \(x\in P_0\),由 (4.24) 可见 \(|e(x\xi)-1|\le\sigma/10\),于是 \[\Bigl|\mathbb{E}_{x\in P_0}\sum_n f(n+x)e(n\xi)\bigl(e(x\xi)-1\bigr)\Bigr|\le\sum_{n\in[-N,N]}\sigma/10\le\sigma N/2\] (比如说),故由三角不等式, \[\Bigl|\mathbb{E}_{x\in P_0}\sum_n f(n+x)e(n\xi)\Bigr|\ge\sigma N/2.\]

为什么 \(|e(x\xi)-1|\) 很小,以及"减 1"的妙处

对 \(x\in P_0=\{r,2r,\dots\}\),\(x\) 是 \(r\) 的不超过 \(\sigma N^{1/2}/100\) 倍。又 \(\|r\xi\|\le N^{-1/2}\),故 \(\|x\xi\|\le (\sigma N^{1/2}/100)\cdot N^{-1/2}=\sigma/100\) 很小,于是 \(e(x\xi)\) 离 \(1\) 很近,\(|e(x\xi)-1|\le\sigma/10\)。

把因子 \(e(x\xi)\) 换成 \(1+(e(x\xi)-1)\):前一段(第一个等式)告诉我们带 \(e(x\xi)\) 的和大(\(\ge\sigma N\));本段告诉我们带 \((e(x\xi)-1)\) 的"误差和"小(\(\le\sigma N/2\))。相减(三角不等式),就得到只带 \(e(n\xi)\)、不带 \(e(x\xi)\) 的和仍然大(\(\ge\sigma N/2\))。这一步成功地把"内层的 \(x\)-相位"剥掉了。

特别地,存在一个相位 \(\theta\in\mathbb{R}/\mathbb{Z}\) 使得 \[\operatorname{Re}\Bigl[\,\mathbb{E}_{x\in P_0}\sum_n f(n+x)e(n\xi+\theta)\Bigr]\ge\sigma N/2.\] 由于 \(f\) 求和为零,我们有 \(\sum_n\mathbb{E}_{x\in P_0}f(n+x)=0\),因而 \[\sum_n\mathbb{E}_{x\in P_0}f(n+x)\,\operatorname{Re}\bigl(1+e(n\xi+\theta)\bigr)\ge\sigma N/2.\] 注意这个和只在 \(n\in(-N,N]\) 时才非零。由抽屉原理(鸽笼原理),于是存在一个 \(n\) 使得 \[\mathbb{E}_{x\in n+P_0}f(x)=\mathbb{E}_{x\in P_0}f(n+x)\ge\sigma/4.\]

收尾三步的逻辑(动机最关键的地方)
  1. 取实部、配相位 \(\theta\):上一式左边是复数,模长 \(\ge\sigma N/2\)。乘上一个合适的单位复数 \(e(\theta)\) 把它转到正实轴方向,再取实部,就得到一个实数不等式,右边仍 \(\ge\sigma N/2\)。
  2. 加上一个等于零的量:因为 \(\sum_n f=0\)(题设),所以 \(\sum_n\mathbb{E}_{x\in P_0}f(n+x)\cdot 1=0\)。把这个零加进去,就能把 \(\operatorname{Re}\,e(n\xi+\theta)\) 凑成 \(\operatorname{Re}(1+e(n\xi+\theta))\)。妙处在于 \(\operatorname{Re}(1+e(\cdot))=1+\cos(\cdot)\ge 0\) 恒非负,而且 \(\le 2\)。这样系数全是 \([0,2]\) 的非负数,鸽笼原理才能用。
  3. 鸽笼原理:和式 \(\ge\sigma N/2\),非零项只有 \(n\in(-N,N]\) 共约 \(2N\) 个,每项的非负权重 \(\le 2\)。所以必有某个 \(n\) 让 \(\mathbb{E}_{x\in P_0}f(n+x)\) 大到 \(\ge\dfrac{\sigma N/2}{2\cdot 2N}=\dfrac{\sigma}{8}\) 量级,整理(取常数)即 \(\ge\sigma/4\)。这个 \(n\) 给出的子数列 \(P'=n+P_0\)(公差 \(r\)、长度 \(\sigma N^{1/2}/100\))正是所求:\(f\) 在它上面的平均值 \(\ge\sigma/4\)。
单位圆上的相位 e(nξ):在整个 [1,N] 上转个不停 普通步长:相位乱转 只沿公差 r 走(x∈P₀):rξ≈整数 沿 r 步长:相位几乎钉在 1 在这一小段上,"与旋转相位相关"≈"普通平均值",于是密度信息浮现出来。
引理 10.25 的几何直觉:整体看相位飞转,无法直接读出密度;但限制到公差 \(r\)(满足 \(r\xi\approx\) 整数)的子数列 \(P_0\) 上,相位几乎冻结,复数相关性就坍缩成实实在在的密度增量 \(\sigma/4\)。
两个零件如何合成 Roth 定理(呼应开头的循环)
  1. 设 \(A\subset[1,N]\) 密度 \(\delta\)、无三项等差数列。命题 10.24 给出 \(\xi\),使平衡函数 \(f=1_A-\delta1_{[1,N]}\) 满足 \(\bigl|\mathbb{E}\,f(n)e(n\xi)\bigr|=\Omega(\delta^2)\),即可取 \(\sigma=\Omega(\delta^2)\)。
  2. 引理 10.25 把它变成一个子数列 \(P'\),长度 \(|P'|=\Omega(\sigma^2 N^{1/2})=\Omega(\delta^4 N^{1/2})\),且 \(\mathbb{E}_{n\in P'}f(n)\ge\sigma/4\),也就是 \(A\) 在 \(P'\) 上的密度至少为 \(\delta+\Omega(\delta^2)\)。
  3. 密度每轮至少涨 \(\Omega(\delta^2)\);从 \(\delta\) 涨到接近 \(1\),至多 \(O(1/\delta)\) 轮就饱和。只要初始 \(N\) 足够大(保证每轮 \(P'\) 仍满足 \(|P'|\ge100/\delta^2\)),循环就能持续到密度突破 \(1\)——这不可能。矛盾表明:原始的 \(A\) 必含三项等差数列。

本节到此完成了整数情形下 Roth 定理所需的两个核心零件。需要再次提醒:本节的论证是定性勾勒,且即将被定理 10.30(Roth–Bourgain 定理)以更优的定量界所取代,因此这里没有把常数与轮数的精确界写全。

即时自测
  1. 为什么证明里一定要把区间 \([1,N]\) 嵌进素数阶群 \(\mathbb{Z}_p\)(\(2N
  2. 命题 10.24 中条件 \(|P|\ge 100/\delta^2\) 用在了哪一步?去掉它会让哪条不等式失效?
  3. 在引理 10.25 里,子数列 \(P'\) 的公差是 \(r\) 而不是 \(1\)。请说明为什么必须用公差 \(r\),并解释 \(r\le N^{1/2}\) 这个上界为何重要(它如何决定了 \(|P'|\approx\sigma N^{1/2}/100\) 的大小)。

返回 全书目录