Tao–Vu · 加性组合学 · 第 10 章 k=3 的 Szemerédi 定理

10.3　整数情形The integer case

本页为译文 + 高中讲解合一：黑色正文为忠实翻译；彩色框（目标 / 例 / 分步推演 / 自测）与配图为面向高中生（与初学者）的详解，逐步推演、举例、画图，不用比喻。本节较难，讲解会把每一步的动机都点出来。

本节目标前两节（10.1、10.2）处理的是有限群（如 \(\mathbb{Z}_N\)、\(\mathbb{F}_3^n\)）里的 Roth 定理。本节回到 Roth 当年最初的战场——普通整数区间 \([1,N]=\{1,2,\dots,N\}\)。核心困难只有一个：\([1,N]\) 不是一个群（两个区间里的数相加会跑出区间），所以前面在群上用得很顺手的 Fourier 工具不能照搬。本节就是把那套"密度增量"机器改造到整数区间上。

我们现在勾勒整数情形下 Roth 定理的证明（这正是 Roth 当年论证的原始背景）。这里我们会写得相对简略，因为这个结果稍后将被更强的 Roth–Bourgain 定理（定理 10.30）所取代。

背景速记：什么是 Roth 定理Roth 定理是 \(k=3\) 的 Szemerédi 定理：只要正整数集合 \(A\subset[1,N]\) 的密度 \(|A|/N\) 不随 \(N\) 趋于 \(0\)（即 \(A\) "占据正比例"），那么当 \(N\) 足够大时，\(A\) 中必然含有一个长度为 3 的等差数列 \(a,\,a+d,\,a+2d\)（\(d\neq 0\)）。本节要做的就是证明它。

整体策略：两个零件

正如定理 10.12 的证明那样，我们需要两个零件（ingredient）：

第一个零件：证明 \([1,N]\) 中缺少三项等差数列，会迫使集合产生某种线性偏倚（linear bias，即与某个线性相位 \(e(n\xi)\) 有可观的相关性）；
第二个零件：把这种线性偏倚转化为在 \([1,N]\) 的某个子等差数列上的密度增量（density increment）。

因为 \([1,N]\) 并不真的是一个群，我们无法直接套用推论 10.10。不过，我们有下面这个替代品。

为什么要这两个零件（密度增量法的逻辑）这是 Roth 证明的"发动机"。整个论证是一个循环：

假设 \(A\) 在 \([1,N]\) 中密度为 \(\delta\)，且不含三项等差数列。
零件一告诉我们：\(A\) 必定"不均匀"——它在某个线性相位上偏离平均值很多（偏离量 \(\Omega(\delta^2)\)）。
零件二把这种不均匀变成好处：能找到一个更短的等差数列 \(P'\)，使 \(A\) 在 \(P'\) 上的密度比 \(\delta\) 明显更大。
把 \(P'\) 看成新的"区间"，重复上述过程。密度只能涨不能超过 \(1\)，所以涨不了几次就被卡住——这与"密度一直能涨"矛盾。矛盾说明：\(A\) 其实必须含有三项等差数列。

本节给出的就是上面第 2 步（命题 10.24）和第 3 步（引理 10.25）这两个零件。

密度增量循环：每转一圈密度严格上升，但密度上限是 1，所以不可能无限循环——除非一开始的"无三项等差数列"假设就是错的。

零件一：缺少等差数列 ⟹ 不均匀

命题 10.24（缺少等差数列蕴含不均匀性）设 \(P\) 是一个整数构成的等差数列，\(A\subset P\) 满足 \(|A|=\delta|P|\)（其中 \(0<\delta\le 1\)）。再假设 \(|P|\ge 100/\delta^2\)，且 \(A\) 不含长度为 3 的等差数列。那么存在 \(\xi\in\mathbb{R}/\mathbb{Z}\) 使得 \[\bigl|\,\mathbb{E}_{n\in P}\,(1_A(n)-\delta)\,e(n\xi)\,\bigr| = \Omega(\delta^2).\]

符号解读

\(1_A(n)\)：指示函数，\(n\in A\) 时为 \(1\)，否则为 \(0\)。
\(\delta=|A|/|P|\)：\(A\) 的密度；\(1_A(n)-\delta\) 是"实际有没有"减去"平均应该有"，叫做平衡函数，它在 \(P\) 上的平均值恰为 \(0\)。
\(e(\theta):=e^{2\pi i\theta}\)：单位圆上的复数（线性相位）。\(e(n\xi)\) 随 \(n\) 在圆上匀速旋转。
\(\mathbb{E}_{n\in P}\)：对 \(n\) 遍取 \(P\) 求平均。
\(\Omega(\delta^2)\)：表示"至少是 \(\delta^2\) 乘以某个绝对正常数"。

所以命题是说：如果 \(A\) 没有三项等差数列，那它的平衡函数一定和某个旋转相位 \(e(n\xi)\) "对得上"，相关性大到 \(\Omega(\delta^2)\)。直觉上，真正随机的集合相关性应该接近 0；相关性大说明 \(A\) "不随机、有结构"。

证明. 通过一个重新标度（rescaling）的论证，可以不妨设 \(P=[1,N]\)。（任何等差数列都可以经过平移和缩放对应到 \([1,N]\)，而三项等差数列这一性质在这种线性变换下保持不变。）

由 Bertrand 公设（习题 1.10.3），我们可以找到一个素数 \(p\) 落在 \(2N\) 与 \(4N\) 之间。我们按通常的方式把 \(A\) 视为 \(\mathbb{Z}_p\) 的一个子集（并给 \(\mathbb{Z}_p\) 配上标准双线性型）。由 (10.2) 以及关于 \(A\) 的假设可知 \[\Lambda_3(1_A,1_A,1_A)=\frac{1}{p^2}\,|A|\;\le\;\frac{\delta}{4N}.\]

为什么 \(\Lambda_3(1_A,1_A,1_A)=|A|/p^2\)

\(\Lambda_3(1_A,1_A,1_A)\) 是计数三项等差数列的（归一化）三线性型：它正比于 \(A\) 中满足 \(x+z=2y\) 的三元组 \((x,y,z)\) 的个数，归一化因子为 \(1/p^2\)。这样的三元组分两类：

平凡的：\(x=y=z\)（公差 \(d=0\)）。它有 \(|A|\) 个，因为只要从 \(A\) 里挑一个点即可。
非平凡的：\(d\neq 0\) 的真三项等差数列。但题设 \(A\) 不含这种，所以个数为 \(0\)。

于是三元组总数 \(=|A|\)，故 \(\Lambda_3=|A|/p^2\)。又因为 \(|A|=\delta N\) 且 \(p\ge 2N\)： \[\frac{|A|}{p^2}=\frac{\delta N}{p^2}\le\frac{\delta N}{(2N)^2}=\frac{\delta}{4N}.\] 这就是上式。♦

现在我们把 \(1_A\) 做如下分解： \[1_A=f_U+f_{U^\perp},\qquad f_{U^\perp}:=\delta\,1_{[1,N]},\quad f_U:=1_A-f_{U^\perp}.\] 一个简单的计算表明 \[\Lambda_3(f_{U^\perp},f_{U^\perp},f_{U^\perp})\;\ge\;\frac{\delta^3}{100}\] （比如说）。由关于 \(N\) 的假设（\(N\ge 100/\delta^2\)），我们得到 \[\bigl|\Lambda_3(f_U+f_{U^\perp},\,f_U+f_{U^\perp},\,f_U+f_{U^\perp})-\Lambda_3(f_{U^\perp},f_{U^\perp},f_{U^\perp})\bigr|=\Omega(\delta^3).\]

这一步在干什么：把"结构部分"与"涨落部分"分开

\(f_{U^\perp}=\delta 1_{[1,N]}\) 是结构部分：把 \(A\) 抹平成密度处处为 \(\delta\) 的"理想均匀集"。它含有大量三项等差数列，所以 \(\Lambda_3(f_{U^\perp},f_{U^\perp},f_{U^\perp})\approx\delta^3\cdot(\text{常数})\ge \delta^3/100\)。这是"应该有的"等差数列数量。
\(f_U=1_A-\delta 1_{[1,N]}\) 是涨落部分（即上面的平衡函数），在 \([1,N]\) 上平均为 \(0\)。
第一式 \(\Lambda_3(1_A,1_A,1_A)\le\delta/(4N)\) 说明实际的等差数列数量几乎为 \(0\)（因为没有非平凡的）。
把 \(1_A=f_U+f_{U^\perp}\) 代回：实际数量 \(\approx 0\)，理想数量 \(\ge\delta^3/100\)，两者相差至少 \(\Omega(\delta^3)\)。这个差额必须由含 \(f_U\) 的项来"抵消"——也就是说，涨落 \(f_U\) 必须很大。

条件 \(N\ge 100/\delta^2\) 在这里保证 \(\delta/(4N)\le \delta\cdot\delta^2/400=\delta^3/400\) 远小于 \(\delta^3/100\)，所以差额确实是 \(\Omega(\delta^3)\) 级别。

左边可以拆成七项之和（把每个 \(f_U+f_{U^\perp}\) 展开，共 \(2^3=8\) 项，减去那一项纯 \(f_{U^\perp}\) 后剩 7 项），所以其中至少有一项是 \(\Omega(\delta^3)\)。为便于讨论，我们不妨假设 \[\bigl|\Lambda_3(f_U,f_U,f_U)\bigr|=\Omega(\delta^3);\] 其余六种情形是类似的（要点在于：这七项每一项都至少含有一个 \(f_U\)）。利用 (10.6) 和三角不等式，我们得出 \[\sum_{\xi\in\mathbb{Z}_p}|\hat f_U(\xi)|^2\,|\hat f_U(-2\xi)|=\Omega(\delta^3).\]

什么是 \(\hat f_U(\xi)\)，以及 (10.6) 的形状

\(\hat f_U(\xi)\) 是 \(f_U\) 的Fourier 系数，衡量 \(f_U\) 与相位 \(e(n\xi)\) 的相关程度。公式 (10.6) 把三项等差数列的计数写成 Fourier 端的求和，典型形状为 \[\Lambda_3(f,f,f)=\sum_{\xi}\hat f(\xi)\,\hat f(\xi)\,\hat f(-2\xi).\] 对绝对值用三角不等式，就得到上面那个含 \(|\hat f_U(\xi)|^2|\hat f_U(-2\xi)|\) 的和。这一步把"等差数列很多"翻译成了"某些 Fourier 系数很大"。

另一方面，由 Plancherel 定理我们有 \[\sum_{\xi\in\mathbb{Z}_p}|\hat f_U(\xi)|^2=\|f_U\|_{L^2(\mathbb{Z})}^2=O\!\left(\|1_A\|_{L^2(\mathbb{Z}_p)}^2+\|\delta 1_{[1,N]}\|_{L^2(\mathbb{Z}_p)}^2\right)=O(\delta).\] 我们由此得出：存在 \(\xi\in\mathbb{Z}_p\) 使得 \[|\hat f_U(-2\xi)|=\Omega(\delta^2),\] 从而 \[\bigl|\,\mathbb{E}_{n\in[1,N]}(1_A(n)-\delta)\,e(2n\xi/p)\,\bigr|=\Omega(\delta^2).\] 命题得证。♦

最后两步的算术（为什么得到 \(\Omega(\delta^2)\)）

Plancherel 给出总能量 \(\sum_\xi|\hat f_U(\xi)|^2=O(\delta)\)。直观：\(1_A\) 的 \(L^2\) 范数平方就是密度 \(\delta\)，而 \(\delta 1_{[1,N]}\) 的 \(L^2\) 范数平方约为 \(\delta^2\le\delta\)，相加仍是 \(O(\delta)\)。
把 \(\sum_\xi|\hat f_U(\xi)|^2|\hat f_U(-2\xi)|\) 中的因子 \(|\hat f_U(-2\xi)|\) 用它的最大值 \(M:=\max_\xi|\hat f_U(-2\xi)|\) 来上界： \[\Omega(\delta^3)=\sum_\xi|\hat f_U(\xi)|^2|\hat f_U(-2\xi)|\;\le\;M\cdot\sum_\xi|\hat f_U(\xi)|^2=M\cdot O(\delta).\]
因此 \(M\ge \Omega(\delta^3)/O(\delta)=\Omega(\delta^2)\)。取到最大值的那个 \(\xi\) 就是所求。把 \(\hat f_U(-2\xi)\) 写回平均的形式，即得末式（这里相位是 \(e(2n\xi/p)\)，对应 \(\mathbb{R}/\mathbb{Z}\) 上的 \(\xi'=2\xi/p\)）。

分解的核心思想：把"真实的 \(A\)"写成"完美均匀的背景 \(f_{U^\perp}\)"加上"高低起伏的涨落 \(f_U\)"。背景自带充足的等差数列；既然实际等差数列几乎为零，涨落 \(f_U\) 就必须大到足以把背景的贡献抵消掉——这正是不均匀性的来源。

零件二：不均匀 ⟹ 密度增量

类似地，我们有下面这个引理 10.15 的对应版本。

引理 10.25（不均匀性蕴含密度增量）设 \(f:\mathbb{Z}\to\mathbb{R}\) 是一个支撑在某等差数列 \(P\) 上的函数，满足对所有 \(n\) 有 \(|f(n)|\le 1\)、\(\sum_n f(n)=0\)，且对某个 \(\xi\in\mathbb{R}/\mathbb{Z}\) 与 \(\sigma>0\) 有 \[\bigl|\,\mathbb{E}_{n\in P}f(n)e(n\xi)\,\bigr|\ge\sigma.\] 那么存在一个真等差数列 \(P'\subset P\)，满足 \(|P'|=\Omega(\sigma^2|P|^{1/2})\) 且 \[\bigl|\,\mathbb{E}_{n\in P'}f(n)\,\bigr|\ge\sigma/4.\]

这个引理要解决的问题命题 10.24 给我们一个事实："\(f\)（平衡函数）和旋转相位 \(e(n\xi)\) 相关性大"。但相关性大是"复数端"的信息，对我们没有直接用处。我们真正想要的是实数端的好处：找到一段普通的等差数列 \(P'\)，使 \(f\) 在上面的平均值很大——这等价于 \(A\) 在 \(P'\) 上的密度比 \(\delta\) 明显更高。引理 10.25 就是这座桥。
关键技巧：相位 \(e(n\xi)\) 在整个 \([1,N]\) 上转个不停，但如果我们只看公差为 \(r\) 的一小段（\(r\xi\) 接近整数），相位在这一段上几乎不变。在这一小段上，"与旋转相位相关"就退化成了"普通平均值大"。

证明. 同样地，我们可以取 \(P=[1,N]\)。利用 Kronecker 逼近定理（推论 3.25），我们能找到一个整数 \(1\le r\le N^{1/2}\)，使得 \[\|r\xi\|_{\mathbb{R}/\mathbb{Z}}\le N^{-1/2}.\] 令 \(P_0\) 记等差数列 \([1,\sigma N^{1/2}/100]\cdot r\)（即公差为 \(r\)、首项为 \(r\)、长度约为 \(\sigma N^{1/2}/100\) 的等差数列）。那么我们有 \[\mathbb{E}_{x\in P_0}\sum_n f(n+x)\,e(n\xi)\,e(x\xi)=\sum_n f(n)\,e(n\xi)\ge\sigma N,\] 其中 \(e\) 即方程 (4.1) 所定义者。

Kronecker 逼近 + 第一个等式的来历

Kronecker 逼近定理：对任意 \(\xi\)，总能找到不太大的整数 \(r\)（这里 \(r\le N^{1/2}\)），使 \(r\xi\) 离最近的整数很近（这里距离 \(\le N^{-1/2}\)）。记号 \(\|t\|_{\mathbb{R}/\mathbb{Z}}\) 表示 \(t\) 到最近整数的距离。这保证：沿公差 \(r\) 走一步，相位 \(e(x\xi)\) 几乎不动。
第一个等式：对固定的 \(x\)，作变量替换 \(m=n+x\)， \[\sum_n f(n+x)e(n\xi)e(x\xi)=\sum_m f(m)e((m-x)\xi)e(x\xi)=\sum_m f(m)e(m\xi),\] 与 \(x\) 无关！所以对 \(x\) 求平均还是它本身。再由题设 \(\bigl|\mathbb{E}_{n\in[1,N]}f(n)e(n\xi)\bigr|\ge\sigma\)，即 \(\bigl|\sum_n f(n)e(n\xi)\bigr|\ge\sigma N\)（必要时调相位使其取正实部）。

另一方面，对 \(x\in P_0\)，由 (4.24) 可见 \(|e(x\xi)-1|\le\sigma/10\)，于是 \[\Bigl|\mathbb{E}_{x\in P_0}\sum_n f(n+x)e(n\xi)\bigl(e(x\xi)-1\bigr)\Bigr|\le\sum_{n\in[-N,N]}\sigma/10\le\sigma N/2\] （比如说），故由三角不等式， \[\Bigl|\mathbb{E}_{x\in P_0}\sum_n f(n+x)e(n\xi)\Bigr|\ge\sigma N/2.\]

为什么 \(|e(x\xi)-1|\) 很小，以及"减 1"的妙处

对 \(x\in P_0=\{r,2r,\dots\}\)，\(x\) 是 \(r\) 的不超过 \(\sigma N^{1/2}/100\) 倍。又 \(\|r\xi\|\le N^{-1/2}\)，故 \(\|x\xi\|\le (\sigma N^{1/2}/100)\cdot N^{-1/2}=\sigma/100\) 很小，于是 \(e(x\xi)\) 离 \(1\) 很近，\(|e(x\xi)-1|\le\sigma/10\)。

把因子 \(e(x\xi)\) 换成 \(1+(e(x\xi)-1)\)：前一段（第一个等式）告诉我们带 \(e(x\xi)\) 的和大（\(\ge\sigma N\)）；本段告诉我们带 \((e(x\xi)-1)\) 的"误差和"小（\(\le\sigma N/2\)）。相减（三角不等式），就得到只带 \(e(n\xi)\)、不带 \(e(x\xi)\) 的和仍然大（\(\ge\sigma N/2\)）。这一步成功地把"内层的 \(x\)-相位"剥掉了。

特别地，存在一个相位 \(\theta\in\mathbb{R}/\mathbb{Z}\) 使得 \[\operatorname{Re}\Bigl[\,\mathbb{E}_{x\in P_0}\sum_n f(n+x)e(n\xi+\theta)\Bigr]\ge\sigma N/2.\] 由于 \(f\) 求和为零，我们有 \(\sum_n\mathbb{E}_{x\in P_0}f(n+x)=0\)，因而 \[\sum_n\mathbb{E}_{x\in P_0}f(n+x)\,\operatorname{Re}\bigl(1+e(n\xi+\theta)\bigr)\ge\sigma N/2.\] 注意这个和只在 \(n\in(-N,N]\) 时才非零。由抽屉原理（鸽笼原理），于是存在一个 \(n\) 使得 \[\mathbb{E}_{x\in n+P_0}f(x)=\mathbb{E}_{x\in P_0}f(n+x)\ge\sigma/4.\]

收尾三步的逻辑（动机最关键的地方）

取实部、配相位 \(\theta\)：上一式左边是复数，模长 \(\ge\sigma N/2\)。乘上一个合适的单位复数 \(e(\theta)\) 把它转到正实轴方向，再取实部，就得到一个实数不等式，右边仍 \(\ge\sigma N/2\)。
加上一个等于零的量：因为 \(\sum_n f=0\)（题设），所以 \(\sum_n\mathbb{E}_{x\in P_0}f(n+x)\cdot 1=0\)。把这个零加进去，就能把 \(\operatorname{Re}\,e(n\xi+\theta)\) 凑成 \(\operatorname{Re}(1+e(n\xi+\theta))\)。妙处在于 \(\operatorname{Re}(1+e(\cdot))=1+\cos(\cdot)\ge 0\) 恒非负，而且 \(\le 2\)。这样系数全是 \([0,2]\) 的非负数，鸽笼原理才能用。
鸽笼原理：和式 \(\ge\sigma N/2\)，非零项只有 \(n\in(-N,N]\) 共约 \(2N\) 个，每项的非负权重 \(\le 2\)。所以必有某个 \(n\) 让 \(\mathbb{E}_{x\in P_0}f(n+x)\) 大到 \(\ge\dfrac{\sigma N/2}{2\cdot 2N}=\dfrac{\sigma}{8}\) 量级，整理（取常数）即 \(\ge\sigma/4\)。这个 \(n\) 给出的子数列 \(P'=n+P_0\)（公差 \(r\)、长度 \(\sigma N^{1/2}/100\)）正是所求：\(f\) 在它上面的平均值 \(\ge\sigma/4\)。♦

引理 10.25 的几何直觉：整体看相位飞转，无法直接读出密度；但限制到公差 \(r\)（满足 \(r\xi\approx\) 整数）的子数列 \(P_0\) 上，相位几乎冻结，复数相关性就坍缩成实实在在的密度增量 \(\sigma/4\)。

两个零件如何合成 Roth 定理（呼应开头的循环）

设 \(A\subset[1,N]\) 密度 \(\delta\)、无三项等差数列。命题 10.24 给出 \(\xi\)，使平衡函数 \(f=1_A-\delta1_{[1,N]}\) 满足 \(\bigl|\mathbb{E}\,f(n)e(n\xi)\bigr|=\Omega(\delta^2)\)，即可取 \(\sigma=\Omega(\delta^2)\)。
引理 10.25 把它变成一个子数列 \(P'\)，长度 \(|P'|=\Omega(\sigma^2 N^{1/2})=\Omega(\delta^4 N^{1/2})\)，且 \(\mathbb{E}_{n\in P'}f(n)\ge\sigma/4\)，也就是 \(A\) 在 \(P'\) 上的密度至少为 \(\delta+\Omega(\delta^2)\)。
密度每轮至少涨 \(\Omega(\delta^2)\)；从 \(\delta\) 涨到接近 \(1\)，至多 \(O(1/\delta)\) 轮就饱和。只要初始 \(N\) 足够大（保证每轮 \(P'\) 仍满足 \(|P'|\ge100/\delta^2\)），循环就能持续到密度突破 \(1\)——这不可能。矛盾表明：原始的 \(A\) 必含三项等差数列。

本节到此完成了整数情形下 Roth 定理所需的两个核心零件。需要再次提醒：本节的论证是定性勾勒，且即将被定理 10.30（Roth–Bourgain 定理）以更优的定量界所取代，因此这里没有把常数与轮数的精确界写全。

即时自测

为什么证明里一定要把区间 \([1,N]\) 嵌进素数阶群 \(\mathbb{Z}_p\)（\(2N
命题 10.24 中条件 \(|P|\ge 100/\delta^2\) 用在了哪一步？去掉它会让哪条不等式失效？
在引理 10.25 里，子数列 \(P'\) 的公差是 \(r\) 而不是 \(1\)。请说明为什么必须用公差 \(r\)，并解释 \(r\le N^{1/2}\) 这个上界为何重要（它如何决定了 \(|P'|\approx\sigma N^{1/2}/100\) 的大小）。

返回全书目录