10.3 整数情形The integer case
本页为译文 + 高中讲解合一:黑色正文为忠实翻译;彩色框(目标 / 例 / 分步推演 / 自测)与配图为面向高中生(与初学者)的详解,逐步推演、举例、画图,不用比喻。本节较难,讲解会把每一步的动机都点出来。
我们现在勾勒整数情形下 Roth 定理的证明(这正是 Roth 当年论证的原始背景)。这里我们会写得相对简略,因为这个结果稍后将被更强的 Roth–Bourgain 定理(定理 10.30)所取代。
整体策略:两个零件
正如定理 10.12 的证明那样,我们需要两个零件(ingredient):
- 第一个零件:证明 \([1,N]\) 中缺少三项等差数列,会迫使集合产生某种线性偏倚(linear bias,即与某个线性相位 \(e(n\xi)\) 有可观的相关性);
- 第二个零件:把这种线性偏倚转化为在 \([1,N]\) 的某个子等差数列上的密度增量(density increment)。
因为 \([1,N]\) 并不真的是一个群,我们无法直接套用推论 10.10。不过,我们有下面这个替代品。
- 假设 \(A\) 在 \([1,N]\) 中密度为 \(\delta\),且不含三项等差数列。
- 零件一告诉我们:\(A\) 必定"不均匀"——它在某个线性相位上偏离平均值很多(偏离量 \(\Omega(\delta^2)\))。
- 零件二把这种不均匀变成好处:能找到一个更短的等差数列 \(P'\),使 \(A\) 在 \(P'\) 上的密度比 \(\delta\) 明显更大。
- 把 \(P'\) 看成新的"区间",重复上述过程。密度只能涨不能超过 \(1\),所以涨不了几次就被卡住——这与"密度一直能涨"矛盾。矛盾说明:\(A\) 其实必须含有三项等差数列。
零件一:缺少等差数列 ⟹ 不均匀
- \(1_A(n)\):指示函数,\(n\in A\) 时为 \(1\),否则为 \(0\)。
- \(\delta=|A|/|P|\):\(A\) 的密度;\(1_A(n)-\delta\) 是"实际有没有"减去"平均应该有",叫做平衡函数,它在 \(P\) 上的平均值恰为 \(0\)。
- \(e(\theta):=e^{2\pi i\theta}\):单位圆上的复数(线性相位)。\(e(n\xi)\) 随 \(n\) 在圆上匀速旋转。
- \(\mathbb{E}_{n\in P}\):对 \(n\) 遍取 \(P\) 求平均。
- \(\Omega(\delta^2)\):表示"至少是 \(\delta^2\) 乘以某个绝对正常数"。
由 Bertrand 公设(习题 1.10.3),我们可以找到一个素数 \(p\) 落在 \(2N\) 与 \(4N\) 之间。我们按通常的方式把 \(A\) 视为 \(\mathbb{Z}_p\) 的一个子集(并给 \(\mathbb{Z}_p\) 配上标准双线性型)。由 (10.2) 以及关于 \(A\) 的假设可知 \[\Lambda_3(1_A,1_A,1_A)=\frac{1}{p^2}\,|A|\;\le\;\frac{\delta}{4N}.\]
\(\Lambda_3(1_A,1_A,1_A)\) 是计数三项等差数列的(归一化)三线性型:它正比于 \(A\) 中满足 \(x+z=2y\) 的三元组 \((x,y,z)\) 的个数,归一化因子为 \(1/p^2\)。这样的三元组分两类:
- 平凡的:\(x=y=z\)(公差 \(d=0\))。它有 \(|A|\) 个,因为只要从 \(A\) 里挑一个点即可。
- 非平凡的:\(d\neq 0\) 的真三项等差数列。但题设 \(A\) 不含这种,所以个数为 \(0\)。
于是三元组总数 \(=|A|\),故 \(\Lambda_3=|A|/p^2\)。又因为 \(|A|=\delta N\) 且 \(p\ge 2N\): \[\frac{|A|}{p^2}=\frac{\delta N}{p^2}\le\frac{\delta N}{(2N)^2}=\frac{\delta}{4N}.\] 这就是上式。♦
现在我们把 \(1_A\) 做如下分解: \[1_A=f_U+f_{U^\perp},\qquad f_{U^\perp}:=\delta\,1_{[1,N]},\quad f_U:=1_A-f_{U^\perp}.\] 一个简单的计算表明 \[\Lambda_3(f_{U^\perp},f_{U^\perp},f_{U^\perp})\;\ge\;\frac{\delta^3}{100}\] (比如说)。由关于 \(N\) 的假设(\(N\ge 100/\delta^2\)),我们得到 \[\bigl|\Lambda_3(f_U+f_{U^\perp},\,f_U+f_{U^\perp},\,f_U+f_{U^\perp})-\Lambda_3(f_{U^\perp},f_{U^\perp},f_{U^\perp})\bigr|=\Omega(\delta^3).\]
- \(f_{U^\perp}=\delta 1_{[1,N]}\) 是结构部分:把 \(A\) 抹平成密度处处为 \(\delta\) 的"理想均匀集"。它含有大量三项等差数列,所以 \(\Lambda_3(f_{U^\perp},f_{U^\perp},f_{U^\perp})\approx\delta^3\cdot(\text{常数})\ge \delta^3/100\)。这是"应该有的"等差数列数量。
- \(f_U=1_A-\delta 1_{[1,N]}\) 是涨落部分(即上面的平衡函数),在 \([1,N]\) 上平均为 \(0\)。
- 第一式 \(\Lambda_3(1_A,1_A,1_A)\le\delta/(4N)\) 说明实际的等差数列数量几乎为 \(0\)(因为没有非平凡的)。
- 把 \(1_A=f_U+f_{U^\perp}\) 代回:实际数量 \(\approx 0\),理想数量 \(\ge\delta^3/100\),两者相差至少 \(\Omega(\delta^3)\)。这个差额必须由含 \(f_U\) 的项来"抵消"——也就是说,涨落 \(f_U\) 必须很大。
左边可以拆成七项之和(把每个 \(f_U+f_{U^\perp}\) 展开,共 \(2^3=8\) 项,减去那一项纯 \(f_{U^\perp}\) 后剩 7 项),所以其中至少有一项是 \(\Omega(\delta^3)\)。为便于讨论,我们不妨假设 \[\bigl|\Lambda_3(f_U,f_U,f_U)\bigr|=\Omega(\delta^3);\] 其余六种情形是类似的(要点在于:这七项每一项都至少含有一个 \(f_U\))。利用 (10.6) 和三角不等式,我们得出 \[\sum_{\xi\in\mathbb{Z}_p}|\hat f_U(\xi)|^2\,|\hat f_U(-2\xi)|=\Omega(\delta^3).\]
\(\hat f_U(\xi)\) 是 \(f_U\) 的Fourier 系数,衡量 \(f_U\) 与相位 \(e(n\xi)\) 的相关程度。公式 (10.6) 把三项等差数列的计数写成 Fourier 端的求和,典型形状为 \[\Lambda_3(f,f,f)=\sum_{\xi}\hat f(\xi)\,\hat f(\xi)\,\hat f(-2\xi).\] 对绝对值用三角不等式,就得到上面那个含 \(|\hat f_U(\xi)|^2|\hat f_U(-2\xi)|\) 的和。这一步把"等差数列很多"翻译成了"某些 Fourier 系数很大"。
另一方面,由 Plancherel 定理我们有 \[\sum_{\xi\in\mathbb{Z}_p}|\hat f_U(\xi)|^2=\|f_U\|_{L^2(\mathbb{Z})}^2=O\!\left(\|1_A\|_{L^2(\mathbb{Z}_p)}^2+\|\delta 1_{[1,N]}\|_{L^2(\mathbb{Z}_p)}^2\right)=O(\delta).\] 我们由此得出:存在 \(\xi\in\mathbb{Z}_p\) 使得 \[|\hat f_U(-2\xi)|=\Omega(\delta^2),\] 从而 \[\bigl|\,\mathbb{E}_{n\in[1,N]}(1_A(n)-\delta)\,e(2n\xi/p)\,\bigr|=\Omega(\delta^2).\] 命题得证。♦
- Plancherel 给出总能量 \(\sum_\xi|\hat f_U(\xi)|^2=O(\delta)\)。直观:\(1_A\) 的 \(L^2\) 范数平方就是密度 \(\delta\),而 \(\delta 1_{[1,N]}\) 的 \(L^2\) 范数平方约为 \(\delta^2\le\delta\),相加仍是 \(O(\delta)\)。
- 把 \(\sum_\xi|\hat f_U(\xi)|^2|\hat f_U(-2\xi)|\) 中的因子 \(|\hat f_U(-2\xi)|\) 用它的最大值 \(M:=\max_\xi|\hat f_U(-2\xi)|\) 来上界: \[\Omega(\delta^3)=\sum_\xi|\hat f_U(\xi)|^2|\hat f_U(-2\xi)|\;\le\;M\cdot\sum_\xi|\hat f_U(\xi)|^2=M\cdot O(\delta).\]
- 因此 \(M\ge \Omega(\delta^3)/O(\delta)=\Omega(\delta^2)\)。取到最大值的那个 \(\xi\) 就是所求。把 \(\hat f_U(-2\xi)\) 写回平均的形式,即得末式(这里相位是 \(e(2n\xi/p)\),对应 \(\mathbb{R}/\mathbb{Z}\) 上的 \(\xi'=2\xi/p\))。
零件二:不均匀 ⟹ 密度增量
类似地,我们有下面这个引理 10.15 的对应版本。
关键技巧:相位 \(e(n\xi)\) 在整个 \([1,N]\) 上转个不停,但如果我们只看公差为 \(r\) 的一小段(\(r\xi\) 接近整数),相位在这一段上几乎不变。在这一小段上,"与旋转相位相关"就退化成了"普通平均值大"。
- Kronecker 逼近定理:对任意 \(\xi\),总能找到不太大的整数 \(r\)(这里 \(r\le N^{1/2}\)),使 \(r\xi\) 离最近的整数很近(这里距离 \(\le N^{-1/2}\))。记号 \(\|t\|_{\mathbb{R}/\mathbb{Z}}\) 表示 \(t\) 到最近整数的距离。这保证:沿公差 \(r\) 走一步,相位 \(e(x\xi)\) 几乎不动。
- 第一个等式:对固定的 \(x\),作变量替换 \(m=n+x\), \[\sum_n f(n+x)e(n\xi)e(x\xi)=\sum_m f(m)e((m-x)\xi)e(x\xi)=\sum_m f(m)e(m\xi),\] 与 \(x\) 无关!所以对 \(x\) 求平均还是它本身。再由题设 \(\bigl|\mathbb{E}_{n\in[1,N]}f(n)e(n\xi)\bigr|\ge\sigma\),即 \(\bigl|\sum_n f(n)e(n\xi)\bigr|\ge\sigma N\)(必要时调相位使其取正实部)。
另一方面,对 \(x\in P_0\),由 (4.24) 可见 \(|e(x\xi)-1|\le\sigma/10\),于是 \[\Bigl|\mathbb{E}_{x\in P_0}\sum_n f(n+x)e(n\xi)\bigl(e(x\xi)-1\bigr)\Bigr|\le\sum_{n\in[-N,N]}\sigma/10\le\sigma N/2\] (比如说),故由三角不等式, \[\Bigl|\mathbb{E}_{x\in P_0}\sum_n f(n+x)e(n\xi)\Bigr|\ge\sigma N/2.\]
对 \(x\in P_0=\{r,2r,\dots\}\),\(x\) 是 \(r\) 的不超过 \(\sigma N^{1/2}/100\) 倍。又 \(\|r\xi\|\le N^{-1/2}\),故 \(\|x\xi\|\le (\sigma N^{1/2}/100)\cdot N^{-1/2}=\sigma/100\) 很小,于是 \(e(x\xi)\) 离 \(1\) 很近,\(|e(x\xi)-1|\le\sigma/10\)。
把因子 \(e(x\xi)\) 换成 \(1+(e(x\xi)-1)\):前一段(第一个等式)告诉我们带 \(e(x\xi)\) 的和大(\(\ge\sigma N\));本段告诉我们带 \((e(x\xi)-1)\) 的"误差和"小(\(\le\sigma N/2\))。相减(三角不等式),就得到只带 \(e(n\xi)\)、不带 \(e(x\xi)\) 的和仍然大(\(\ge\sigma N/2\))。这一步成功地把"内层的 \(x\)-相位"剥掉了。
特别地,存在一个相位 \(\theta\in\mathbb{R}/\mathbb{Z}\) 使得 \[\operatorname{Re}\Bigl[\,\mathbb{E}_{x\in P_0}\sum_n f(n+x)e(n\xi+\theta)\Bigr]\ge\sigma N/2.\] 由于 \(f\) 求和为零,我们有 \(\sum_n\mathbb{E}_{x\in P_0}f(n+x)=0\),因而 \[\sum_n\mathbb{E}_{x\in P_0}f(n+x)\,\operatorname{Re}\bigl(1+e(n\xi+\theta)\bigr)\ge\sigma N/2.\] 注意这个和只在 \(n\in(-N,N]\) 时才非零。由抽屉原理(鸽笼原理),于是存在一个 \(n\) 使得 \[\mathbb{E}_{x\in n+P_0}f(x)=\mathbb{E}_{x\in P_0}f(n+x)\ge\sigma/4.\]
- 取实部、配相位 \(\theta\):上一式左边是复数,模长 \(\ge\sigma N/2\)。乘上一个合适的单位复数 \(e(\theta)\) 把它转到正实轴方向,再取实部,就得到一个实数不等式,右边仍 \(\ge\sigma N/2\)。
- 加上一个等于零的量:因为 \(\sum_n f=0\)(题设),所以 \(\sum_n\mathbb{E}_{x\in P_0}f(n+x)\cdot 1=0\)。把这个零加进去,就能把 \(\operatorname{Re}\,e(n\xi+\theta)\) 凑成 \(\operatorname{Re}(1+e(n\xi+\theta))\)。妙处在于 \(\operatorname{Re}(1+e(\cdot))=1+\cos(\cdot)\ge 0\) 恒非负,而且 \(\le 2\)。这样系数全是 \([0,2]\) 的非负数,鸽笼原理才能用。
- 鸽笼原理:和式 \(\ge\sigma N/2\),非零项只有 \(n\in(-N,N]\) 共约 \(2N\) 个,每项的非负权重 \(\le 2\)。所以必有某个 \(n\) 让 \(\mathbb{E}_{x\in P_0}f(n+x)\) 大到 \(\ge\dfrac{\sigma N/2}{2\cdot 2N}=\dfrac{\sigma}{8}\) 量级,整理(取常数)即 \(\ge\sigma/4\)。这个 \(n\) 给出的子数列 \(P'=n+P_0\)(公差 \(r\)、长度 \(\sigma N^{1/2}/100\))正是所求:\(f\) 在它上面的平均值 \(\ge\sigma/4\)。♦
- 设 \(A\subset[1,N]\) 密度 \(\delta\)、无三项等差数列。命题 10.24 给出 \(\xi\),使平衡函数 \(f=1_A-\delta1_{[1,N]}\) 满足 \(\bigl|\mathbb{E}\,f(n)e(n\xi)\bigr|=\Omega(\delta^2)\),即可取 \(\sigma=\Omega(\delta^2)\)。
- 引理 10.25 把它变成一个子数列 \(P'\),长度 \(|P'|=\Omega(\sigma^2 N^{1/2})=\Omega(\delta^4 N^{1/2})\),且 \(\mathbb{E}_{n\in P'}f(n)\ge\sigma/4\),也就是 \(A\) 在 \(P'\) 上的密度至少为 \(\delta+\Omega(\delta^2)\)。
- 密度每轮至少涨 \(\Omega(\delta^2)\);从 \(\delta\) 涨到接近 \(1\),至多 \(O(1/\delta)\) 轮就饱和。只要初始 \(N\) 足够大(保证每轮 \(P'\) 仍满足 \(|P'|\ge100/\delta^2\)),循环就能持续到密度突破 \(1\)——这不可能。矛盾表明:原始的 \(A\) 必含三项等差数列。
本节到此完成了整数情形下 Roth 定理所需的两个核心零件。需要再次提醒:本节的论证是定性勾勒,且即将被定理 10.30(Roth–Bourgain 定理)以更优的定量界所取代,因此这里没有把常数与轮数的精确界写全。
- 为什么证明里一定要把区间 \([1,N]\) 嵌进素数阶群 \(\mathbb{Z}_p\)(\(2N
- 命题 10.24 中条件 \(|P|\ge 100/\delta^2\) 用在了哪一步?去掉它会让哪条不等式失效?
- 在引理 10.25 里,子数列 \(P'\) 的公差是 \(r\) 而不是 \(1\)。请说明为什么必须用公差 \(r\),并解释 \(r\le N^{1/2}\) 这个上界为何重要(它如何决定了 \(|P'|\approx\sigma N^{1/2}/100\) 的大小)。
返回 全书目录