10.1 总体策略General strategy
本页为译文 + 讲解合一:黑色正文为忠实翻译;彩色框(目标 / 例 / 分步推演 / 自测)与配图为面向高中生的详解,尽量把每一步的直觉与动机讲清楚,不用比喻。
在本节中,我们就长度为 3 的等差数列做一些一般性的观察,并以高层次的语言描述若干可用于证明 Roth 型定理的策略。
设我们工作在一个固定的、奇数阶的有限加性群 \(Z\) 中,并设 \(A\) 是 \(Z\) 的一个子集。我们把 \(A\) 设想为相当稠密的,即其密度 \(0\le \mathbb{P}_Z(A)\le 1\) 适度地大。于是 Roth 定理就是说:若 \(|Z|\) 充分大,则 \(A\) 必含有长度为 3 的等差数列。
- \(\mathbb{P}_Z(A)=|A|/|Z|\) 是 \(A\) 在 \(Z\) 中所占的比例(密度)。例如 \(|Z|=100\)、\(|A|=30\) 时密度是 \(0.3\)。
- \(1_A\) 是 \(A\) 的示性函数:\(x\in A\) 时 \(1_A(x)=1\),否则 \(1_A(x)=0\)。
- \(\mathbb{E}_{x\in Z}\) 表示对 \(x\) 取平均,即 \(\frac{1}{|Z|}\sum_{x\in Z}\);\(\mathbb{P}\) 表示在均匀随机选取下的概率。
- “奇数阶”这个条件很关键:它保证映射 \(x\mapsto 2x\) 是 \(Z\) 上的一一对应(下文要用)。
三线性形式 \(\Lambda_3\):把“等差数列个数”变成一个平均值
为解释为何 Roth 定理应当成立,引入如下三线性形式是方便的:对任意 \(f,g,h:Z\to\mathbb{C}\),定义 \[\tag{10.1}\Lambda_3(f,g,h):=\mathbb{E}_{x,r\in Z}\,f(x)\,g(x+r)\,h(x+2r).\] 特别地注意到 \[\tag{10.2}\Lambda_3(1_A,1_A,1_A)=\mathbb{P}_{x,r\in Z}\big(x,\,x+r,\,x+2r\in A\big),\] 因此量 \(\Lambda_3(1_A,1_A,1_A)\) 度量的正是 \(Z\) 中那些完全落在 \(A\) 内的等差数列 \((x,x+r,x+2r)\) 所占的比例。
- 对所有 \((x,r)\) 求和,得到的是“三点全在 \(A\) 里的 \((x,r)\) 对”的个数。
- 除以总对数 \(|Z|^2\)(因为 \(x,r\) 各有 \(|Z|\) 种取法),就把个数变成了比例,这正是 (10.2) 的右边。
- 这里允许 \(r=0\):那是“退化”的等差数列 \((x,x,x)\)。后面会专门把它扣掉。
启发式:若 \(A\) “像随机的”,则 \(\Lambda_3\approx \mathbb{P}_Z(A)^3\)
直觉上,如果 \(A\) 是“随机”分布的,那么三个事件 \(x\in A\)、\(x+r\in A\)、\(x+2r\in A\) 应当是“独立的”,于是我们期望 \[\tag{10.3}\begin{aligned}\Lambda_3(1_A,1_A,1_A)&\approx \mathbb{P}_{x,r\in Z}(x\in A)\,\mathbb{P}_{x,r\in Z}(x+r\in A)\,\mathbb{P}_{x,r\in Z}(x+2r\in A)\\&=\mathbb{P}_Z(A)^3.\end{aligned}\] 因此若 \(A\) 在 \(Z\) 中相当稠密,我们期望 \(\Lambda_3(1_A,1_A,1_A)\) 是大的。
- 若三件事真的互不影响,则“三件事同时发生”的概率 = 三个概率相乘 = \(\mathbb{P}_Z(A)\cdot\mathbb{P}_Z(A)\cdot\mathbb{P}_Z(A)\)。
- 举例:密度 \(0.3\) 时,期望比例约为 \(0.3^3=0.027\),乘以总对数 \(|Z|^2\) 就是大量的等差数列——只要 \(|Z|\) 大,这个数远大于 0。
- “独立”只是启发式,对某些特殊的 \(A\) 会失效(见下文与习题),所以才需要严格化。
另一方面,若 \(|Z|\) 为奇数且 \(A\) 不含任何真(即 \(r\neq0\) 的)长度-3 等差数列,那么唯一能落在 \(A\) 内的数列 \((x,x+r,x+2r)\) 只能是 \(x\in A\) 且 \(r=0\) 的那些,于是 \[\tag{10.4}\Lambda_3(1_A,1_A,1_A)=\mathbb{P}_Z(A)/|Z|.\] 若 \(|Z|\) 充分大,这似乎与启发式 (10.3) 相冲突。
- \(r=0\) 时三点重合成 \((x,x,x)\),要求 \(x\in A\),共有 \(|A|\) 个 \(x\)。
- 这种 \((x,r)\) 对有 \(|A|\) 个,占全部 \(|Z|^2\) 对的比例为 \(|A|/|Z|^2=\mathbb{P}_Z(A)/|Z|\)。
- 对比 (10.3) 的 \(\mathbb{P}_Z(A)^3\):当 \(|Z|\) 很大时 \(\mathbb{P}_Z(A)/|Z|\) 趋于 \(0\),而 \(\mathbb{P}_Z(A)^3\) 是个固定的正数。两者矛盾——这说明“没有真等差数列”不可能发生,从而 \(A\) 必含真等差数列。
因此,要证明 Roth 定理,只需建立 (10.3) 的某种严格类比。特别地,Roth 定理可由下述结果推出。
注意,Varnavides 定理实际上比 Roth 定理更强一些:它蕴含密度为 \(\delta\) 的任一子集 \(A\) 含有 \(\Omega_\delta(|Z|^2)\) 个真长度-3 等差数列(当 \(Z\) 依赖 \(\delta\) 充分大时)。这与 Roth 定理形成对照——后者只保证存在一个真长度-3 等差数列。尽管如此,一个简单的平均论证表明这两个定理是等价的:见习题。
没有等差数列 ⇒ 不均匀:线性偏差登场
目前仍不清楚如何把启发式 (10.3) 转化为像定理 10.9 那样的严格陈述。事实上,(10.3) 对某些特殊的 \(A\) 会失效:当 \(A\) 是 \(Z\) 的子群时,\(\Lambda_3(1_A,1_A,1_A)\) 可高达 \(\mathbb{P}_Z(A)^2\);而当 \(A\) 取自 Behrend 例子时,它可低至 \(\mathbb{P}_Z(A)^{\,O(\log\frac{1}{\mathbb{P}_Z(A)})}\)(见习题)。然而,结果表明:只要 \(A\) 的线性偏差很小,\(\Lambda_3(1_A,1_A,1_A)\) 就会非常接近 (10.3) 所预言的 \(\mathbb{P}_Z(A)^3\)。回忆定义 4.12:加性集 \(A\) 的线性偏差(或 Fourier 偏差)\(\|A\|_u\) 定义为 \[\|A\|_u:=\sup_{\xi\in Z\setminus 0}|\widehat{1_A}(\xi)|=\sup_{\xi\in Z\setminus 0}\Big|\mathbb{E}_{x\in Z}\,1_A(x)\,e(-\xi\cdot x)\Big|.\]
- \(\xi=0\) 那一项恰是密度本身,所以上确界排除 \(\xi=0\),只看非零频率。
- \(\|A\|_u\) 小:\(A\) 与每一个非零频率的波都几乎不相关,说明 \(A\) “看起来像随机噪声”——此时 (10.3) 成立。
- \(\|A\|_u\) 大:\(A\) 与某个波强相关,说明 \(A\) 有“隐藏的结构/周期性”——这正是出问题的情形。
- 换元的动机:令 \(a_1=x\)、\(a_3=x+2r\),则 \(x+r=\tfrac{a_1+a_3}{2}\)。等差条件 \(x,x+r,x+2r\in A\) 就变成“\(a_1\in A\)、\(a_3\in A\),且中点 \(\tfrac{a_1+a_3}{2}\in A\)”。\(|Z|\) 奇数保证“除以 2”有意义(\(x\mapsto 2x\) 可逆)。
- 恒等式 \(a-2(a+r)+(a+2r)=0\) 正是说:第一项、第二项的 \(-2\) 倍、第三项三者相加为 0。于是把中点项替换成在 \(-2\cdot A\) 中取值的 \(a_2\),三点共线条件等价于 \(a_1+a_2+a_3=0\)。
- 这样 \(\Lambda_3\) 就被改写成“在 \(A,\,-2\cdot A,\,A\) 三个集合中各取一元、和为 0 的三元组个数”除以 \(|Z|^2\)。这是一种标准的加性能量/相关形式,引理 4.13 给出它与 \(\mathbb{P}_Z(A)^3\) 之差被 \(\|A\|_u\,\mathbb{P}_Z(A)\) 控制。
- 得到第二式:若无真等差数列,由 (10.4),\(\Lambda_3=\mathbb{P}_Z(A)/|Z|\)。代入第一式:\(|\mathbb{P}_Z(A)/|Z|-\mathbb{P}_Z(A)^3|\le\|A\|_u\mathbb{P}_Z(A)\),两边除以 \(\mathbb{P}_Z(A)\) 并整理即得 \(\|A\|_u\ge \mathbb{P}_Z(A)^2-\tfrac{1}{|Z|}\)。
这说明:启发式 (10.3) 唯一可能失效的方式,就是函数 \(1_A\) 与某个线性特征 \(e(\xi\cdot x)\) 有大的相关。这个非常重要的观察可看作关于 \(\Lambda_3\) 的一条逆定理;下一章我们会回到这个视角。上述命题对一般函数也有类比。定义函数 \(f:Z\to\mathbb{C}\) 的线性偏差 \(\|f\|_{u^2(Z)}\) 为 \[\tag{10.5}\|f\|_{u^2(Z)}:=\sup_{\xi\in Z}|\widehat{f}(\xi)|.\] 记号 \(u^2(Z)\) 的来由将在下一章说得更清楚。例如注意到,对任意 \(A\subseteq Z\) 有 \(\|A\|_u=\|1_A-\mathbb{P}_Z(A)\|_{u^2(Z)}\)。
- 把每个函数按频率展开(反演公式),\(\Lambda_3\) 就成了对所有频率三元组 \((\xi_1,\xi_2,\xi_3)\) 的求和。
- 纯频率 \(e_{\xi}\) 的 \(\Lambda_3\) 几乎全为 0,只有当 \(\xi_2=-2\xi_1\) 且 \(\xi_3=\xi_1\) 时才贡献 1(这就是 \(\mathbb{I}(\cdots)\))。原因仍是等差结构 \(\xi_1-2\xi_2\cdots\) 的“频率守恒”。
- 于是三重和塌缩成单重和 (10.6):只剩参数 \(\xi\),对应 \(\widehat{f}(\xi)\widehat{g}(-2\xi)\widehat{h}(\xi)\)。
- 得到不等式:把 \(\widehat{f}(\xi)\) 用它的最大值 \(\|f\|_{u^2}\) 提到求和外面,剩下 \(\sum_\xi|\widehat{g}(-2\xi)||\widehat{h}(\xi)|\) 用 Cauchy–Schwarz/Hölder 配上 Parseval,就变成 \(\|g\|_{L^2}\|h\|_{L^2}\)。结论:只要 \(f\) 的线性偏差 \(\|f\|_{u^2}\) 小,\(\Lambda_3\) 就小——这是把“均匀⇒可控”严格化的工具。
两条主干路线:密度增量法 vs 能量增量法
为利用诸如命题 10.10 或命题 10.11 这样的逆向结果,有两种论证可供使用:Roth 的密度增量论证,以及 Furstenberg 与 Szemerédi 各自(在非常不同的背景下)发展出的能量增量论证。
密度增量论证非正式地如下进行。为证 Roth 定理,反设可以在一个大群 \(Z\)(或区间 \([1,N]\))中找到一个稠密集 \(A\),它不含长度为 3 的等差数列。命题 10.10 于是蕴含 \(A\) 有大的线性偏差,从而 \(1_A\) 与某个线性相位函数 \(e(\xi\cdot x)\) 相关。结果表明,这种线性偏差可以转化为一个密度增量:更确切地说,原空间 \(Z\) 中存在某个结构化子集 \(Z'\)(如一个子群、一个子等差数列,或一个 Bohr 集),\(A\) 在其上的密度更大,即 \(\mathbb{P}_{Z'}(A)>\mathbb{P}_Z(A)\)。(回忆 \(\mathbb{P}_{Z'}(A)=|A\cap Z'|/|Z'|\) 而 \(\mathbb{P}_Z(A)=|A|/|Z|\)。)然后转到这个结构化子集上,重复该论证。若原空间 \(Z\) 足够大,我们就能把这个论证运行如此多步,以致 \(A\) 的相对密度最终超过 1——矛盾。
- 起点:稠密的 \(A\),密度 \(\delta_0=\mathbb{P}_Z(A)\),假设它没有等差数列。
- 由命题 10.10,没有等差数列 ⇒ 线性偏差大 ⇒ 在某结构化子集 \(Z'\) 上密度跳到 \(\delta_1>\delta_0\)(增量有定量下界,例如 \(\delta_1\ge \delta_0+c\delta_0^2\))。
- 在 \(Z'\) 上重复:\(\delta_2>\delta_1>\delta_0\cdots\) 每一步密度严格上升。
- 密度永远 \(\le 1\),但它在不断上升且每步增量不太小,所以不可能无限重复。步数耗尽时只能是“假设错误”——即 \(A\) 其实含有等差数列。这就是反证。
能量增量论证则不同,它瞄准的是证明 Varnavides 定理而非 Roth 定理(即寻求 \(\Lambda_3(f,f,f)\) 的非平凡下界)。我们不再不断更换环绕空间 \(Z\),而是把 \(Z\) 固定下来,转而构造原函数 \(f\) 的某些低复杂度逼近 \(f_{U^\perp}\)。初始时,我们的逼近就取为密度 \(f_{U^\perp}=\mathbb{P}_Z(A)\)。现在考虑示性函数与逼近之间的误差 \(f_U:=f-f_{U^\perp}\)。若这个误差是非常线性均匀的(即 Fourier 偏差 \(\|f_U\|_{u^2(Z)}\) 很小),则可用命题 10.11 把 \(\Lambda_3(f,f,f)\) 用 \(\Lambda_3(f_{U^\perp},f_{U^\perp},f_{U^\perp})\) 来逼近,并利用 \(f_{U^\perp}\) 的低复杂度来得到后者的非平凡下界。反之,若误差表现出线性偏差,我们就可以利用它来精化逼近 \(f_{U^\perp}\),把这个偏差吸收进来;这会使 \(f_{U^\perp}\) 的能量 \(\|f_{U^\perp}\|_{L^2(Z)}^2\) 显著增加。然后重复该论证,直到误差 \(f_U\) 不再含有偏差为止;一个关键点是:\(f\)(从而 \(f_{U^\perp}\))在整个迭代过程中保持有界,因此 \(f_{U^\perp}\) 的能量不可能无限增长。
习题
- 10.1.1 设 \(Z\) 为奇数阶有限加性群,\(0<\delta<1\),并设 \(A\) 是 \(Z\) 的一个随机子集,使得各事件 \(x\in A\) 相互独立且 \(\mathbb{P}(x\in A)=\delta\)。证明:以概率 \(1-o_{|Z|\to\infty;\delta}(1)\),有 \(\mathbb{P}_Z(A)=\delta+o_{|Z|\to\infty;\delta}(1)\) 且 \(\Lambda_3(1_A,1_A,1_A)=\delta^3+o_{|Z|\to\infty;\delta}(1)\),从而在随机情形下证实 (10.3)。(提示:用推论 1.9。)
- 10.1.2 设 \(Z\) 为奇数阶有限加性群。证明 \(\Lambda_3(1_A,1_A,1_A)\le \mathbb{P}_Z(A)^2\),且等号成立当且仅当 \(A\) 是 \(Z\) 的某个子群的平移。
- 10.1.3 设 \(N,d,r\ge 1\) 为整数,考虑集合 \[A=\big\{(n_1,\dots,n_d)\in[0,N/2)^d:\ n_1^2+\cdots+n_d^2=r\big\},\] 将其视为 \(\mathbb{Z}_N^d\) 的子集。证明该集合不含真长度-3 等差数列,且对适当选取的 \(r\),其基数可大到 \((N/2)^d/(d^2N^2)\)。特别地推出 \(r_3(\mathbb{Z}_N^d)\ge N^d/(2^d d^2 N^2)\)。
- 10.1.4(Behrend 例子)[21] 利用前一习题与一个 Freiman 同构,建立界 \[r_3(\mathbb{Z}_N),\ r_3([1,N])=\Omega\!\big(N\,e^{-O(\sqrt{\log N})}\big)\] 对一切大 \(N\) 成立。特别地,并非对某个固定 \(\varepsilon>0\) 有 \(r_3([1,N]),r_3(\mathbb{Z}_N)=O(N^{1-\varepsilon})\)。这排除了若干证明 Roth 定理或 Szemerédi 定理的初等途径(例如完全基于 Cauchy–Schwarz 与鸽巢原理型的论证),因为它们往往只给出多项式型的界。我们注意到更一般的估计 \[r_k(\mathbb{Z}_N),\ r_k([1,N])=\Omega_k\!\Big(N\exp\!\big(-O_k(\log N)^{1/(1+\log_2(k-1))}\big)\Big)\] 对一切 \(k\ge 3\) 已由类似论证在 [277]、[221] 中建立。
- 10.1.5 对任意 \(0<\delta<1\),给出一个循环群 \(\mathbb{Z}_N\) 中加性集 \(A\) 的例子,使得 \(\mathbb{P}_Z(A)\ge\delta\) 但 \[\Lambda_3(1_A,1_A,1_A)=O\big(\delta^{\,\Omega(\log\frac{1}{\delta})}\big).\] (提示:用 Behrend 例子。)因此,不可能建立任何形如 \(\Lambda_3(1_A,1_A,1_A)=\Omega(\mathbb{P}_Z(A)^C)\) 的下界(对任何绝对常数 \(C>0\))。
- 10.1.6 [253] 设 \(N\) 为大数。证明可将 \(\mathbb{Z}_N\) 染成 \(\exp(O(\sqrt{\log N}))\) 个色类,使得没有任何色类含有真长度-3 等差数列。提示:修改 Behrend 例子。
- 10.1.7 证明:对集合 \(A\) 的 Varnavides 定理蕴含对函数 \(f\) 的 Varnavides 定理。(提示:要么用一个示性函数的常数倍从下方界住 \(f\),要么用 \(f(x)\) 作为 \(x\in A\) 的概率以概率方式构造集合 \(A\),再用一阶矩方法。)
- 10.1.8 证明:Roth 定理的特例 \(r_3([1,N])=o_{N\to\infty}(N)\) 蕴含 \(\mathbb{Z}_N\) 的 Varnavides 定理。(提示:取 \(\mathbb{Z}_N\) 中一个集合 \(A\),将它与一个随机选取的等差数列 \(a+[1,M]\cdot r\)(\(M\) 适度大)相交,对该等差数列 \(a+[1,M]\cdot r\) 应用 Roth 定理,然后用一阶矩方法。)
- 10.1.9 设 \(F\) 为有限域。证明:Roth 定理的特例 \(r_3(F^n)=o_{n\to\infty;F}(N)\) 蕴含 \(F^n\) 的 Varnavides 定理。(提示:取 \(F^n\) 中一个集合 \(A\),将它与一个随机选取的 \(m\) 维仿射子空间相交(\(m\) 适度大),然后如前一习题那样论证。)
- 10.1.10 证明:对任意 \(Z\) 的 Roth 定理蕴含对任意 \(Z\) 的 Varnavides 定理。
- 10.1.11 利用命题 10.11 与分解 \(1_A=(1_A-\mathbb{P}_Z(A))+\mathbb{P}_Z(A)\),给出命题 10.10 的另一种证明。
- 10.1.12 假设定理 10.9 成立。设 \((X,\mathcal{B},d\mu)\) 为任一概率空间(故 \(\mu(X)=1\)),\(T:X\to X\) 为 \(X\) 上任一保测双射,即 \(\mu(T^n(E))=\mu(E)\) 对一切 \(E\in\mathcal{B}\) 与 \(n\in\mathbb{Z}\) 成立。证明:若 \(f:X\to\mathbb{R}^+\) 是任一几乎处处满足 \(0\le f(x)\le 1\) 且 \(\int_X f=\delta>0\) 的函数,则 \[\liminf_{N\to\infty}\ \mathbb{E}_{n\in[-N,N]}\int_X f(x)\,T^n f(x)\,T^{2n}f(x)\,d\mu(x)=\Omega_\delta(1).\]
返回 全书目录