Tao–Vu · 加性组合学 · 第 11 章 k>3 的 Szemerédi 定理

11.3　定理 11.6 的证明Proof of Theorem 11.6

本页为译文 + 高中讲解合一：黑色正文为忠实翻译；彩色框（目标 / 例 / 分步推演 / 注记）与配图为面向初学者的详解，逐步推演、举例、画图，不用比喻。本节技术性极强，讲解会把每一步“为什么这样做”的动机尽量讲透。

本节目标

我们要证明的是 Theorem 11.6：粗略地说，它是关于三阶 Gowers 一致性范数 \(U^3\) 的反演定理（inverse theorem）——

如果一个有界函数 \(f\) 的 \(U^3(Z)\) 范数比较大（\(\ge\eta\)），那么 \(f\) 必定与某个二次相位函数（quadratic phase function，形如 \(e(\text{二次多项式})\)）有不可忽略的相关性。换句话说：“高阶一致性范数大”这件“软”的事，一定来自一个“硬”的结构——一段二次相位。本节就是把这个结论构造性地挖出来。

本节只是整个证明的开头第一阶段（§11.3.1）：从已知的“\(U^3\) 范数大”出发，先找到一个“近似线性的相位导数”。直觉是：若相位 \(\varphi\) 是二次的，则它的一阶差分 \((h\cdot\nabla)\varphi\) 关于 \(x\) 是线性的，其斜率 \(\xi(h)\) 关于 \(h\) 又是线性的。我们要把这两层线性性一点点地“逼”出来。

预备：记号速查

为了读懂下面的推导，先把本节反复出现的记号集中说清楚。它们都来自第 11.1、11.2 节。

记号与约定

\(F=F_p\) 是奇素数阶有限域，\(Z\) 是 \(F\) 上的有限维向量空间，\(Z^{*}\) 是其对偶空间；\(\xi\cdot x\) 表示对偶配对。
\(f:Z\to\mathbb C\) 是模长 \(\le 1\) 的有界函数，\(\eta>0\)，\(e(t):=e^{2\pi i t}\)。
平移算子：\(T_h f(x):=f(x+h)\)。
乘性导数：\(T_h f\cdot\overline f\)，即 \(x\mapsto f(x+h)\overline{f(x)}\)。它衡量 \(f\) 在“平移 \(h\)”后与自身的关系。
\(U^d(Z)\) 是 \(d\) 阶 Gowers 一致性范数；\(u^d(Z)\) 是其“局部 / 对偶”版本。特别地 \(\|g\|_{u^2(Z)}=\sup_{\xi\in Z^{*}}\big|E_{x\in Z}\,g(x)e(-\xi\cdot x)\big|\)，就是 \(g\) 的最大 Fourier 系数的模。
\(P_Z(H):=|H|/|Z|\) 表示子集 \(H\subseteq Z\) 的密度（落在 \(H\) 里的概率）。\(1_H\) 是它的示性函数。
离散方向导数：对函数 \(\xi:Z\to Z^{*}\)，记 \((h_1\cdot\nabla)\xi(h):=\xi(h+h_1)-\xi(h)\)。

本节给出 Theorem 11.6 的证明。固定满足上述性质的 \(F,Z,f,\eta\)。证明分几个阶段进行。

证明的整体路线：本节只走第一格——从“范数大”提炼出每个平移 \(h\) 对应的频率 \(\xi(h)\)，并初步看出它关于 \(h\) 的线性性。

11.3.1　定位一个“略带线性”的相位导数Locating a somewhat linear phase derivative

第一步是对 \(U^2(Z)\) 范数应用反演定理 (11.9)。由 \(U^3(Z)\) 范数的递归定义，我们有 \[E_{h\in Z}\,\|T_h f\cdot\overline f\|_{U^2(Z)}^4\ \ge\ \eta^8,\] 从而由 (11.9) 得到 \[E_{h\in Z}\,\|T_h f\cdot\overline f\|_{u^2(Z)}^2\ \ge\ \eta^8.\]

为什么这一步成立

Gowers 范数的递归定义把高一阶范数写成低一阶范数对平移的平均：

\[\|f\|_{U^3(Z)}^{8}\;=\;E_{h\in Z}\,\|T_h f\cdot\overline f\|_{U^2(Z)}^{4}.\]

因此“\(\|f\|_{U^3}\ge\eta\)”立刻变成“\(E_h\|T_h f\overline f\|_{U^2}^4\ge\eta^8\)”——这正是第一个式子。

接着用 \(U^2\) 与 \(u^2\) 的关系（反演不等式 (11.9)）。回忆 \(U^2\) 范数等于 Fourier 系数四次方之和、\(u^2\) 范数等于最大 Fourier 系数：

\[\|g\|_{U^2}^4=\sum_{\xi}|\widehat g(\xi)|^4,\qquad \|g\|_{u^2}=\sup_{\xi}|\widehat g(\xi)|.\]

于是 \(\sum_\xi|\widehat g|^4\le(\sup_\xi|\widehat g|^2)\sum_\xi|\widehat g|^2=\|g\|_{u^2}^2\,\|g\|_{L^2}^2\le\|g\|_{u^2}^2\)（因为 \(\|g\|_{L^2}\le1\)）。也就是 \(\|g\|_{U^2}^4\le\|g\|_{u^2}^2\)。把它代到平均里，第一个式子的左边 \(\le\) 第二个式子的左边，于是第二个式子成立。

若令 \(H\subset Z\) 为集合 \[H=\{h\in Z:\ \|T_h f\cdot\overline f\|_{u^2(Z)}^2\ \ge\ \eta^8/2\},\] 则有 \[E_{h\in Z}\,\|T_h f\cdot\overline f\|_{u^2(Z)}^2\ \le\ \eta^8/2+P_Z(H),\] 从而 \[\begin{equation}\tag{11.17}P_Z(H)\ \ge\ \eta^8/2.\end{equation}\]

这是“鸽笼 / 一阶矩”论证

我们手上有一个量 \(q(h):=\|T_h f\overline f\|_{u^2}^2\)，它落在 \([0,1]\) 中，平均值 \(\ge\eta^8\)。把所有 \(h\) 分成两堆：

“大”的：\(q(h)\ge\eta^8/2\)，这些 \(h\) 组成 \(H\)；它们每个最多贡献 \(1\)。
“小”的：\(q(h)<\eta^8/2\)，它们整体平均贡献 \(<\eta^8/2\)。

于是总平均 \(\le\underbrace{\eta^8/2}_{\text{小的部分}}+\underbrace{P_Z(H)\cdot 1}_{\text{大的部分上界}}\)。既然总平均 \(\ge\eta^8\)，移项就得到 \(P_Z(H)\ge\eta^8-\eta^8/2=\eta^8/2\)。这说明有相当一批平移 \(h\)（密度至少 \(\eta^8/2\)）的乘性导数确实带有一个显著的线性频率。

由 \(H\) 的定义，我们因此可以找到一个函数 \(\xi:H\to Z^{*}\)，使得对所有 \(h\in H\)， \[\begin{equation}\tag{11.18}\big|E_{x\in Z}\,T_h f(x)\,\overline{f(x)}\,e(-\xi(h)\cdot x)\big|^2\ \ge\ \eta^8/2.\end{equation}\]

(11.18) 在说什么

\(\|g\|_{u^2}^2\ge\eta^8/2\) 的意思就是“\(g\) 有一个模长 \(\ge\sqrt{\eta^8/2}\) 的 Fourier 系数”。把这个最大的频率取出来，命名为 \(\xi(h)\)。代入 \(g=T_hf\cdot\overline f\)，便得到 (11.18)：在频率 \(\xi(h)\) 处，\(T_hf(x)\overline{f(x)}\) 与平面波 \(e(\xi(h)\cdot x)\) 强烈对齐。

所以 \(\xi\) 是一张“频率分配表”：给每个属于 \(H\) 的平移 \(h\)，指定一个与之最匹配的线性频率 \(\xi(h)\in Z^{*}\)。

函数 \(\xi\) 是一张频率分配表。下面的整个目标，就是证明这张表“几乎是线性的”：\(\xi(h+h_1)\) 与 \(\xi(h)+\xi(h_1)\) 应当接近。

非正式地说，如果用 \(\varphi(x)\) 记 \(f(x)\) 的相位，那么这个估计断言：\(\varphi(x+h)-\varphi(x)-\xi(h)\cdot x\) 在某种意义上关于 \(x\) 近似为常数，因而 \(\varphi(x+h)-\varphi(x)\) 关于 \(x\) 近似是线性的。于是挑战就在于把这一事实“积分”起来，得出 \(\varphi\) 在某种意义上近似为二次。要做到这点，第一项任务是获得 \(\xi(h)\) 的某种线性性（这反映了我们期望量 \((h\cdot\nabla)\varphi\) 在某种意义上关于 \(h\) 是线性的）。

直觉：为什么“二次相位”会冒出来

把 \(f(x)=e(\varphi(x))\) 想成一个相位波。如果 \(\varphi\) 是二次多项式，例如 \(\varphi(x)=Mx\cdot x+b\cdot x+c\)，那么它的一阶差分

\[\varphi(x+h)-\varphi(x)=\underbrace{2Mh\cdot x}_{\text{关于 }x\text{ 线性}}+\underbrace{(Mh\cdot h+b\cdot h)}_{\text{与 }x\text{ 无关}},\]

关于 \(x\) 恰好是线性的，其斜率为 \(\xi(h)=2Mh\)。注意这个斜率 \(\xi(h)=2Mh\) 关于 \(h\) 又是线性的！

所以策略是反着走：我们只知道“范数大”，于是 (11.18) 给出“一阶差分近似线性、斜率为 \(\xi(h)\)”。如果能再证明这个 \(\xi(h)\) 关于 \(h\) 近似线性（即 \(\xi(h)\approx 2Mh\) 形），就能反推出 \(\varphi\) 近似二次——这正是反演定理要的结论。

二次曲线减去自身的平移得到一条直线。直线的斜率 \(\xi(h)\) 随 \(h\) 线性变化——这就是后面要逼出来的两层线性性。

我们用 (11.17) 把前面的表达式对所有 \(h\in H\) 求和，得出 \[E_{h\in Z}\,1_H(h)\big|E_{x\in Z}\,T_h f(x)\,\overline{f(x)}\,e(-\xi(h)\cdot x)\big|^2\ \ge\ \eta^{16}/4.\] 像引理 11.3 那样把它展开，我们得到 \[\Big|E_{x,h,k\in Z}\,1_H(h)\,T_{h+k}f(x)\,\overline{T_h f(x)}\,\overline{T_k f(x)}\,f(x)\,e(\xi(h)\cdot k)\Big|\ \ge\ \eta^{16}/4.\]

这两步在做什么

从单点到整体平均：对每个 \(h\in H\)，(11.18) 给出 \(\ge\eta^8/2\)。在前面乘上示性函数 \(1_H(h)\) 再对全体 \(h\in Z\) 取平均，只有 \(H\) 里的 \(h\) 有贡献，每个 \(\ge\eta^8/2\)，而 \(H\) 的密度 \(\ge\eta^8/2\)（即 (11.17)），相乘得到下界 \((\eta^8/2)\cdot(\eta^8/2)=\eta^{16}/4\)。
展开平方：把 \(|E_x(\cdots)|^2\) 写成两份相乘——一份用变量 \(x\)，一份用 \(x+k\)（引入新变量 \(k\)）。\(T_hf(x)\overline{f(x)}\) 的两份配对后产生四个 \(f\) 因子 \(T_{h+k}f\cdot\overline{T_hf}\cdot\overline{T_kf}\cdot f\)，并把两处的相位合并成 \(e(\xi(h)\cdot k)\)（注意原来 \(-\xi(h)\cdot x\) 与 \(+\xi(h)\cdot(x+k)\) 相减只剩 \(\xi(h)\cdot k\)）。这就是引理 11.3 给出的“盒子展开”。

效果：变量 \(x\) 处的相位被消掉了，只留下纯粹关于 \(\xi(h)\) 与新变量 \(k\) 的相位 \(e(\xi(h)\cdot k)\)。这样我们就能把注意力聚焦到 \(\xi\) 本身。

为了聚焦于 \(\xi\)，我们用 \(b(\cdot)\) 记号压缩掉对函数 \(f\) 的显式提及。整理若干项后得到 \[\Big|E_{x,h,k\in Z}\,b(x+h,k)\,\overline{b(x,k)}\,1_H(h)\,e(\xi(h)\cdot k)\Big|\ \ge\ \eta^{16}/4.\] 我们可以用引理 11.3 消去 \(b(x,k)\) 因子，得出 \[\Big|E_{x,h,h_1,k\in Z}\,b(x+h,k)\,\overline{b(x+h+h_1,k)}\,1_H(h)\,1_H(h+h_1)\,e\big((h_1\cdot\nabla)\xi(h)\cdot k\big)\Big|\ \ge\ \eta^{32}/16.\] 作代换 \(y=x+h\) 并整理若干项，这变成 \[\Big|E_{y,h,h_1,k\in Z}\,b(y,k,h_1)\,1_H(h)\,1_H(h+h_1)\,e\big((h_1\cdot\nabla)\xi(h)\cdot k\big)\Big|\ \ge\ \eta^{32}/16.\]

\(b(\cdot)\) 记号与“消因子”的要点

\(b(\cdot)\) 是什么：那四个 \(f\) 因子里，真正携带我们关心的信息（频率 \(\xi(h)\) 和示性 \(1_H\)）的只有相位与示性函数；剩下的 \(f\) 乘积都是模长 \(\le1\) 的“背景因子”。把它们打包记成 \(b(\cdots)\)（一个有界函数），就能在不被一堆 \(f\) 淹没的情况下，盯住 \(\xi\) 的代数结构。

再用一次引理 11.3（Cauchy–Schwarz）：要消去含变量 \(x\)（出现在 \(\overline{b(x,k)}\) 中）的那个不带 \(\xi\) 的因子，标准手法是对 \(x\) 作 Cauchy–Schwarz，代价是引入一个新的平移变量 \(h_1\)：原来的项 \(\overline{b(x,k)}\) 被它的“平移差”取代，于是 \(h\) 处出现 \(h\) 与 \(h+h_1\) 两份示性函数 \(1_H(h)1_H(h+h_1)\)，相位里的 \(\xi(h)\) 也被替换成离散方向导数

\[(h_1\cdot\nabla)\xi(h)=\xi(h+h_1)-\xi(h).\]

指数也从 \(16\) 翻倍到 \(32\)（每次 Cauchy–Schwarz 大致把下界平方、把误差减半，故 \(\eta^{16}/4\to\eta^{32}/16\)）。

代换 \(y=x+h\)：只是换个积分变量，把三个 \(b\) 因子重新打包成单个 \(b(y,k,h_1)\)，让 \(h\) 只剩在示性函数与相位里。至此式子的核心已经是

\[e\big((\xi(h+h_1)-\xi(h))\cdot k\big),\]

即直接度量 \(\xi\) 的“相邻差” \(\xi(h+h_1)-\xi(h)\)。下一阶段（不在本节）会从这个大的平均推出：对很多 \(h_1\)，差 \(\xi(h+h_1)-\xi(h)\) 几乎不依赖 \(h\)，亦即 \(\xi\) 近似线性——这正是 \(\xi(h)\approx 2Mh\) 所需要的。

若 \(\xi\) 沿直线 \(2Mh\)，则不管起点 \(h\) 在哪，迈出固定步 \(h_1\) 引起的增量 \(\xi(h+h_1)-\xi(h)=2Mh_1\) 都相同——“增量与 \(h\) 无关”正是线性性的离散判据。本节末尾的大平均，就是这一线性性的定量出发点。

即时自测

验证 \(U^3\) 的递归定义为什么把已知 \(\|f\|_{U^3}\ge\eta\) 变成 \(E_h\|T_hf\overline f\|_{U^2}^4\ge\eta^8\)（提示：两边都是 \(8\) 次方）。
对二次相位 \(\varphi(x)=Mx\cdot x+b\cdot x+c\)，亲手算出 \(\varphi(x+h)-\varphi(x)\)，并确认其关于 \(x\) 的斜率是 \(2Mh\)、关于 \(h\) 又线性。
在“一阶矩”论证里，若把阈值从 \(\eta^8/2\) 改成 \(\eta^8/3\)，重新推导 \(P_Z(H)\) 的下界会变成多少？
解释每用一次引理 11.3（Cauchy–Schwarz），为什么 \(\eta\) 的指数大致翻倍、并新增一个平移变量。

返回全书目录

预备：记号速查

11.3.1 定位一个“略带线性”的相位导数Locating a somewhat linear phase derivative

11.3.1　定位一个“略带线性”的相位导数Locating a somewhat linear phase derivative