Tao–Vu · 加性组合学 · 第 11 章 k>3 的 Szemerédi 定理

11.7　素数中的等差数列Arithmetic progressions in the primes

本页为译文 + 高中讲解合一：黑色正文为忠实翻译；彩色框（目标 / 例 / 分步推演）与配图为面向高中生的详解，逐步推演、举例、画图，不用比喻。原文以“非正式讨论”为主，不给出完整证明；本页同样保持这一基调，但把每个抽象对象都尽量讲到“它到底想说什么”。

本节目标讲清楚 Green–Tao 定理（定理 10.7）：素数里含有任意长的等差数列。难点在于：素数的密度趋于 0，所以 Szemerédi 定理（只对正密度集合有效）不能直接用。本节解释如何用一个“伪随机测度（pseudo-random measure）”把素数装进一个表现得像随机集的母集中，再把 Szemerédi 定理升级为相对版本（relative Szemerédi theorem），从而把“正密度”这个要求换成“相对正密度”。

我们现在讨论 Green–Tao 定理，即定理 10.7。这里我们不会给出该定理的完整证明，读者可参阅原始论文 [158] 以及综述文章 [358]、[217]、[184]、[153]、[361] 以了解更多细节。我们将给出一个较为非正式的讨论，特别着重于它与本章其他论证之间的联系。

问题的简史

我们先非常简略地回顾一下这个问题的历史。这一结果被猜测已久；事实上，早在 1770 年，Lagrange 与 Waring 就已研究过较长的素数等差数列。1936 年提出的 Erdős–Turán 猜想（猜想 10.6）肯定在一定程度上正是受此问题的启发；它蕴含定理 10.7，但要强得多（且至今仍未解决）。

关于这一问题的第一个重大进展出现在 1939 年：Van der Corput [370] 用 Fourier 分析方法（但不用密度增量或能量增量论证）证明了素数中含有无穷多个长度为 \(3\) 的等差数列。该论证的一个关键步骤，是为如下形式的指数和取得良好上界 \[\mathbb{E}_{1\le n\le N}\,\Lambda(n)\,e(\alpha n),\] 其中 \(\Lambda\) 是 von Mangoldt 函数，\(\alpha\) 是一个实数（它可能接近一个分母较小的有理数，也可能远离任何这样的有理数）。然而，正如前面讨论过的，Fourier 方法（在解析数论中也称为 Hardy–Littlewood 圆法）对长度为 \(4\) 或更高的等差数列并不直接奏效。于是这个问题的进展变得非常缓慢。

Szemerédi 定理并没有直接给出关于素数的新结果，因为素数的密度为零；甚至 Bourgain 对 \(k=3\) 的强有力定量上界（定理 10.30）和 Gowers 的上界（11.23）也不足以攻克素数（攻克素数大致需要形如 \(r_k(\mathbb{Z}_N)=o\!\left(N\dfrac{\log\log N}{\log N}\right)\) 的上界）。

为什么密度零是拦路虎素数定理说 \(1\) 到 \(N\) 之间约有 \(N/\log N\) 个素数，所以素数在 \([1,N]\) 中的密度约为 \(1/\log N\to 0\)。Szemerédi 定理（定理 11.1）要求集合密度 \(\ge\delta\) 为固定正数，才能保证里面有长度 \(k\) 的等差数列。密度随 \(N\) 衰减到 \(0\) 时，定理给出的“足够大的 \(N\)”会被推到无穷远，于是什么也得不到。

素数密度 \(\approx 1/\log N\)，不是固定常数。
要直接用 Szemerédi，需要把 \(r_k(\mathbb{Z}_N)\) 的上界做到比 \(N/\log N\) 还小一个 \(\log\log N\) 因子——这是当时（甚至现在）的定量上界达不到的。
所以必须换思路：不是改进 Szemerédi 的定量上界，而是改变它的适用前提。

从“证明素数含长度 3 的等差数列”到“任意长度 \(k\)”，跨越了六十多年；关键障碍是 Fourier 方法只管得了长度 3。

筛法、殆素数，与跨越鸿沟

与此同时，解析数论学家发展了筛法（sieve theory）的方法，部分动机正是为了解决诸如等差数列这类素数模式的存在性问题。虽然这些方法本身似乎无法直接对素数计数（这是由于筛法中臭名昭著的奇偶性问题（parity problem），对它的讨论超出本书范围），但它们在对殆素数（almost-primes）——即仅有极少个素因子的乘积——计数时取得了巨大成功。

例如，用筛法方法不难证明：对任意给定的 \(k\)，存在无穷多个长度为 \(k\) 的等差数列，其每一项都是 \(O_k(1)\) 个素因子的乘积。然而，要从殆素数过渡到真正的素数仍然困难重重。一个值得一提的结果是 Heath-Brown [179] 于 1981 年的工作：他证明了存在无穷多个长度为 \(4\) 的等差数列，其中三项是素数，第四项是至多两个素数的乘积。在另一个方向上，Balog [15] 于 1992 年找到了无穷多个素数 \(k\) 元组 \(p_1,\dots,p_k\)，其两两中点 \((p_i+p_j)/2\) 也都是素数。

同时，1996 年 Kohayakawa、Łuczak 与 Rödl [212] 将 Szemerédi 正则性引理推广到某类随机子图的子图上，并由此推广了 Roth 定理，证明了随机集中相对稠密的子集也含有许多长度为 \(3\) 的等差数列（见定理 10.18）。更近期地，Green [147] 用 Fourier 方法得到了一个素数的 Roth 定理，换言之，他证明了素数中任何具有正相对密度的子集都含有无穷多个长度为 \(3\) 的等差数列。这随后被 Green 与 Tao [159] 改进，他们（粗略地说）证明了：任何被筛法良好控制的集合，其稠密子集都含有无穷多个长度为 \(3\) 的等差数列。

在 [158] 中，这类结果被推广到了任意的 \(k\)。要精确表述它，需要一些记号。

核心策略：相对密度直接研究素数 \(P\)（密度 \(0\)）很难。换个角度：找一个母集 \(B\supseteq P\)，使得 \(P\) 在 \(B\) 里占正比例（相对密度 \(\ge\delta\)），并且 \(B\) 本身“看起来像随机集”。如果能对这种“伪随机母集里相对稠密的子集”证一个 Szemerédi 型定理，就能套到素数上。

取 \(B=\) 殆素数（密度仍很小，但比素数大、且筛法能精确控制）。
素数 \(P\) 在殆素数 \(B\) 中占正比例（相对密度为正）。
只要证明“伪随机母集 + 相对正密度 ⇒ 含长度 \(k\) 等差数列”，素数的情形就随之而来。

伪随机测度

下面给出关键定义。它把“一个集合表现得像随机集”这一直觉，翻译成对若干平均值的精确控制。

定义 11.34（伪随机测度）[158] 称函数 \(\nu:\mathbb{Z}_N\to\mathbb{R}^{+}\) 是 \(k\)-伪随机的（\(k\)-pseudo-random），若 \(\mathbb{E}_{\mathbb{Z}_N}\nu=1+o_{N\to\infty}(1)\)，并且更一般地满足如下线性形式条件（linear forms condition）： \[\mathbb{E}_{x_1,\dots,x_t\in\mathbb{Z}_N}\ \prod_{i=1}^{m}\nu\!\left(\sum_{j=1}^{t}L_{ij}x_j+b_i\right)=1+o_{N\to\infty;k}(1),\] 其中 \(0\le m\le k\,2^{k-1}\)，\(t\le 3k-4\)，\(b_1,\dots,b_m\in\mathbb{Z}_N\) 任意，\(L_{ij}\) 为分子、分母绝对值都不超过 \(k\) 的有理数，且这 \(m\) 个 \(t\)-元组 \((L_{ij})_{j=1}^{t}\) 中没有一个是另一个的有理数倍。此外，我们还假设相关性条件（correlation condition）： \[\mathbb{E}_{x\in\mathbb{Z}_N}\ \prod_{i=1}^{m}\nu(x+h_i)\ \le\ \sum_{1\le i

上述定义相当复杂，但应当把这些条件视为一种断言：权函数（或称“测度”）\(\nu\) 的分布是非常随机的。如果 \(\nu=\dfrac{1}{\mathbb{P}(A)}\mathbf{1}_A\)（其中 \(A\subset\mathbb{Z}_N\) 为某集合，\(\mathbb{P}(A)\) 为其密度），则这些条件本质上是在断言：当 \((L_{ij})_{j=1}^{t}\) 互不成比例时，事件 \(\sum_{j=1}^{t}L_{ij}x_j+b_i\in A\)（\(i=1,\dots,m\)）本质上是相互独立的；并且对一般选取的 \(h_1,\dots,h_m\)，事件 \(x+h_i\in A\) 之间只有轻微的相关性。

把定义读成“独立性” 设 \(\nu=\frac1{\mathbb{P}(A)}\mathbf{1}_A\)。注意 \(\nu(y)\) 非零当且仅当 \(y\in A\)，且此时 \(\nu(y)=1/\mathbb{P}(A)\)。

乘积 \(\prod_i\nu(\,\ell_i\,)\) 非零，当且仅当所有的点 \(\ell_i=\sum_j L_{ij}x_j+b_i\) 都落进 \(A\)。
对 \(x_1,\dots,x_t\) 求平均，再乘上归一化因子 \(1/\mathbb{P}(A)^m\)，得到的恰是“\(m\) 个点同时落入 \(A\)”的概率，除以“各自独立落入”的概率 \(\mathbb{P}(A)^m\)。
线性形式条件说这个比值 \(\approx 1\)，也就是说“同时落入” \(\approx\) “独立落入之积”——这正是随机集应有的独立性。
“没有一个 \(t\)-元组是另一个的有理数倍”这个限制，保证了这些线性形式确实指向本质不同的方向，否则两个事件会强相关，独立性失效。

相对 Szemerédi 定理

[158] 中的关键结果，是把 Szemerédi 定理（以定理 11.1 的形式）推广到伪随机测度上。这里 \(\Lambda_k\) 记长度为 \(k\) 的等差数列的计数泛函（如本章前文所定义）。

定理 11.35（相对 Szemerédi 定理）设 \(k\ge 3\)，设 \(\mathbb{Z}_N\) 是阶为大素数 \(N\) 的有限循环群，设 \(f:\mathbb{Z}_N\to\mathbb{R}^{+}\) 是一个不恒为零的非负函数，且对所有 \(x\in\mathbb{Z}_N\) 满足界 \(0\le f(x)\le\nu(x)\) 以及 \(\mathbb{E}_{\mathbb{Z}_N}(f)\ge\delta>0\)，其中 \(\nu\) 是某个 \(k\)-伪随机测度，那么 \[\Lambda_k(f,\dots,f)=\Omega_{k,\delta}(1)-o_{N\to\infty;k,\delta}(1).\]

Szemerédi 定理的这一加强，使我们不仅能在正密度的集合中探测到等差数列，现在还能在相对于充分“伪随机”的集合具有正相对密度的集合中探测到等差数列——即使后者本身的密度为零。例如，给定任意集合 \(B\subset\mathbb{Z}_N\)，只要 \(\dfrac1{\mathbb{P}(B)}\mathbf{1}_B\) 是 \(k\)-伪随机的，上述定理就保证 \(r_k(B)=o_{N\to\infty;k}(|B|)\)，前提是有一个温和条件，例如 \(\mathbb{P}(B)\ge N^{-1/k}\)，以便忽略 \(\Lambda_k(f,\dots,f)\) 中的对角线项 \(r=0\)（即“退化”的常数列）。特别地，\(B\) 中任何相对密度 \(|A|/|B|\ge\delta\) 的子集 \(A\)，只要 \(N\) 充分大（依赖于 \(\delta\) 与 \(k\)），就含有一个长度为 \(k\) 的真等差数列。

\(\Omega\) 与 \(o\) 在说什么结论 \(\Lambda_k(f,\dots,f)=\Omega_{k,\delta}(1)-o_{N\to\infty;k,\delta}(1)\) 由两块组成：

\(\Omega_{k,\delta}(1)\)：一个只依赖 \(k,\delta\) 的固定正下界，不随 \(N\) 衰减。
\(-o_{N\to\infty;k,\delta}(1)\)：一个随 \(N\to\infty\) 趋于 \(0\) 的误差。
合起来：当 \(N\) 足够大时，\(\Lambda_k>0\)，即确实存在长度 \(k\) 的等差数列（且数量可观）。对角线项 \(r=0\) 的贡献约为 \(\mathbb{E}f\) 的某个幂，条件 \(\mathbb{P}(B)\ge N^{-1/k}\) 保证它小到可以被主项压过。

素数为何不完全合身，以及 W-技巧

事实证明，素数 \(P\) 并不完全落入上述框架，原因在于它们关于小剩余类的分布是不均匀的（例如，几乎所有素数都是奇数）；而任何包含 \(P\) 并使 \(P\) 在其中具有正相对密度的集合 \(B\)，也必然在小剩余类上有某种不均匀分布（这归根结底源于 Euler 乘积 \(\prod_p(1-p^{-1})^{-1}\) 的发散）。另一方面，伪随机测度必然在这些剩余类上均匀分布（见习题）。然而，这一点很容易补救，只需用鸽巢原理这个简单技巧，过渡到小因子之下的单一剩余类。

更精确地说，我们定义 \(W:=\prod_{pW-技巧（W-trick）”的更多细节，见 [158]、[361]。

W-技巧：把不均匀性“拉直” 素数几乎都是奇数——更一般地，素数躲开了所有小素数 \(p

令 \(W=\prod_{p

只看形如 \(Wq+b\) 的位置（\(b\) 与 \(W\) 互素）。在这条算术级数上，素数的分布不再有“躲开小素数”的偏向。

于是从“看素数 \(q\) 是否为素数”改成“看 \(Wq+b\) 是否为素数”，得到的新集合 \(P_{W,b,N}\) 在小剩余类上变均匀了，可以被伪随机测度装下。

直觉：先把素数特有的“偶数/小因子偏见”用一次坐标变换抹平，剩下的随机性才好处理。

事实证明，\(P_{W,b,N}\) 可以被有效地包含在一个 \(k\)-伪随机测度之中。更精确地说，存在一个 \(k\)-伪随机测度 \(\nu:\mathbb{Z}_N\to\mathbb{R}^{+}\)，使得 \(\mathbb{E}_{\mathbb{Z}_N}\mathbf{1}_{P_{W,b,N}}\nu=\Omega_k(1)\)，并且还有温和的上界 \(\|\nu\|_{L^\infty(\mathbb{Z}_N)}=O(N^{1/k})\)（同样是为了能忽略 \(r=0\) 的对角线项所需）。

这一事实，与定理 11.1 相结合，就足以确立素数中长度为 \(k\) 的等差数列的存在，甚至能确立更强的结果 \[r_k(P\cap[1,N])=o_{N\to\infty;k}\big(|P\cap[1,N]|\big)=o_{N\to\infty;k}\!\left(\frac{N}{\log N}\right).\] 这个测度的构造依赖于 Goldston 与 Yıldırım [134]、[132]、[133] 所用的 Selberg 筛法的一个版本（另见 [363]、[184]、[361]）；它本质上是纯数论的，我们不在此重现。不过我们要指出，\(\nu\) 可以被理解为殆素数集 \[P_k=\{n:\ n\ \text{是 } O_k(1)\ \text{个素数之积}\}\] 的归一化示性函数的（光滑化）版本——更精确地说，是 \(P_k\) 中落在剩余类 \(b\pmod W\) 的那一部分的归一化示性函数。

如前所述，现代筛法技术（如 Selberg 筛法）在对殆素数的相关性计数时非常精确，因此可以用相当标准的论证来验证 \(\nu\) 的 \(k\)-伪随机性。与之形成对比的是，要验证素数本身（或诸如 \(P_{W,b,N}\) 这样的相关对象）的归一化计数函数的 \(k\)-伪随机性，仍然超出了当前技术的能力范围——它大致等价于臭名昭著的 Hardy–Littlewood 素数元组猜想，而后者不仅蕴含 Green–Tao 定理，还蕴含孪生素数猜想、Goldbach 猜想，以及加性数论中许多其他困难且未解的问题。因此，人们关键性地需要相对 Szemerédi 定理这样的工具，来弥合殆素数（我们理解得相当好）与素数（仍然十分神秘）之间的鸿沟。

素数自身的伪随机性难以验证（≈ 素数元组猜想），但殆素数可以；相对 Szemerédi 定理充当“桥”，把对殆素数的理解传递给素数。

定理 11.35 的证明思路

我们简要讨论定理 11.35 的证明。结果表明，这个定理的证明手段与 11.4 节中勾勒的 Szemerédi 定理证明非常相似，只不过现在所涉及的函数不再被 \(1\) 所界定，而是被某个 \(k\)-伪随机测度 \(\nu\) 所界定。尽管如此，仍然可以套用该节的大部分论证（唯一的例外是有用的 \(\mathrm{UAP}^{k-2}\) 范数，它在此情形下似乎没有合适的类比物）。

首先，可以推广广义 von Neumann 定理（11.8），得到如下上界 \[\big|\Lambda_k(f_0,\dots,f_{k-1})\big|=O_k\!\left(\min_{0\le j\le k-1}\|f_j\|_{U^{k-1}(\mathbb{Z}_N)}\right)+o_{N\to\infty;k}(1),\tag{11.34}\] 只要 \(f_0,\dots,f_{k-1}:\mathbb{Z}_N\to\mathbb{R}^{+}\) 的绝对值被 \(\nu+1\) 所界定。原先的上界 (11.8) 是通过多次应用 van der Corput 引理证明的，而后者本质上不过是 Cauchy–Schwarz 不等式；类似地，上界 (11.34) 也是通过多次应用 Cauchy–Schwarz 不等式证明的，其主要任务是追踪所有涉及 \(\nu\) 的权重，并利用线性形式条件来确保：到某一步之后，这些权重可以被替换为 \(1\)，而仅产生可忽略的误差。完整细节见 [158]。

(11.34) 的含义：均匀分量可以扔掉 \(U^{k-1}\) 是 Gowers 一致性范数（见 11.1 节）。(11.34) 说：若 \(k\) 个函数中有一个的 \(U^{k-1}\) 范数很小（即“Gowers 一致 / 像噪声”），那么整个计数 \(\Lambda_k\) 就很小。

把一个函数拆成“结构部分 + 一致（噪声）部分”。
(11.34) 保证：只要某个因子换成噪声部分，乘积平均值就接近 \(0\)。
于是计算 \(\Lambda_k\) 时，可以把所有的噪声部分安全地忽略，只剩结构部分起作用——结构部分恰好被 \(1\) 界定，可用普通 Szemerédi。

关键新意：即便 \(f\) 本身可能很大（被 \(\nu\) 而非 \(1\) 界定），这条“忽略一致部分”的原理依然成立。

上界 (11.34) 告诉我们，即便在伪随机的设置下，那些 \(k-2\) 阶 Gowers 一致的函数仍然可以被安全地忽略。这就为通过 Koopman–von Neumann 定理来证明定理 11.35 开辟了道路。这里相关的定理如下。

命题 11.36（广义 Koopman–von Neumann 结构定理）[158] 设 \(\nu\) 是一个 \(k\)-伪随机测度，设 \(f:\mathbb{Z}_N\to\mathbb{R}^{+}\) 满足对所有 \(x\in\mathbb{Z}_N\) 有 \(0\le f(x)\le\nu(x)\)。设 \(0<\varepsilon\ll 1\) 是一个小参数，并设 \(N>N_0(\varepsilon)\) 充分大。则存在一个 \(\sigma\)-代数 \(\mathcal{B}\) 和一个例外集 \(\Omega\in\mathcal{B}\)，使得：

▸（小性条件）\[\mathbb{E}(\nu\,\mathbf{1}_\Omega)=o_{N\to\infty;\varepsilon,k}(1);\tag{11.35}\]

▸（\(\nu\) 在 \(\Omega\) 之外均匀分布）\[\big\|(1-\mathbf{1}_\Omega)\,\mathbb{E}(\nu-1\mid\mathcal{B})\big\|_{L^\infty(\mathbb{Z}_N)}=o_{N\to\infty;\varepsilon,k}(1);\tag{11.36}\]

▸（Gowers 一致性估计）\[\big\|(1-\mathbf{1}_\Omega)\big(f-\mathbb{E}(f\mid\mathcal{B})\big)\big\|_{U^{k-1}(\mathbb{Z}_N)}\le\varepsilon^{1/2^{k}}.\tag{11.37}\]

命题 11.36 在干什么：把 f 切成两半 \(\sigma\)-代数 \(\mathcal{B}\) 把 \(\mathbb{Z}_N\) 划分成若干“原子（块）”，\(\mathbb{E}(f\mid\mathcal{B})\) 就是 \(f\) 在每块上取平均后得到的阶梯状近似（结构部分）。

\(\mathbb{E}(f\mid\mathcal{B})\)：粗粒度的结构部分，光滑、被 \(1\) 界定。
\(f-\mathbb{E}(f\mid\mathcal{B})\)：剩下的涨落，由 (11.37) 它的 \(U^{k-1}\) 范数很小，是“噪声”。
例外集 \(\Omega\) 收纳了少数“坏点”（\(\nu\) 在那儿异常大）；由 (11.35) 它质量极小，可被丢弃。
(11.36) 保证去掉 \(\Omega\) 后，\(\nu\) 在 \(\mathcal{B}\) 的每块上平均值都 \(\approx 1\)，于是结构部分 \(\mathbb{E}(f\mid\mathcal{B})\le 1+o(1)\) 被 \(1\) 界定。

假定这个命题成立，现在我们可以写 \[(1-\mathbf{1}_\Omega)f=f_U+f_{U^\perp},\] 其中 \[f_U:=(1-\mathbf{1}_\Omega)\big(f-\mathbb{E}(f\mid\mathcal{B})\big)\] 是 \(k-2\) 阶 Gowers 一致的，而 \[f_{U^\perp}:=(1-\mathbf{1}_\Omega)\,\mathbb{E}(f\mid\mathcal{B})\] 是非负的、且被 \(1+o_{N\to\infty;\varepsilon,k}(1)\) 所界定（因为 \(\mathbb{E}(f\mid\mathcal{B})\le 1+\mathbb{E}(\nu-1\mid\mathcal{B})\)）。此外，利用 (11.35) 可以证明 \(f_{U^\perp}\) 与 \(f\) 几乎有相同的均值： \[\mathbb{E}_{\mathbb{Z}_N}f_{U^\perp}=\mathbb{E}_{\mathbb{Z}_N}f-o_{N\to\infty;\varepsilon,k}(1).\] 由后两个事实，可以用普通的 Szemerédi 定理（定理 11.1）来确立 \[\Lambda_k(f_{U^\perp},\dots,f_{U^\perp})=\Omega_{k,\delta}(1)-o_{N\to\infty;k,\delta}(1).\] 由于 \(f_U\) 是 Gowers 一致的，我们可以轻易地用 (11.34) 进而推出 \[\Lambda_k(f_{U^\perp}+f_U,\dots,f_{U^\perp}+f_U)=\Omega_{k,\delta}(1)-o_{N\to\infty;k,\delta}(1),\] 而定理 11.35 随之而来，因为 \(0\le f_{U^\perp}+f_U\le f\)。

结构部分贡献主项（用经典 Szemerédi），一致部分贡献可忽略项（用 (11.34)），合起来即得 \(\Lambda_k(f,\dots,f)\) 的正下界。

命题 11.36 的证明：能量增量

因此，只剩下证明命题 11.36。这里我们沿用已经在命题 10.36、11.18、11.29 的证明中用过的能量增量（energy increment）策略。第一步是引理 11.14 的如下推广。

引理 11.37（软逆定理 / soft inverse theorem）[158] 设 \(f:\mathbb{Z}_N\to\mathbb{C}\) 是绝对值被 \(\nu+1\) 所界定的函数，设 \(F=\mathcal{D}_{k-1}(f)\) 为其对偶函数（dual function）。则 \[\|F\|_{L^\infty(\mathbb{Z}_N)}\le 2^{2^{k-1}-1}+o_{N\to\infty;k}(1).\] 此外，若 \(\|f\|_{U^{k-1}(\mathbb{Z}_N)}\ge\eta\)，则 \(\big|\langle f,F\rangle\big|\ge\eta^{2^{d}}\)。

这里的关键特征是：尽管 \(f\) 可能是无界的（或至少非常大），其对偶函数 \(F\) 却被相当具体地界定住了。这是线性形式条件的一个推论——除其他作用外，线性形式条件给出了 \(\mathcal{D}_{k-1}(\nu+1)\) 的一致上界，从而给出了 \(\mathcal{D}_{k-1}(f)\) 的一致上界。

对偶函数 F 的用处对偶函数 \(F=\mathcal{D}_{k-1}(f)\) 是一种“把 \(f\) 沿所有平行四边形配置自相关”得到的量。

第一句（\(F\) 有界）：哪怕 \(f\) 大得离谱，\(F\) 也被一个纯常数 \(2^{2^{k-1}-1}\) 压住——这让 \(F\) 可以被安全地放进 \(\sigma\)-代数。
第二句（\(\langle f,F\rangle\) 大）：若 \(f\) 不一致（\(U^{k-1}\) 范数 \(\ge\eta\)），那么 \(f\) 与它自己的对偶函数有可观的内积。
合起来：每当出现“不一致”，就能造出一个有界的 \(F\) 来“吸收”这份不一致，把它加进 \(\sigma\)-代数以提升 \(f_{U^\perp}\) 的能量。这正是能量增量的引擎。

然后，可以运行命题 10.36、11.18、11.29 中用过的同一个能量增量算法：把 \(f_U\) 项中任何缺乏一致性的部分，转化为一个对偶函数，再把它加入一个 \(\sigma\)-代数，以增加 \(f_{U^\perp}\) 项的能量。执行这一策略唯一的困难，是确保 \(f_{U^\perp}\) 保持有界。这由下面这个略带技术性的结果来实现。

命题 11.38 [158] 设 \(\nu\) 是一个 \(k\)-伪随机测度。设 \(0<\varepsilon<1\) 与 \(0<\eta<1/2\) 为参数。则对每个绝对值被 \(\nu+1\) 所界定的函数 \(F:\mathbb{Z}_N\to\mathbb{R}\)，都可以构造一个 \(\sigma\)-代数 \(\mathcal{B}_{\varepsilon,\eta}(\mathcal{D}_{k-1}F)\)，具有如下性质：对任意 \(K\ge 1\) 及任意绝对值被 \(\nu+1\) 所界定的函数 \(F_1,\dots,F_K:\mathbb{Z}_N\to\mathbb{R}\)，若令 \[\mathcal{B}:=\mathcal{B}_{\varepsilon,\eta}(\mathcal{D}_{k-1}F_1)\vee\cdots\vee\mathcal{B}_{\varepsilon,\eta}(\mathcal{D}_{k-1}F_K),\] 则当 \(\eta<\eta_0(\varepsilon,K)\) 充分小、且 \(N>N_0(\varepsilon,K,\eta)\) 充分大时，有 \[\big\|\mathcal{D}_{k-1}F_j-\mathbb{E}(\mathcal{D}_{k-1}F_j\mid\mathcal{B})\big\|_{L^\infty(\mathbb{Z}_N)}\le\varepsilon\quad\text{对所有 }1\le j\le K.\tag{11.38}\] 此外，存在一个属于 \(\mathcal{B}\) 的集合 \(\Omega\)，使得 \[\mathbb{E}_{\mathbb{Z}_N}\big((\nu+1)\mathbf{1}_\Omega\big)=O_{K,\varepsilon}\!\big(\eta^{1/2}\big),\tag{11.39}\] 并且 \[\big\|(1-\mathbf{1}_\Omega)\,\mathbb{E}(\nu-1\mid\mathcal{B})\big\|_{L^\infty(\mathbb{Z}_N)}=O_{K,\varepsilon}\!\big(\eta^{1/2}\big).\tag{11.40}\]

\(\sigma\)-代数 \(\mathcal{B}_{\varepsilon,\eta}(\mathcal{D}_{k-1}F)\) 的构造与命题 10.38 中的非常相似，唯一真正的区别在于：某些小的原子会造成一些困难，需要被放入例外集 \(\Omega\)。然而这些问题可以这样处理——先取 \(\eta\) 适当小（依赖于 \(K,\varepsilon\)），再取 \(N\) 适当大（依赖于 \(K,\varepsilon,\eta\)）。最棘手的任务是确立 (11.40)。它最终归结为（像命题 10.38 的证明那样，用 Weierstrass 逼近定理）确立如下形式的估计 \[\mathbb{E}\big((\nu-1)\,\mathcal{D}_{k-1}F_1\cdots\mathcal{D}_{k-1}F_K\big)=o_{N\to\infty;k,K}(1),\] 只要 \(F_1,\dots,F_K:\mathbb{Z}_N\to\mathbb{R}\) 是绝对值被 \(\nu+1\) 界定的函数。事实证明，这个估计可以通过应用 Gowers–Cauchy–Schwarz 不等式、Hölder 不等式，以及线性形式条件与相关性条件二者来实现；见 [158]。

最后，我们施行能量增量论证，并像命题 10.36 的证明那样，把引理 11.37 与命题 11.38 结合起来，得到命题 11.36。实际上，这里的能量增量论证比命题 10.36 中的略简单，因为没有任意的增长函数 \(\mathcal{F}\) 要处理。因此，可以只用一个单层迭代过程，而非双层，这稍微简化了一些。另一方面，例外集的出现，以及被操作的若干函数的无界性，要求格外小心，特别是要确保在每一阶段都真正获得一个实质性的能量增量，以使算法在有限时间内终止（并使命题 11.38 中出现的量 \(K\) 保持被 \(O_\varepsilon(1)\) 所界定）。

能量增量为何会停 “能量”指 \(f_{U^\perp}\)（结构部分）的 \(L^2\) 范数的平方，它始终 \(\le\) \(\|f\|_{L^2}^2\) 这个固定上界。

每当 \(f_U\) 还不够一致，就用引理 11.37 抓出一个对偶函数加进 \(\sigma\)-代数，结构部分变细。
命题 11.38 保证：每加一次，能量都实质性地增加一个固定的量（不是越来越小的量）。
能量有上界、每步增量有下界 ⇒ 步数有限 ⇒ 算法必停，停时 \(f_U\) 已足够一致，命题 11.36 成立。

单层（而非双层）迭代之所以够用，正因为这里不必应付一个随意增长的函数 \(\mathcal{F}\)。

习题

习题 11.7.1 假设已知对所有 \(k\ge 3\) 有 \(r_k(\mathbb{Z}_N)=o_{N\to\infty;k}\!\left(N\dfrac{\log\log N}{\log N}\right)\)。由此推出 Green–Tao 定理。（提示：把 \(1\) 到 \(N\) 的素数按模 \(P=\prod_{p

习题 11.7.2 用定理 11.35 对大循环群 \(\mathbb{Z}_N\) 与任意的 \(k\) 证明定理 10.18 的一个版本。（提示：若 \(B\) 是 \(\mathbb{Z}_N\) 的一个随机子集，期望密度 \(\tau\ge N^{-\varepsilon}\)，其中 \(\varepsilon=\varepsilon_k>0\) 是某个小数，用 Chernoff 不等式证明 \(\dfrac1\tau\mathbf{1}_B\) 极有可能是 \(k\)-伪随机的。）

习题 11.7.3 [158] 设 \(\nu:\mathbb{Z}_N\to\mathbb{R}\) 是 \(k\)-伪随机的。证明 \(\|\nu-1\|_{U^{k-1}(\mathbb{Z}_N)}=o_{N\to\infty;k}(1)\)。特别地，由此推出：若 \(k\ge 3\)，则有均匀分布性质 \[\mathbb{E}_{x\in\mathbb{Z}_N}\mathbf{1}_P(x)\,\nu(x)=\mathbb{P}_{\mathbb{Z}_N}(P)+o_{N\to\infty;k}(1)\] 对任意等差数列 \(P\) 成立。因此，伪随机测度必然在等差数列上均匀分布。

习题 11.7.4 [158] 证明引理 11.37。

返回全书目录