Tao–Vu · 加性组合学 · 第 11 章 k>3 的 Szemerédi 定理

11.7 素数中的等差数列Arithmetic progressions in the primes

本页为译文 + 高中讲解合一:黑色正文为忠实翻译;彩色框(目标 / 例 / 分步推演)与配图为面向高中生的详解,逐步推演、举例、画图,不用比喻。原文以“非正式讨论”为主,不给出完整证明;本页同样保持这一基调,但把每个抽象对象都尽量讲到“它到底想说什么”。

本节目标讲清楚 Green–Tao 定理(定理 10.7):素数里含有任意长的等差数列。难点在于:素数的密度趋于 0,所以 Szemerédi 定理(只对正密度集合有效)不能直接用。本节解释如何用一个“伪随机测度(pseudo-random measure)”把素数装进一个表现得像随机集的母集中,再把 Szemerédi 定理升级为相对版本(relative Szemerédi theorem),从而把“正密度”这个要求换成“相对正密度”。

我们现在讨论 Green–Tao 定理,即定理 10.7。这里我们不会给出该定理的完整证明,读者可参阅原始论文 [158] 以及综述文章 [358]、[217]、[184]、[153]、[361] 以了解更多细节。我们将给出一个较为非正式的讨论,特别着重于它与本章其他论证之间的联系。

问题的简史

我们先非常简略地回顾一下这个问题的历史。这一结果被猜测已久;事实上,早在 1770 年,Lagrange 与 Waring 就已研究过较长的素数等差数列。1936 年提出的 Erdős–Turán 猜想(猜想 10.6)肯定在一定程度上正是受此问题的启发;它蕴含定理 10.7,但要强得多(且至今仍未解决)。

关于这一问题的第一个重大进展出现在 1939 年:Van der Corput [370] 用 Fourier 分析方法(但用密度增量或能量增量论证)证明了素数中含有无穷多个长度为 \(3\) 的等差数列。该论证的一个关键步骤,是为如下形式的指数和取得良好上界 \[\mathbb{E}_{1\le n\le N}\,\Lambda(n)\,e(\alpha n),\] 其中 \(\Lambda\) 是 von Mangoldt 函数,\(\alpha\) 是一个实数(它可能接近一个分母较小的有理数,也可能远离任何这样的有理数)。然而,正如前面讨论过的,Fourier 方法(在解析数论中也称为 Hardy–Littlewood 圆法)对长度为 \(4\) 或更高的等差数列并不直接奏效。于是这个问题的进展变得非常缓慢。

Szemerédi 定理并没有直接给出关于素数的新结果,因为素数的密度为零;甚至 Bourgain 对 \(k=3\) 的强有力定量上界(定理 10.30)和 Gowers 的上界(11.23)也不足以攻克素数(攻克素数大致需要形如 \(r_k(\mathbb{Z}_N)=o\!\left(N\dfrac{\log\log N}{\log N}\right)\) 的上界)。

为什么密度零是拦路虎 素数定理说 \(1\) 到 \(N\) 之间约有 \(N/\log N\) 个素数,所以素数在 \([1,N]\) 中的密度约为 \(1/\log N\to 0\)。Szemerédi 定理(定理 11.1)要求集合密度 \(\ge\delta\) 为固定正数,才能保证里面有长度 \(k\) 的等差数列。密度随 \(N\) 衰减到 \(0\) 时,定理给出的“足够大的 \(N\)”会被推到无穷远,于是什么也得不到
  1. 素数密度 \(\approx 1/\log N\),不是固定常数。
  2. 要直接用 Szemerédi,需要把 \(r_k(\mathbb{Z}_N)\) 的上界做到比 \(N/\log N\) 还小一个 \(\log\log N\) 因子——这是当时(甚至现在)的定量上界达不到的。
  3. 所以必须换思路:不是改进 Szemerédi 的定量上界,而是改变它的适用前提
1770Lagrange,Waring 1936Erdős–Turán 猜想 1939v.d.Corput: 长 3 1981Heath-Brown 1996Green: 素数 Roth 2004Green–Tao: 任意 k
从“证明素数含长度 3 的等差数列”到“任意长度 \(k\)”,跨越了六十多年;关键障碍是 Fourier 方法只管得了长度 3。

筛法、殆素数,与跨越鸿沟

与此同时,解析数论学家发展了筛法(sieve theory)的方法,部分动机正是为了解决诸如等差数列这类素数模式的存在性问题。虽然这些方法本身似乎无法直接对素数计数(这是由于筛法中臭名昭著的奇偶性问题(parity problem),对它的讨论超出本书范围),但它们在对殆素数(almost-primes)——即仅有极少个素因子的乘积——计数时取得了巨大成功。

例如,用筛法方法不难证明:对任意给定的 \(k\),存在无穷多个长度为 \(k\) 的等差数列,其每一项都是 \(O_k(1)\) 个素因子的乘积。然而,要从殆素数过渡到真正的素数仍然困难重重。一个值得一提的结果是 Heath-Brown [179] 于 1981 年的工作:他证明了存在无穷多个长度为 \(4\) 的等差数列,其中三项是素数,第四项是至多两个素数的乘积。在另一个方向上,Balog [15] 于 1992 年找到了无穷多个素数 \(k\) 元组 \(p_1,\dots,p_k\),其两两中点 \((p_i+p_j)/2\) 也都是素数。

同时,1996 年 Kohayakawa、Łuczak 与 Rödl [212] 将 Szemerédi 正则性引理推广到某类随机子图的子图上,并由此推广了 Roth 定理,证明了随机集中相对稠密的子集也含有许多长度为 \(3\) 的等差数列(见定理 10.18)。更近期地,Green [147] 用 Fourier 方法得到了一个素数的 Roth 定理,换言之,他证明了素数中任何具有正相对密度的子集都含有无穷多个长度为 \(3\) 的等差数列。这随后被 Green 与 Tao [159] 改进,他们(粗略地说)证明了:任何被筛法良好控制的集合,其稠密子集都含有无穷多个长度为 \(3\) 的等差数列。

在 [158] 中,这类结果被推广到了任意的 \(k\)。要精确表述它,需要一些记号。

核心策略:相对密度 直接研究素数 \(P\)(密度 \(0\))很难。换个角度:找一个母集 \(B\supseteq P\),使得 \(P\) 在 \(B\) 里占正比例(相对密度 \(\ge\delta\)),并且 \(B\) 本身“看起来像随机集”。如果能对这种“伪随机母集里相对稠密的子集”证一个 Szemerédi 型定理,就能套到素数上。
  1. 取 \(B=\) 殆素数(密度仍很小,但比素数大、且筛法能精确控制)。
  2. 素数 \(P\) 在殆素数 \(B\) 中占正比例(相对密度为正)。
  3. 只要证明“伪随机母集 + 相对正密度 ⇒ 含长度 \(k\) 等差数列”,素数的情形就随之而来。

伪随机测度

下面给出关键定义。它把“一个集合表现得像随机集”这一直觉,翻译成对若干平均值的精确控制。

定义 11.34(伪随机测度)[158] 称函数 \(\nu:\mathbb{Z}_N\to\mathbb{R}^{+}\) 是 \(k\)-伪随机的(\(k\)-pseudo-random),若 \(\mathbb{E}_{\mathbb{Z}_N}\nu=1+o_{N\to\infty}(1)\),并且更一般地满足如下线性形式条件(linear forms condition): \[\mathbb{E}_{x_1,\dots,x_t\in\mathbb{Z}_N}\ \prod_{i=1}^{m}\nu\!\left(\sum_{j=1}^{t}L_{ij}x_j+b_i\right)=1+o_{N\to\infty;k}(1),\] 其中 \(0\le m\le k\,2^{k-1}\),\(t\le 3k-4\),\(b_1,\dots,b_m\in\mathbb{Z}_N\) 任意,\(L_{ij}\) 为分子、分母绝对值都不超过 \(k\) 的有理数,且这 \(m\) 个 \(t\)-元组 \((L_{ij})_{j=1}^{t}\) 中没有一个是另一个的有理数倍。此外,我们还假设相关性条件(correlation condition): \[\mathbb{E}_{x\in\mathbb{Z}_N}\ \prod_{i=1}^{m}\nu(x+h_i)\ \le\ \sum_{1\le i

上述定义相当复杂,但应当把这些条件视为一种断言:权函数(或称“测度”)\(\nu\) 的分布是非常随机的。如果 \(\nu=\dfrac{1}{\mathbb{P}(A)}\mathbf{1}_A\)(其中 \(A\subset\mathbb{Z}_N\) 为某集合,\(\mathbb{P}(A)\) 为其密度),则这些条件本质上是在断言:当 \((L_{ij})_{j=1}^{t}\) 互不成比例时,事件 \(\sum_{j=1}^{t}L_{ij}x_j+b_i\in A\)(\(i=1,\dots,m\))本质上是相互独立的;并且对一般选取的 \(h_1,\dots,h_m\),事件 \(x+h_i\in A\) 之间只有轻微的相关性。

把定义读成“独立性” 设 \(\nu=\frac1{\mathbb{P}(A)}\mathbf{1}_A\)。注意 \(\nu(y)\) 非零当且仅当 \(y\in A\),且此时 \(\nu(y)=1/\mathbb{P}(A)\)。
  1. 乘积 \(\prod_i\nu(\,\ell_i\,)\) 非零,当且仅当所有的点 \(\ell_i=\sum_j L_{ij}x_j+b_i\) 都落进 \(A\)。
  2. 对 \(x_1,\dots,x_t\) 求平均,再乘上归一化因子 \(1/\mathbb{P}(A)^m\),得到的恰是“\(m\) 个点同时落入 \(A\)”的概率,除以“各自独立落入”的概率 \(\mathbb{P}(A)^m\)。
  3. 线性形式条件说这个比值 \(\approx 1\),也就是说“同时落入” \(\approx\) “独立落入之积”——这正是随机集应有的独立性。
  4. “没有一个 \(t\)-元组是另一个的有理数倍”这个限制,保证了这些线性形式确实指向本质不同的方向,否则两个事件会强相关,独立性失效。

相对 Szemerédi 定理

[158] 中的关键结果,是把 Szemerédi 定理(以定理 11.1 的形式)推广到伪随机测度上。这里 \(\Lambda_k\) 记长度为 \(k\) 的等差数列的计数泛函(如本章前文所定义)。

定理 11.35(相对 Szemerédi 定理) 设 \(k\ge 3\),设 \(\mathbb{Z}_N\) 是阶为大素数 \(N\) 的有限循环群,设 \(f:\mathbb{Z}_N\to\mathbb{R}^{+}\) 是一个不恒为零的非负函数,且对所有 \(x\in\mathbb{Z}_N\) 满足界 \(0\le f(x)\le\nu(x)\) 以及 \(\mathbb{E}_{\mathbb{Z}_N}(f)\ge\delta>0\),其中 \(\nu\) 是某个 \(k\)-伪随机测度,那么 \[\Lambda_k(f,\dots,f)=\Omega_{k,\delta}(1)-o_{N\to\infty;k,\delta}(1).\]

Szemerédi 定理的这一加强,使我们不仅能在正密度的集合中探测到等差数列,现在还能在相对于充分“伪随机”的集合具有正相对密度的集合中探测到等差数列——即使后者本身的密度为零。例如,给定任意集合 \(B\subset\mathbb{Z}_N\),只要 \(\dfrac1{\mathbb{P}(B)}\mathbf{1}_B\) 是 \(k\)-伪随机的,上述定理就保证 \(r_k(B)=o_{N\to\infty;k}(|B|)\),前提是有一个温和条件,例如 \(\mathbb{P}(B)\ge N^{-1/k}\),以便忽略 \(\Lambda_k(f,\dots,f)\) 中的对角线项 \(r=0\)(即“退化”的常数列)。特别地,\(B\) 中任何相对密度 \(|A|/|B|\ge\delta\) 的子集 \(A\),只要 \(N\) 充分大(依赖于 \(\delta\) 与 \(k\)),就含有一个长度为 \(k\) 的真等差数列。

\(\Omega\) 与 \(o\) 在说什么 结论 \(\Lambda_k(f,\dots,f)=\Omega_{k,\delta}(1)-o_{N\to\infty;k,\delta}(1)\) 由两块组成:
  1. \(\Omega_{k,\delta}(1)\):一个只依赖 \(k,\delta\) 的固定正下界,不随 \(N\) 衰减。
  2. \(-o_{N\to\infty;k,\delta}(1)\):一个随 \(N\to\infty\) 趋于 \(0\) 的误差。
  3. 合起来:当 \(N\) 足够大时,\(\Lambda_k>0\),即确实存在长度 \(k\) 的等差数列(且数量可观)。对角线项 \(r=0\) 的贡献约为 \(\mathbb{E}f\) 的某个幂,条件 \(\mathbb{P}(B)\ge N^{-1/k}\) 保证它小到可以被主项压过。

素数为何不完全合身,以及 W-技巧

事实证明,素数 \(P\) 并不完全落入上述框架,原因在于它们关于小剩余类的分布是不均匀的(例如,几乎所有素数都是奇数);而任何包含 \(P\) 并使 \(P\) 在其中具有正相对密度的集合 \(B\),也必然在小剩余类上有某种不均匀分布(这归根结底源于 Euler 乘积 \(\prod_p(1-p^{-1})^{-1}\) 的发散)。另一方面,伪随机测度必然在这些剩余类上均匀分布(见习题)。然而,这一点很容易补救,只需用鸽巢原理这个简单技巧,过渡到小因子之下的单一剩余类

更精确地说,我们定义 \(W:=\prod_{pW-技巧(W-trick)”的更多细节,见 [158]、[361]。

W-技巧:把不均匀性“拉直” 素数几乎都是奇数——更一般地,素数躲开了所有小素数 \(p
  • 令 \(W=\prod_{p
  • 只看形如 \(Wq+b\) 的位置(\(b\) 与 \(W\) 互素)。在这条算术级数上,素数的分布不再有“躲开小素数”的偏向。
  • 于是从“看素数 \(q\) 是否为素数”改成“看 \(Wq+b\) 是否为素数”,得到的新集合 \(P_{W,b,N}\) 在小剩余类上变均匀了,可以被伪随机测度装下。
  • 直觉:先把素数特有的“偶数/小因子偏见”用一次坐标变换抹平,剩下的随机性才好处理。

    事实证明,\(P_{W,b,N}\) 可以被有效地包含在一个 \(k\)-伪随机测度之中。更精确地说,存在一个 \(k\)-伪随机测度 \(\nu:\mathbb{Z}_N\to\mathbb{R}^{+}\),使得 \(\mathbb{E}_{\mathbb{Z}_N}\mathbf{1}_{P_{W,b,N}}\nu=\Omega_k(1)\),并且还有温和的上界 \(\|\nu\|_{L^\infty(\mathbb{Z}_N)}=O(N^{1/k})\)(同样是为了能忽略 \(r=0\) 的对角线项所需)。

    这一事实,与定理 11.1 相结合,就足以确立素数中长度为 \(k\) 的等差数列的存在,甚至能确立更强的结果 \[r_k(P\cap[1,N])=o_{N\to\infty;k}\big(|P\cap[1,N]|\big)=o_{N\to\infty;k}\!\left(\frac{N}{\log N}\right).\] 这个测度的构造依赖于 Goldston 与 Yıldırım [134]、[132]、[133] 所用的 Selberg 筛法的一个版本(另见 [363]、[184]、[361]);它本质上是纯数论的,我们不在此重现。不过我们要指出,\(\nu\) 可以被理解为殆素数集 \[P_k=\{n:\ n\ \text{是 } O_k(1)\ \text{个素数之积}\}\] 的归一化示性函数的(光滑化)版本——更精确地说,是 \(P_k\) 中落在剩余类 \(b\pmod W\) 的那一部分的归一化示性函数。

    如前所述,现代筛法技术(如 Selberg 筛法)在对殆素数的相关性计数时非常精确,因此可以用相当标准的论证来验证 \(\nu\) 的 \(k\)-伪随机性。与之形成对比的是,要验证素数本身(或诸如 \(P_{W,b,N}\) 这样的相关对象)的归一化计数函数的 \(k\)-伪随机性,仍然超出了当前技术的能力范围——它大致等价于臭名昭著的 Hardy–Littlewood 素数元组猜想,而后者不仅蕴含 Green–Tao 定理,还蕴含孪生素数猜想、Goldbach 猜想,以及加性数论中许多其他困难且未解的问题。因此,人们关键性地需要相对 Szemerédi 定理这样的工具,来弥合殆素数(我们理解得相当好)与素数(仍然十分神秘)之间的鸿沟。

    殆素数 \(P_k\)(母集 B) 筛法可精确计数 → 易证伪随机 素数 P 在 B 中相对密度为正 相对 Szemerédi 定理 11.35 把“B 伪随机 + P 相对稠密” 转成 P 含长度 k AP
    素数自身的伪随机性难以验证(≈ 素数元组猜想),但殆素数可以;相对 Szemerédi 定理充当“桥”,把对殆素数的理解传递给素数。

    定理 11.35 的证明思路

    我们简要讨论定理 11.35 的证明。结果表明,这个定理的证明手段与 11.4 节中勾勒的 Szemerédi 定理证明非常相似,只不过现在所涉及的函数不再被 \(1\) 所界定,而是被某个 \(k\)-伪随机测度 \(\nu\) 所界定。尽管如此,仍然可以套用该节的大部分论证(唯一的例外是有用的 \(\mathrm{UAP}^{k-2}\) 范数,它在此情形下似乎没有合适的类比物)。

    首先,可以推广广义 von Neumann 定理(11.8),得到如下上界 \[\big|\Lambda_k(f_0,\dots,f_{k-1})\big|=O_k\!\left(\min_{0\le j\le k-1}\|f_j\|_{U^{k-1}(\mathbb{Z}_N)}\right)+o_{N\to\infty;k}(1),\tag{11.34}\] 只要 \(f_0,\dots,f_{k-1}:\mathbb{Z}_N\to\mathbb{R}^{+}\) 的绝对值被 \(\nu+1\) 所界定。原先的上界 (11.8) 是通过多次应用 van der Corput 引理证明的,而后者本质上不过是 Cauchy–Schwarz 不等式;类似地,上界 (11.34) 也是通过多次应用 Cauchy–Schwarz 不等式证明的,其主要任务是追踪所有涉及 \(\nu\) 的权重,并利用线性形式条件来确保:到某一步之后,这些权重可以被替换为 \(1\),而仅产生可忽略的误差。完整细节见 [158]。

    (11.34) 的含义:均匀分量可以扔掉 \(U^{k-1}\) 是 Gowers 一致性范数(见 11.1 节)。(11.34) 说:若 \(k\) 个函数中有一个的 \(U^{k-1}\) 范数很小(即“Gowers 一致 / 像噪声”),那么整个计数 \(\Lambda_k\) 就很小。
    1. 把一个函数拆成“结构部分 + 一致(噪声)部分”。
    2. (11.34) 保证:只要某个因子换成噪声部分,乘积平均值就接近 \(0\)。
    3. 于是计算 \(\Lambda_k\) 时,可以把所有的噪声部分安全地忽略,只剩结构部分起作用——结构部分恰好被 \(1\) 界定,可用普通 Szemerédi。
    关键新意:即便 \(f\) 本身可能很大(被 \(\nu\) 而非 \(1\) 界定),这条“忽略一致部分”的原理依然成立。

    上界 (11.34) 告诉我们,即便在伪随机的设置下,那些 \(k-2\) 阶 Gowers 一致的函数仍然可以被安全地忽略。这就为通过 Koopman–von Neumann 定理来证明定理 11.35 开辟了道路。这里相关的定理如下。

    命题 11.36(广义 Koopman–von Neumann 结构定理)[158] 设 \(\nu\) 是一个 \(k\)-伪随机测度,设 \(f:\mathbb{Z}_N\to\mathbb{R}^{+}\) 满足对所有 \(x\in\mathbb{Z}_N\) 有 \(0\le f(x)\le\nu(x)\)。设 \(0<\varepsilon\ll 1\) 是一个小参数,并设 \(N>N_0(\varepsilon)\) 充分大。则存在一个 \(\sigma\)-代数 \(\mathcal{B}\) 和一个例外集 \(\Omega\in\mathcal{B}\),使得:
    ▸(小性条件)\[\mathbb{E}(\nu\,\mathbf{1}_\Omega)=o_{N\to\infty;\varepsilon,k}(1);\tag{11.35}\]
    ▸(\(\nu\) 在 \(\Omega\) 之外均匀分布)\[\big\|(1-\mathbf{1}_\Omega)\,\mathbb{E}(\nu-1\mid\mathcal{B})\big\|_{L^\infty(\mathbb{Z}_N)}=o_{N\to\infty;\varepsilon,k}(1);\tag{11.36}\]
    ▸(Gowers 一致性估计)\[\big\|(1-\mathbf{1}_\Omega)\big(f-\mathbb{E}(f\mid\mathcal{B})\big)\big\|_{U^{k-1}(\mathbb{Z}_N)}\le\varepsilon^{1/2^{k}}.\tag{11.37}\]
    命题 11.36 在干什么:把 f 切成两半 \(\sigma\)-代数 \(\mathcal{B}\) 把 \(\mathbb{Z}_N\) 划分成若干“原子(块)”,\(\mathbb{E}(f\mid\mathcal{B})\) 就是 \(f\) 在每块上取平均后得到的阶梯状近似(结构部分)。
    1. \(\mathbb{E}(f\mid\mathcal{B})\):粗粒度的结构部分,光滑、被 \(1\) 界定。
    2. \(f-\mathbb{E}(f\mid\mathcal{B})\):剩下的涨落,由 (11.37) 它的 \(U^{k-1}\) 范数很小,是“噪声”。
    3. 例外集 \(\Omega\) 收纳了少数“坏点”(\(\nu\) 在那儿异常大);由 (11.35) 它质量极小,可被丢弃。
    4. (11.36) 保证去掉 \(\Omega\) 后,\(\nu\) 在 \(\mathcal{B}\) 的每块上平均值都 \(\approx 1\),于是结构部分 \(\mathbb{E}(f\mid\mathcal{B})\le 1+o(1)\) 被 \(1\) 界定。

    假定这个命题成立,现在我们可以写 \[(1-\mathbf{1}_\Omega)f=f_U+f_{U^\perp},\] 其中 \[f_U:=(1-\mathbf{1}_\Omega)\big(f-\mathbb{E}(f\mid\mathcal{B})\big)\] 是 \(k-2\) 阶 Gowers 一致的,而 \[f_{U^\perp}:=(1-\mathbf{1}_\Omega)\,\mathbb{E}(f\mid\mathcal{B})\] 是非负的、且被 \(1+o_{N\to\infty;\varepsilon,k}(1)\) 所界定(因为 \(\mathbb{E}(f\mid\mathcal{B})\le 1+\mathbb{E}(\nu-1\mid\mathcal{B})\))。此外,利用 (11.35) 可以证明 \(f_{U^\perp}\) 与 \(f\) 几乎有相同的均值: \[\mathbb{E}_{\mathbb{Z}_N}f_{U^\perp}=\mathbb{E}_{\mathbb{Z}_N}f-o_{N\to\infty;\varepsilon,k}(1).\] 由后两个事实,可以用普通的 Szemerédi 定理(定理 11.1)来确立 \[\Lambda_k(f_{U^\perp},\dots,f_{U^\perp})=\Omega_{k,\delta}(1)-o_{N\to\infty;k,\delta}(1).\] 由于 \(f_U\) 是 Gowers 一致的,我们可以轻易地用 (11.34) 进而推出 \[\Lambda_k(f_{U^\perp}+f_U,\dots,f_{U^\perp}+f_U)=\Omega_{k,\delta}(1)-o_{N\to\infty;k,\delta}(1),\] 而定理 11.35 随之而来,因为 \(0\le f_{U^\perp}+f_U\le f\)。

    把 \((1-\mathbf{1}_\Omega)f\) 分成两块 \(f_{U^\perp}\):结构(阶梯,≤1) → 用普通 Szemerédi + \(f_U\):一致(噪声) \(\|f_U\|_{U^{k-1}}\) 小 → 由 (11.34) 忽略
    结构部分贡献主项(用经典 Szemerédi),一致部分贡献可忽略项(用 (11.34)),合起来即得 \(\Lambda_k(f,\dots,f)\) 的正下界。

    命题 11.36 的证明:能量增量

    因此,只剩下证明命题 11.36。这里我们沿用已经在命题 10.36、11.18、11.29 的证明中用过的能量增量(energy increment)策略。第一步是引理 11.14 的如下推广。

    引理 11.37(软逆定理 / soft inverse theorem)[158] 设 \(f:\mathbb{Z}_N\to\mathbb{C}\) 是绝对值被 \(\nu+1\) 所界定的函数,设 \(F=\mathcal{D}_{k-1}(f)\) 为其对偶函数(dual function)。则 \[\|F\|_{L^\infty(\mathbb{Z}_N)}\le 2^{2^{k-1}-1}+o_{N\to\infty;k}(1).\] 此外,若 \(\|f\|_{U^{k-1}(\mathbb{Z}_N)}\ge\eta\),则 \(\big|\langle f,F\rangle\big|\ge\eta^{2^{d}}\)。

    这里的关键特征是:尽管 \(f\) 可能是无界的(或至少非常大),其对偶函数 \(F\) 却被相当具体地界定住了。这是线性形式条件的一个推论——除其他作用外,线性形式条件给出了 \(\mathcal{D}_{k-1}(\nu+1)\) 的一致上界,从而给出了 \(\mathcal{D}_{k-1}(f)\) 的一致上界。

    对偶函数 F 的用处 对偶函数 \(F=\mathcal{D}_{k-1}(f)\) 是一种“把 \(f\) 沿所有平行四边形配置自相关”得到的量。
    1. 第一句(\(F\) 有界):哪怕 \(f\) 大得离谱,\(F\) 也被一个纯常数 \(2^{2^{k-1}-1}\) 压住——这让 \(F\) 可以被安全地放进 \(\sigma\)-代数。
    2. 第二句(\(\langle f,F\rangle\) 大):若 \(f\) 不一致(\(U^{k-1}\) 范数 \(\ge\eta\)),那么 \(f\) 与它自己的对偶函数有可观的内积。
    3. 合起来:每当出现“不一致”,就能造出一个有界的 \(F\) 来“吸收”这份不一致,把它加进 \(\sigma\)-代数以提升 \(f_{U^\perp}\) 的能量。这正是能量增量的引擎。

    然后,可以运行命题 10.36、11.18、11.29 中用过的同一个能量增量算法:把 \(f_U\) 项中任何缺乏一致性的部分,转化为一个对偶函数,再把它加入一个 \(\sigma\)-代数,以增加 \(f_{U^\perp}\) 项的能量。执行这一策略唯一的困难,是确保 \(f_{U^\perp}\) 保持有界。这由下面这个略带技术性的结果来实现。

    命题 11.38 [158] 设 \(\nu\) 是一个 \(k\)-伪随机测度。设 \(0<\varepsilon<1\) 与 \(0<\eta<1/2\) 为参数。则对每个绝对值被 \(\nu+1\) 所界定的函数 \(F:\mathbb{Z}_N\to\mathbb{R}\),都可以构造一个 \(\sigma\)-代数 \(\mathcal{B}_{\varepsilon,\eta}(\mathcal{D}_{k-1}F)\),具有如下性质:对任意 \(K\ge 1\) 及任意绝对值被 \(\nu+1\) 所界定的函数 \(F_1,\dots,F_K:\mathbb{Z}_N\to\mathbb{R}\),若令 \[\mathcal{B}:=\mathcal{B}_{\varepsilon,\eta}(\mathcal{D}_{k-1}F_1)\vee\cdots\vee\mathcal{B}_{\varepsilon,\eta}(\mathcal{D}_{k-1}F_K),\] 则当 \(\eta<\eta_0(\varepsilon,K)\) 充分小、且 \(N>N_0(\varepsilon,K,\eta)\) 充分大时,有 \[\big\|\mathcal{D}_{k-1}F_j-\mathbb{E}(\mathcal{D}_{k-1}F_j\mid\mathcal{B})\big\|_{L^\infty(\mathbb{Z}_N)}\le\varepsilon\quad\text{对所有 }1\le j\le K.\tag{11.38}\] 此外,存在一个属于 \(\mathcal{B}\) 的集合 \(\Omega\),使得 \[\mathbb{E}_{\mathbb{Z}_N}\big((\nu+1)\mathbf{1}_\Omega\big)=O_{K,\varepsilon}\!\big(\eta^{1/2}\big),\tag{11.39}\] 并且 \[\big\|(1-\mathbf{1}_\Omega)\,\mathbb{E}(\nu-1\mid\mathcal{B})\big\|_{L^\infty(\mathbb{Z}_N)}=O_{K,\varepsilon}\!\big(\eta^{1/2}\big).\tag{11.40}\]

    \(\sigma\)-代数 \(\mathcal{B}_{\varepsilon,\eta}(\mathcal{D}_{k-1}F)\) 的构造与命题 10.38 中的非常相似,唯一真正的区别在于:某些小的原子会造成一些困难,需要被放入例外集 \(\Omega\)。然而这些问题可以这样处理——先取 \(\eta\) 适当小(依赖于 \(K,\varepsilon\)),再取 \(N\) 适当大(依赖于 \(K,\varepsilon,\eta\))。最棘手的任务是确立 (11.40)。它最终归结为(像命题 10.38 的证明那样,用 Weierstrass 逼近定理)确立如下形式的估计 \[\mathbb{E}\big((\nu-1)\,\mathcal{D}_{k-1}F_1\cdots\mathcal{D}_{k-1}F_K\big)=o_{N\to\infty;k,K}(1),\] 只要 \(F_1,\dots,F_K:\mathbb{Z}_N\to\mathbb{R}\) 是绝对值被 \(\nu+1\) 界定的函数。事实证明,这个估计可以通过应用 Gowers–Cauchy–Schwarz 不等式、Hölder 不等式,以及线性形式条件与相关性条件二者来实现;见 [158]。

    最后,我们施行能量增量论证,并像命题 10.36 的证明那样,把引理 11.37 与命题 11.38 结合起来,得到命题 11.36。实际上,这里的能量增量论证比命题 10.36 中的略简单,因为没有任意的增长函数 \(\mathcal{F}\) 要处理。因此,可以只用一个单层迭代过程,而非双层,这稍微简化了一些。另一方面,例外集的出现,以及被操作的若干函数的无界性,要求格外小心,特别是要确保在每一阶段都真正获得一个实质性的能量增量,以使算法在有限时间内终止(并使命题 11.38 中出现的量 \(K\) 保持被 \(O_\varepsilon(1)\) 所界定)。

    能量增量为何会停 “能量”指 \(f_{U^\perp}\)(结构部分)的 \(L^2\) 范数的平方,它始终 \(\le\) \(\|f\|_{L^2}^2\) 这个固定上界。
    1. 每当 \(f_U\) 还不够一致,就用引理 11.37 抓出一个对偶函数加进 \(\sigma\)-代数,结构部分变细。
    2. 命题 11.38 保证:每加一次,能量都实质性地增加一个固定的量(不是越来越小的量)。
    3. 能量有上界、每步增量有下界 ⇒ 步数有限 ⇒ 算法必停,停时 \(f_U\) 已足够一致,命题 11.36 成立。
    单层(而非双层)迭代之所以够用,正因为这里不必应付一个随意增长的函数 \(\mathcal{F}\)。

    习题

    习题 11.7.1 假设已知对所有 \(k\ge 3\) 有 \(r_k(\mathbb{Z}_N)=o_{N\to\infty;k}\!\left(N\dfrac{\log\log N}{\log N}\right)\)。由此推出 Green–Tao 定理。(提示:把 \(1\) 到 \(N\) 的素数按模 \(P=\prod_{p
    习题 11.7.2 用定理 11.35 对大循环群 \(\mathbb{Z}_N\) 与任意的 \(k\) 证明定理 10.18 的一个版本。(提示:若 \(B\) 是 \(\mathbb{Z}_N\) 的一个随机子集,期望密度 \(\tau\ge N^{-\varepsilon}\),其中 \(\varepsilon=\varepsilon_k>0\) 是某个小数,用 Chernoff 不等式证明 \(\dfrac1\tau\mathbf{1}_B\) 极有可能是 \(k\)-伪随机的。)
    习题 11.7.3 [158] 设 \(\nu:\mathbb{Z}_N\to\mathbb{R}\) 是 \(k\)-伪随机的。证明 \(\|\nu-1\|_{U^{k-1}(\mathbb{Z}_N)}=o_{N\to\infty;k}(1)\)。特别地,由此推出:若 \(k\ge 3\),则有均匀分布性质 \[\mathbb{E}_{x\in\mathbb{Z}_N}\mathbf{1}_P(x)\,\nu(x)=\mathbb{P}_{\mathbb{Z}_N}(P)+o_{N\to\infty;k}(1)\] 对任意等差数列 \(P\) 成立。因此,伪随机测度必然在等差数列上均匀分布。
    习题 11.7.4 [158] 证明引理 11.37。

    返回 全书目录