11.7 素数中的等差数列Arithmetic progressions in the primes
本页为译文 + 高中讲解合一:黑色正文为忠实翻译;彩色框(目标 / 例 / 分步推演)与配图为面向高中生的详解,逐步推演、举例、画图,不用比喻。原文以“非正式讨论”为主,不给出完整证明;本页同样保持这一基调,但把每个抽象对象都尽量讲到“它到底想说什么”。
我们现在讨论 Green–Tao 定理,即定理 10.7。这里我们不会给出该定理的完整证明,读者可参阅原始论文 [158] 以及综述文章 [358]、[217]、[184]、[153]、[361] 以了解更多细节。我们将给出一个较为非正式的讨论,特别着重于它与本章其他论证之间的联系。
问题的简史
我们先非常简略地回顾一下这个问题的历史。这一结果被猜测已久;事实上,早在 1770 年,Lagrange 与 Waring 就已研究过较长的素数等差数列。1936 年提出的 Erdős–Turán 猜想(猜想 10.6)肯定在一定程度上正是受此问题的启发;它蕴含定理 10.7,但要强得多(且至今仍未解决)。
关于这一问题的第一个重大进展出现在 1939 年:Van der Corput [370] 用 Fourier 分析方法(但不用密度增量或能量增量论证)证明了素数中含有无穷多个长度为 \(3\) 的等差数列。该论证的一个关键步骤,是为如下形式的指数和取得良好上界 \[\mathbb{E}_{1\le n\le N}\,\Lambda(n)\,e(\alpha n),\] 其中 \(\Lambda\) 是 von Mangoldt 函数,\(\alpha\) 是一个实数(它可能接近一个分母较小的有理数,也可能远离任何这样的有理数)。然而,正如前面讨论过的,Fourier 方法(在解析数论中也称为 Hardy–Littlewood 圆法)对长度为 \(4\) 或更高的等差数列并不直接奏效。于是这个问题的进展变得非常缓慢。
Szemerédi 定理并没有直接给出关于素数的新结果,因为素数的密度为零;甚至 Bourgain 对 \(k=3\) 的强有力定量上界(定理 10.30)和 Gowers 的上界(11.23)也不足以攻克素数(攻克素数大致需要形如 \(r_k(\mathbb{Z}_N)=o\!\left(N\dfrac{\log\log N}{\log N}\right)\) 的上界)。
- 素数密度 \(\approx 1/\log N\),不是固定常数。
- 要直接用 Szemerédi,需要把 \(r_k(\mathbb{Z}_N)\) 的上界做到比 \(N/\log N\) 还小一个 \(\log\log N\) 因子——这是当时(甚至现在)的定量上界达不到的。
- 所以必须换思路:不是改进 Szemerédi 的定量上界,而是改变它的适用前提。
筛法、殆素数,与跨越鸿沟
与此同时,解析数论学家发展了筛法(sieve theory)的方法,部分动机正是为了解决诸如等差数列这类素数模式的存在性问题。虽然这些方法本身似乎无法直接对素数计数(这是由于筛法中臭名昭著的奇偶性问题(parity problem),对它的讨论超出本书范围),但它们在对殆素数(almost-primes)——即仅有极少个素因子的乘积——计数时取得了巨大成功。
例如,用筛法方法不难证明:对任意给定的 \(k\),存在无穷多个长度为 \(k\) 的等差数列,其每一项都是 \(O_k(1)\) 个素因子的乘积。然而,要从殆素数过渡到真正的素数仍然困难重重。一个值得一提的结果是 Heath-Brown [179] 于 1981 年的工作:他证明了存在无穷多个长度为 \(4\) 的等差数列,其中三项是素数,第四项是至多两个素数的乘积。在另一个方向上,Balog [15] 于 1992 年找到了无穷多个素数 \(k\) 元组 \(p_1,\dots,p_k\),其两两中点 \((p_i+p_j)/2\) 也都是素数。
同时,1996 年 Kohayakawa、Łuczak 与 Rödl [212] 将 Szemerédi 正则性引理推广到某类随机子图的子图上,并由此推广了 Roth 定理,证明了随机集中相对稠密的子集也含有许多长度为 \(3\) 的等差数列(见定理 10.18)。更近期地,Green [147] 用 Fourier 方法得到了一个素数的 Roth 定理,换言之,他证明了素数中任何具有正相对密度的子集都含有无穷多个长度为 \(3\) 的等差数列。这随后被 Green 与 Tao [159] 改进,他们(粗略地说)证明了:任何被筛法良好控制的集合,其稠密子集都含有无穷多个长度为 \(3\) 的等差数列。
在 [158] 中,这类结果被推广到了任意的 \(k\)。要精确表述它,需要一些记号。
- 取 \(B=\) 殆素数(密度仍很小,但比素数大、且筛法能精确控制)。
- 素数 \(P\) 在殆素数 \(B\) 中占正比例(相对密度为正)。
- 只要证明“伪随机母集 + 相对正密度 ⇒ 含长度 \(k\) 等差数列”,素数的情形就随之而来。
伪随机测度
下面给出关键定义。它把“一个集合表现得像随机集”这一直觉,翻译成对若干平均值的精确控制。
上述定义相当复杂,但应当把这些条件视为一种断言:权函数(或称“测度”)\(\nu\) 的分布是非常随机的。如果 \(\nu=\dfrac{1}{\mathbb{P}(A)}\mathbf{1}_A\)(其中 \(A\subset\mathbb{Z}_N\) 为某集合,\(\mathbb{P}(A)\) 为其密度),则这些条件本质上是在断言:当 \((L_{ij})_{j=1}^{t}\) 互不成比例时,事件 \(\sum_{j=1}^{t}L_{ij}x_j+b_i\in A\)(\(i=1,\dots,m\))本质上是相互独立的;并且对一般选取的 \(h_1,\dots,h_m\),事件 \(x+h_i\in A\) 之间只有轻微的相关性。
- 乘积 \(\prod_i\nu(\,\ell_i\,)\) 非零,当且仅当所有的点 \(\ell_i=\sum_j L_{ij}x_j+b_i\) 都落进 \(A\)。
- 对 \(x_1,\dots,x_t\) 求平均,再乘上归一化因子 \(1/\mathbb{P}(A)^m\),得到的恰是“\(m\) 个点同时落入 \(A\)”的概率,除以“各自独立落入”的概率 \(\mathbb{P}(A)^m\)。
- 线性形式条件说这个比值 \(\approx 1\),也就是说“同时落入” \(\approx\) “独立落入之积”——这正是随机集应有的独立性。
- “没有一个 \(t\)-元组是另一个的有理数倍”这个限制,保证了这些线性形式确实指向本质不同的方向,否则两个事件会强相关,独立性失效。
相对 Szemerédi 定理
[158] 中的关键结果,是把 Szemerédi 定理(以定理 11.1 的形式)推广到伪随机测度上。这里 \(\Lambda_k\) 记长度为 \(k\) 的等差数列的计数泛函(如本章前文所定义)。
Szemerédi 定理的这一加强,使我们不仅能在正密度的集合中探测到等差数列,现在还能在相对于充分“伪随机”的集合具有正相对密度的集合中探测到等差数列——即使后者本身的密度为零。例如,给定任意集合 \(B\subset\mathbb{Z}_N\),只要 \(\dfrac1{\mathbb{P}(B)}\mathbf{1}_B\) 是 \(k\)-伪随机的,上述定理就保证 \(r_k(B)=o_{N\to\infty;k}(|B|)\),前提是有一个温和条件,例如 \(\mathbb{P}(B)\ge N^{-1/k}\),以便忽略 \(\Lambda_k(f,\dots,f)\) 中的对角线项 \(r=0\)(即“退化”的常数列)。特别地,\(B\) 中任何相对密度 \(|A|/|B|\ge\delta\) 的子集 \(A\),只要 \(N\) 充分大(依赖于 \(\delta\) 与 \(k\)),就含有一个长度为 \(k\) 的真等差数列。
- \(\Omega_{k,\delta}(1)\):一个只依赖 \(k,\delta\) 的固定正下界,不随 \(N\) 衰减。
- \(-o_{N\to\infty;k,\delta}(1)\):一个随 \(N\to\infty\) 趋于 \(0\) 的误差。
- 合起来:当 \(N\) 足够大时,\(\Lambda_k>0\),即确实存在长度 \(k\) 的等差数列(且数量可观)。对角线项 \(r=0\) 的贡献约为 \(\mathbb{E}f\) 的某个幂,条件 \(\mathbb{P}(B)\ge N^{-1/k}\) 保证它小到可以被主项压过。
素数为何不完全合身,以及 W-技巧
事实证明,素数 \(P\) 并不完全落入上述框架,原因在于它们关于小剩余类的分布是不均匀的(例如,几乎所有素数都是奇数);而任何包含 \(P\) 并使 \(P\) 在其中具有正相对密度的集合 \(B\),也必然在小剩余类上有某种不均匀分布(这归根结底源于 Euler 乘积 \(\prod_p(1-p^{-1})^{-1}\) 的发散)。另一方面,伪随机测度必然在这些剩余类上均匀分布(见习题)。然而,这一点很容易补救,只需用鸽巢原理这个简单技巧,过渡到小因子之下的单一剩余类。
更精确地说,我们定义 \(W:=\prod_{p
事实证明,\(P_{W,b,N}\) 可以被有效地包含在一个 \(k\)-伪随机测度之中。更精确地说,存在一个 \(k\)-伪随机测度 \(\nu:\mathbb{Z}_N\to\mathbb{R}^{+}\),使得 \(\mathbb{E}_{\mathbb{Z}_N}\mathbf{1}_{P_{W,b,N}}\nu=\Omega_k(1)\),并且还有温和的上界 \(\|\nu\|_{L^\infty(\mathbb{Z}_N)}=O(N^{1/k})\)(同样是为了能忽略 \(r=0\) 的对角线项所需)。
这一事实,与定理 11.1 相结合,就足以确立素数中长度为 \(k\) 的等差数列的存在,甚至能确立更强的结果 \[r_k(P\cap[1,N])=o_{N\to\infty;k}\big(|P\cap[1,N]|\big)=o_{N\to\infty;k}\!\left(\frac{N}{\log N}\right).\] 这个测度的构造依赖于 Goldston 与 Yıldırım [134]、[132]、[133] 所用的 Selberg 筛法的一个版本(另见 [363]、[184]、[361]);它本质上是纯数论的,我们不在此重现。不过我们要指出,\(\nu\) 可以被理解为殆素数集 \[P_k=\{n:\ n\ \text{是 } O_k(1)\ \text{个素数之积}\}\] 的归一化示性函数的(光滑化)版本——更精确地说,是 \(P_k\) 中落在剩余类 \(b\pmod W\) 的那一部分的归一化示性函数。
如前所述,现代筛法技术(如 Selberg 筛法)在对殆素数的相关性计数时非常精确,因此可以用相当标准的论证来验证 \(\nu\) 的 \(k\)-伪随机性。与之形成对比的是,要验证素数本身(或诸如 \(P_{W,b,N}\) 这样的相关对象)的归一化计数函数的 \(k\)-伪随机性,仍然超出了当前技术的能力范围——它大致等价于臭名昭著的 Hardy–Littlewood 素数元组猜想,而后者不仅蕴含 Green–Tao 定理,还蕴含孪生素数猜想、Goldbach 猜想,以及加性数论中许多其他困难且未解的问题。因此,人们关键性地需要相对 Szemerédi 定理这样的工具,来弥合殆素数(我们理解得相当好)与素数(仍然十分神秘)之间的鸿沟。
定理 11.35 的证明思路
我们简要讨论定理 11.35 的证明。结果表明,这个定理的证明手段与 11.4 节中勾勒的 Szemerédi 定理证明非常相似,只不过现在所涉及的函数不再被 \(1\) 所界定,而是被某个 \(k\)-伪随机测度 \(\nu\) 所界定。尽管如此,仍然可以套用该节的大部分论证(唯一的例外是有用的 \(\mathrm{UAP}^{k-2}\) 范数,它在此情形下似乎没有合适的类比物)。
首先,可以推广广义 von Neumann 定理(11.8),得到如下上界 \[\big|\Lambda_k(f_0,\dots,f_{k-1})\big|=O_k\!\left(\min_{0\le j\le k-1}\|f_j\|_{U^{k-1}(\mathbb{Z}_N)}\right)+o_{N\to\infty;k}(1),\tag{11.34}\] 只要 \(f_0,\dots,f_{k-1}:\mathbb{Z}_N\to\mathbb{R}^{+}\) 的绝对值被 \(\nu+1\) 所界定。原先的上界 (11.8) 是通过多次应用 van der Corput 引理证明的,而后者本质上不过是 Cauchy–Schwarz 不等式;类似地,上界 (11.34) 也是通过多次应用 Cauchy–Schwarz 不等式证明的,其主要任务是追踪所有涉及 \(\nu\) 的权重,并利用线性形式条件来确保:到某一步之后,这些权重可以被替换为 \(1\),而仅产生可忽略的误差。完整细节见 [158]。
- 把一个函数拆成“结构部分 + 一致(噪声)部分”。
- (11.34) 保证:只要某个因子换成噪声部分,乘积平均值就接近 \(0\)。
- 于是计算 \(\Lambda_k\) 时,可以把所有的噪声部分安全地忽略,只剩结构部分起作用——结构部分恰好被 \(1\) 界定,可用普通 Szemerédi。
上界 (11.34) 告诉我们,即便在伪随机的设置下,那些 \(k-2\) 阶 Gowers 一致的函数仍然可以被安全地忽略。这就为通过 Koopman–von Neumann 定理来证明定理 11.35 开辟了道路。这里相关的定理如下。
- \(\mathbb{E}(f\mid\mathcal{B})\):粗粒度的结构部分,光滑、被 \(1\) 界定。
- \(f-\mathbb{E}(f\mid\mathcal{B})\):剩下的涨落,由 (11.37) 它的 \(U^{k-1}\) 范数很小,是“噪声”。
- 例外集 \(\Omega\) 收纳了少数“坏点”(\(\nu\) 在那儿异常大);由 (11.35) 它质量极小,可被丢弃。
- (11.36) 保证去掉 \(\Omega\) 后,\(\nu\) 在 \(\mathcal{B}\) 的每块上平均值都 \(\approx 1\),于是结构部分 \(\mathbb{E}(f\mid\mathcal{B})\le 1+o(1)\) 被 \(1\) 界定。
假定这个命题成立,现在我们可以写 \[(1-\mathbf{1}_\Omega)f=f_U+f_{U^\perp},\] 其中 \[f_U:=(1-\mathbf{1}_\Omega)\big(f-\mathbb{E}(f\mid\mathcal{B})\big)\] 是 \(k-2\) 阶 Gowers 一致的,而 \[f_{U^\perp}:=(1-\mathbf{1}_\Omega)\,\mathbb{E}(f\mid\mathcal{B})\] 是非负的、且被 \(1+o_{N\to\infty;\varepsilon,k}(1)\) 所界定(因为 \(\mathbb{E}(f\mid\mathcal{B})\le 1+\mathbb{E}(\nu-1\mid\mathcal{B})\))。此外,利用 (11.35) 可以证明 \(f_{U^\perp}\) 与 \(f\) 几乎有相同的均值: \[\mathbb{E}_{\mathbb{Z}_N}f_{U^\perp}=\mathbb{E}_{\mathbb{Z}_N}f-o_{N\to\infty;\varepsilon,k}(1).\] 由后两个事实,可以用普通的 Szemerédi 定理(定理 11.1)来确立 \[\Lambda_k(f_{U^\perp},\dots,f_{U^\perp})=\Omega_{k,\delta}(1)-o_{N\to\infty;k,\delta}(1).\] 由于 \(f_U\) 是 Gowers 一致的,我们可以轻易地用 (11.34) 进而推出 \[\Lambda_k(f_{U^\perp}+f_U,\dots,f_{U^\perp}+f_U)=\Omega_{k,\delta}(1)-o_{N\to\infty;k,\delta}(1),\] 而定理 11.35 随之而来,因为 \(0\le f_{U^\perp}+f_U\le f\)。
命题 11.36 的证明:能量增量
因此,只剩下证明命题 11.36。这里我们沿用已经在命题 10.36、11.18、11.29 的证明中用过的能量增量(energy increment)策略。第一步是引理 11.14 的如下推广。
这里的关键特征是:尽管 \(f\) 可能是无界的(或至少非常大),其对偶函数 \(F\) 却被相当具体地界定住了。这是线性形式条件的一个推论——除其他作用外,线性形式条件给出了 \(\mathcal{D}_{k-1}(\nu+1)\) 的一致上界,从而给出了 \(\mathcal{D}_{k-1}(f)\) 的一致上界。
- 第一句(\(F\) 有界):哪怕 \(f\) 大得离谱,\(F\) 也被一个纯常数 \(2^{2^{k-1}-1}\) 压住——这让 \(F\) 可以被安全地放进 \(\sigma\)-代数。
- 第二句(\(\langle f,F\rangle\) 大):若 \(f\) 不一致(\(U^{k-1}\) 范数 \(\ge\eta\)),那么 \(f\) 与它自己的对偶函数有可观的内积。
- 合起来:每当出现“不一致”,就能造出一个有界的 \(F\) 来“吸收”这份不一致,把它加进 \(\sigma\)-代数以提升 \(f_{U^\perp}\) 的能量。这正是能量增量的引擎。
然后,可以运行命题 10.36、11.18、11.29 中用过的同一个能量增量算法:把 \(f_U\) 项中任何缺乏一致性的部分,转化为一个对偶函数,再把它加入一个 \(\sigma\)-代数,以增加 \(f_{U^\perp}\) 项的能量。执行这一策略唯一的困难,是确保 \(f_{U^\perp}\) 保持有界。这由下面这个略带技术性的结果来实现。
\(\sigma\)-代数 \(\mathcal{B}_{\varepsilon,\eta}(\mathcal{D}_{k-1}F)\) 的构造与命题 10.38 中的非常相似,唯一真正的区别在于:某些小的原子会造成一些困难,需要被放入例外集 \(\Omega\)。然而这些问题可以这样处理——先取 \(\eta\) 适当小(依赖于 \(K,\varepsilon\)),再取 \(N\) 适当大(依赖于 \(K,\varepsilon,\eta\))。最棘手的任务是确立 (11.40)。它最终归结为(像命题 10.38 的证明那样,用 Weierstrass 逼近定理)确立如下形式的估计 \[\mathbb{E}\big((\nu-1)\,\mathcal{D}_{k-1}F_1\cdots\mathcal{D}_{k-1}F_K\big)=o_{N\to\infty;k,K}(1),\] 只要 \(F_1,\dots,F_K:\mathbb{Z}_N\to\mathbb{R}\) 是绝对值被 \(\nu+1\) 界定的函数。事实证明,这个估计可以通过应用 Gowers–Cauchy–Schwarz 不等式、Hölder 不等式,以及线性形式条件与相关性条件二者来实现;见 [158]。
最后,我们施行能量增量论证,并像命题 10.36 的证明那样,把引理 11.37 与命题 11.38 结合起来,得到命题 11.36。实际上,这里的能量增量论证比命题 10.36 中的略简单,因为没有任意的增长函数 \(\mathcal{F}\) 要处理。因此,可以只用一个单层迭代过程,而非双层,这稍微简化了一些。另一方面,例外集的出现,以及被操作的若干函数的无界性,要求格外小心,特别是要确保在每一阶段都真正获得一个实质性的能量增量,以使算法在有限时间内终止(并使命题 11.38 中出现的量 \(K\) 保持被 \(O_\varepsilon(1)\) 所界定)。
- 每当 \(f_U\) 还不够一致,就用引理 11.37 抓出一个对偶函数加进 \(\sigma\)-代数,结构部分变细。
- 命题 11.38 保证:每加一次,能量都实质性地增加一个固定的量(不是越来越小的量)。
- 能量有上界、每步增量有下界 ⇒ 步数有限 ⇒ 算法必停,停时 \(f_U\) 已足够一致,命题 11.36 成立。
习题
返回 全书目录