Tao–Vu · 加性组合学 · 第 11 章 k>3 的 Szemerédi 定理

11.6 超图方法The hypergraph approach

本页为译文 + 讲解合一:黑色正文为忠实翻译;彩色框(目标 / 例 / 定义 / 定理 / 证明 / 分步推演)与配图是为帮助理解而加的详解,逐步推演、举例、画图,不用比喻。本节技术性很强,讲解会尽量把每一步的动机说清楚。

本节目标第 10.6 节里,正则性引理 → 三角形移除引理 → Roth 定理这条链子证明了长度为 3 的等差数列的存在性。本节要回答:能不能把这条链子推广到任意长度 \(k\)?答案是肯定的,但代价是必须把“图”升级为“超图”(hypergraph)。本节先讲清超图、单纯形、单纯形移除引理这一套语言,然后用一个全新的、概率论味道很重的视角(把函数分解成“紧致部分 + 一致部分”)重新证明普通的图正则性引理,并说明它如何向高维推广。

11.6.1 从图到超图:为什么需要升级

在第 10.6 节中,我们看到 Szemerédi 正则性引理导出了一个图论中的结果,即三角形移除引理(triangle removal lemma),而后者又推出了 Roth 定理(以及它向直角三角形的一个推广)。于是很自然地要问:类似的方法能否证明一般 \(k\) 的 Szemerédi 定理?事实证明可以,但需要我们处理超图(也叫集合系统,set systems)而不是图。

我们需要一些记号。若 \(A\) 是一个有限集合,\(k\ge 0\),我们用 \(\binom{A}{k}\) 表示 \(A\) 的所有 \(k\) 元子集构成的集族。定义一个 \(k\)-一致超图(\(k\)-uniform hypergraph)\(H=H(V,E)\) 为任意一对 \((V,E)\),其中 \(V\) 是一个有限集合(顶点集),而 \(E\) 是 \(\binom{V}{k}\) 的一个子集(边集)。于是一个 \(2\)-一致超图就和普通的图是一回事。

定义(\(k\)-一致超图)顶点集 \(V\) 是有限集;每条“边”不再是两个点,而是 \(V\) 的一个 \(k\) 元子集。\(k=2\) 时每条边是两个点,就是普通图;\(k=3\) 时每条边是三个点。
2-一致(普通图):边 = 2 个点 3-一致:边 = 3 个点(一个“面”) {a,b,c} 是一条 3-边
普通图的边连两个点;\(3\)-一致超图的“边”是三个点构成的三元组(图中阴影面)。一般 \(k\)-一致超图的边是 \(k\) 个点。

11.6.2 单纯形与单纯形移除引理

三角形移除引理(引理 10.46)可以如下推广。若 \(H=H(V,E)\) 是一个 \(k\)-一致超图,我们定义 \(H\) 中的一个 \(k\)-单纯形(\(k\)-simplex)为任意一组 \(k+1\) 个顶点 \(S=\{v_1,\dots,v_{k+1}\}\subset V\),使得 \(\binom{S}{k}\subset E\),即 \(k+1\) 条边 \(S\setminus\{v_1\},\dots,S\setminus\{v_{k+1}\}\) 全都落在 \(E\) 中。注意 \(2\)-单纯形就和三角形是一回事。

直观:什么是 \(k\)-单纯形取 \(k+1\) 个顶点,把其中任意一个去掉就得到一个 \(k\) 元子集——总共 \(k+1\) 个这样的子集。若这 \(k+1\) 个子集全都是边,这 \(k+1\) 个点就组成一个 \(k\)-单纯形。\(k=2\):取 3 个点,去掉一个剩两个点是一条边,三条边都在就是三角形。\(k=3\):取 4 个点,去掉一个剩 3 个点是一个 \(3\)-边,4 个面都在就是一个“四面体”。
2-单纯形 = 三角形(3 点 / 3 边) 3-单纯形 = 四面体(4 点 / 4 个 3-边)
\(k+1\) 个点,每“去掉一个点”得到的 \(k\) 元面都是边。三角形(\(k=2\))有 3 条边;四面体(\(k=3\))有 4 个三角形面。
定理 11.27(单纯形移除引理)[283],[284],[140]设 \(k\ge 2\),设 \(H=H(V,E)\) 是一个 \(k\)-一致超图,它至多含有 \(\delta|V|^{k+1}\) 个 \(k\)-单纯形。那么,可以从 \(H\) 中删去 \(o_{\delta\to0;k}(|V|^{k})\) 条边,得到一个无单纯形的超图(它不含任何 \(k\)-单纯形)。
怎么读这条定理(\(k=2\) 退化为旧版)当 \(k=2\) 时它就是三角形移除引理:若一个图里三角形“很少”(不超过 \(\delta|V|^3\) 个),那么删去“很少”的边(\(o(|V|^2)\) 条)就能让它一个三角形都没有。一般 \(k\):单纯形很少(\(\le\delta|V|^{k+1}\) 个),就能删去 \(o(|V|^k)\) 条边把单纯形全部消灭。关键在于“少量单纯形”可以靠“删少量边”一网打尽。

这个结果由 Erdős、Frankl 和 Rödl [87] 于 1986 年猜出,但直到很久以后才被完整证明。\(k=2\) 的情形当然可上溯到 1978 年的 [304],但即便是 \(k=3\) 的情形也直到 2002 年才出现 [110](不过此结果更早的未发表版本是存在的,例如可见 [109]);另见 [139]。完整的结果由 Rödl 与 Skokan [283]、[284](另见 [282]、[254])以及 Gowers [140] 独立且同时证明。这个结果后来在 [360] 中被略作加强,用于建立 Gauss 素数中的任意星座(constellations)。关于近期进展的综述,可见 [281]。

正如引理 10.46 推出命题 10.47,定理 11.27 推出如下的高维类比:

命题 11.28设 \(Z\) 是一个有限加法群,\(k\ge 2\),并设 \(A\subset Z^k\) 满足:\(A\) 中不含任何“直角单纯形” \[ x,\; x+re_1,\; \dots,\; x+re_k \] 其中 \(x\in Z^k\),\(r\in Z\setminus\{0\}\);这里(略微滥用记号)我们用 \(re_i\) 表示 \((0,\dots,0,r,\dots,0)\),即只有第 \(i\) 个分量非零、取值为 \(r\)。那么 \(|A|=o_{|Z|\to\infty;k}(|Z|^k)\)。
直角单纯形长什么样(\(k=2\))在 \(Z^2\) 里,取一个点 \(x=(a,b)\),再取 \(x+re_1=(a+r,b)\)(往横向走 \(r\))和 \(x+re_2=(a,b+r)\)(往纵向走 \(r\))。这三个点构成一个等腰直角三角形(两条直角边都长 \(r\))。命题说:若 \(A\subset Z^2\) 里一个这样的直角三角形都没有,则 \(A\) 只能是 \(Z^2\) 的极小一部分。这正是 Roth 定理“直角三角形版”的群论形式。
x x+r e₁ x+r e₂ r
\(k=2\) 的直角单纯形:从 \(x\) 出发,沿坐标轴 \(e_1,e_2\) 各走步长 \(r\)。命题 11.28 说不含这种图形的集合必然稀疏。

反过来,这个命题又能用来推出定理 11.24 以及 Szemerédi 定理。事实上它给出了对任意群的 Szemerédi 定理:更精确地说,对任意有限加法群 \(Z\),只要 \(|Z|\) 与 \((k-1)!\) 互素,就有 \(r_k(Z)=o_{|Z|\to\infty;k}(|Z|)\)。

11.6.3 多种超图正则性引理:困难在哪里

正如三角形移除引理可由 Szemerédi 正则性引理证明(事实上,这目前是它已知的唯一证明),单纯形移除引理也可由一个超图正则性引理来证明。然而结果表明:与普通正则性引理的情形不同——那里本质上只有一种表述方式(在等价意义下)——超图正则性引理却有好几种可供选择。

第一个这样的正则性引理由 Chung 和 Graham [58] 引入,它用顶点集 \(V\) 的一个划分来正则化 \(k\)-边集 \(E\),其证明与图的正则性引理非常相似。遗憾的是,这个引理似乎太弱,不足以轻易地推出单纯形移除引理;问题在于:此引理所赋予的正则性,不足以对超图中单纯形的数目给出准确的计数,即便在 \(3\)-一致的情形也是如此。

为什么“弱正则性”数不准单纯形这个现象与前面几节里指出的一个现象惊人地相似:Fourier 一致性不足以计数长度 \(\ge 4\) 的等差数列(哪怕长度为 3 的能数准),尽管 Fourier 分析根本没有出现在正则性引理里。直觉是:要数准“三角形/单纯形”,需要三对变量之间的关联都被控制住;只按“点”划分时,控制的是“点—点”这一层,而单纯形的数目还依赖更高层的“边—边”关联,光控制点这一层会漏掉这些关联。

解决办法(为简单起见仍以 \(3\)-一致为例)是:先用 \(2\)-边集 \(\binom{V}{2}\) 的一个划分来正则化 \(3\)-边,然后再用顶点集 \(V\)(或等价地 \(\binom{V}{1}\))的一个划分来进一步正则化这个 \(2\)-边划分(本质上是用普通的正则性引理)。然而这带来了普通图情形里没有的新问题:

  1. 第二层划分可能破坏第一层的正则性。用顶点划分细化 \(2\)-边划分时,有可能把第一层(\(3\)-边层)已经得到的正则性给搅乱。
  2. 必须决定两层正则性的相对强弱。这一点尤其重要,因为在“一个划分赋予的正则性强度”与“该划分所需的格子数”之间存在一个极其昂贵的(塔型指数式的)权衡;而人们往往需要让一层划分的正则性压倒另一层划分的格子数
  3. 计数本身。即便所有该有的正则性都已到手,仍然需要准确地数出超图中单纯形的数目。

这些问题都能解决,但需要相当的技术性。我们在这里不给出一般情形的细节,但会详细处理 \(k=2\) 的情形(即通常的正则性引理),其处理方式将允许相对容易地推广到更高的 \(k\)。我们这里的处理遵循 [360]、[359](另见 [7]、[282] 中一些密切相关的论证)。

11.6.4 把正则性引理看成“紧致 + 一致”的分解

具体来说,我们将把正则性引理视为类似于前几节中的 Koopman–von Neumann 定理:把一个函数分解成一个“紧致”分量和一个“一致”分量。事实上,我们有命题 11.18 的如下类比。

这是全节的核心思想不要把正则性引理看成“把顶点集切成几块”,而要看成对函数 \(f\)(图的邻接矩阵)的一种分解: \[ f = f_{U^\perp} + f_U. \] 其中 \(f_{U^\perp}\)(“反一致 / 紧致”分量)是结构化的——它能被一个在“格子上取常值”的简单函数 \(f_C\) 很好地逼近;\(f_U\)(“一致 / 伪随机”分量)是无结构的——它在所有矩形 \(A_1\times\cdots\times A_d\) 上的平均都极小。这正对应前几节里“几乎周期函数 + 一致函数”的分法。

我们称一个函数 \(f:V_1\times\cdots\times V_d\to\mathbb{R}^+\) 是 \(K\)-常值的(\(K\)-constant),若对每个 \(1\le i\le d\),都存在 \(V_i\) 的一个划分,将其分成 \(K\) 个格子 \(V_{i,1},\dots,V_{i,K}\)(某些格子可以为空或大小不等),使得 \(f\) 在每个乘积格子 \(V_{1,i}\times\cdots\times V_{d,j}\) 上取常值。这将类比于前几节中用到的“几乎周期性”概念。

K-常值函数:每个格子内 f 取常数 V₁,₁V₁,₂V₁,₃ V₂,₁V₂,₂V₂,₃ c₁₁ c₂₂
\(K\)-常值:两个轴各被切成 \(K\) 段,平面被切成 \(K\times K\) 个矩形格子,\(f\) 在每个格子里是一个常数。这就是“结构化”分量的样子。
命题 11.29(预备正则性引理)[359]设 \(V_1,\dots,V_d\) 为任意有限非空集合,设 \(f:V_1\times\cdots\times V_d\to\mathbb{R}^+\) 满足 \(0\le f(x_1,\dots,x_d)\le 1\),设 \(\sigma>0\),并设 \(F:\mathbb{R}^+\times\mathbb{R}^+\to\mathbb{R}^+\) 为任意函数。那么存在一个量 \(K=O_{\sigma,F}(1)\) 以及一个分解 \(f=f_{U^\perp}+f_U\),具有以下性质:
  • “反一致”分量 \(f_{U^\perp}\) 满足界 \(0\le f_{U^\perp}\le 1\)。此外存在一个 \(f_{U^\perp}\) 的 \(K\)-常值逼近 \(f_C\),满足 \(0\le f_C\le 1\) 且 \[ \|f_{U^\perp}-f_C\|_{L^2(V_1\times\cdots\times V_d)}\le\sigma; \]
  • “一致”分量 \(f_U\) 满足正则性估计 \[ \Big|\mathbb{E}_{x_1\in V_1,\dots,x_d\in V_d}\,1_{A_1\times\cdots\times A_d}\,f_U(x_1,\dots,x_d)\Big|\le\frac{1}{F(\sigma,K)} \] 对一切 \(A_1\subseteq V_1,\dots,A_d\subseteq V_d\) 成立。
为什么 \(F\) 可以“任意”是关键注意 \(F\) 是任意给定的,而且可以放在最后才挑。一致分量的小程度是 \(1/F(\sigma,K)\),其中 \(K\) 是格子数。这意味着:你可以看格子数 \(K\) 是多少,把 \(F\) 设得足够大,从而让一致分量比 \(K\) 还要“小得多”。这正是前面第 2 条困难(让一层正则性压倒另一层格子数)的解决钥匙。代价见后面的注记 11.32:格子总数会变得极其巨大。
注记 11.30对图正则性的应用只需 \(d=2\)。对更一般的 \(d\),上述引理与 Chung 和 Graham [58] 的超图正则性引理密切相关。

11.6.5 用命题 11.29 推出经典正则性引理(引理 10.42)

我们暂且假定这个命题成立,并据此建立更传统表述形式(引理 10.42)下的正则性引理。

假定命题 11.29 来证明引理 10.42.

设 \(\varepsilon,m\) 以及 \(G=G(V,E)\) 如引理中所述。我们令 \(V_1=V_2=V\),并令 \(f(x_1,x_2)\) 为 \(G\) 的关联矩阵(邻接矩阵),即 \(f(x_1,x_2)=\mathbb{I}(\{x_1,x_2\}\in E)\)。设 \(\sigma>0\) 是一个稍后选取的小数(它最终会是 \(\varepsilon^4\) 的一个小倍数),并设 \(F:\mathbb{R}^+\times\mathbb{R}^+\to\mathbb{R}^+\) 是一个稍后选取的增长函数(依赖于 \(m\))。

我们对 \(d=2\) 应用命题 11.29,得到一个分解 \(f=f_{U^\perp}+f_U\)、\(f_{U^\perp}\) 的一个 \(K\)-常值逼近 \(f_C\)(对某个 \(K=O_{\sigma,F}(1)\)),以及 \(V\) 的两个划分 \(V_{1,1},\dots,V_{1,K}\) 与 \(V_{2,1},\dots,V_{2,K}\),使 \(f_C\) 关于它们取常值。我们可取其公共加细 \(V_{K(i-1)+j}:=V_{1,i}\cap V_{2,j}\)(\(i,j\in[1,K]\)),得到一个统一的划分 \(V_1,\dots,V_{K^2}\),使 \(f_C\) 在每个乘积 \(V_i\times V_j\) 上取常值。

分步:把两套划分合并成一套
  1. 命题给出的 \(f_C\) 在“第一坐标用划分 \(\{V_{1,i}\}\)、第二坐标用划分 \(\{V_{2,j}\}\)”时取常值。两套划分不一定相同。
  2. 取公共加细 \(V_{1,i}\cap V_{2,j}\):把同一个 \(V\) 同时按两套切法叠起来,得到至多 \(K^2\) 块。在这套更细的划分里,\(f_C\) 在任意 \(V_i\times V_j\) 上都是常数。
  3. 这样就把“关于两套划分常值”整理成了“关于一套划分常值”,方便后面统一讨论。

接下来,令 \(N\) 为小于 \(\sigma|V|/(100mK^2)\) 的最大整数(我们假定 \(|V|\) 关于 \(m,K,\sigma\) 足够大,使 \(N\ge 1\)),并把每个格子 \(V_j\) 任意地划分成若干个大小为 \(N\) 的不相交子格子,外加一个大小至多为 \(N\) 的误差。注意所有这些误差合在一起,构成一个大小至多 \(K^2 N\le \sigma|V|/(100m)\) 的例外集 \(V_*\),而其余的子格子给出剩余集 \(V\setminus V_*\) 的一个划分 \(V_1,\dots,V_k\),每个 \(V_j\) 的基数恰为 \(N\)。于是我们有 \[ |V|-\frac{\sigma|V|}{100m}\le kN\le|V|, \] 因此 \(k\ge m\) 且 \(k=\Theta(|V|/N)=\Theta(mK^2/\sigma)\)。

为什么要把格子再切成等大小的小块命题给的格子 \(V_j\) 大小参差不齐,但引理 10.42 要求一个近一致划分(各块几乎一样大)。所以把每块按固定尺寸 \(N\) 切成等大小的小块,切剩的零头全扔进例外集 \(V_*\)。由于 \(N\) 取得很小(约为 \(|V|\) 的 \(\sigma/(100mK^2)\) 倍),零头总量 \(V_*\) 也很小,可控。块数 \(k\approx|V|/N\) 因此够大(\(\ge m\)),满足引理要求。

划分 \(V_1,\dots,V_k,V_*\) 还不完全是第 10.6 节意义下的近一致划分,因为有这个例外集 \(V_*\)。但我们可以把 \(V_*\) 任意地拆成 \(k\) 个近一致的小片并分配到各 \(V_j\) 上,把每个 \(V_j\) 替换成稍大的集合 \(V_j'\),使 \(V_1',\dots,V_k'\) 成为 \(V\) 的一个近一致划分,并且 \[ |V_j'\setminus V_j|=O\!\left(\frac{|V_*|}{k}+1\right)=O\!\left(\frac{K^2N}{mK^2/\sigma}+1\right)=O(\sigma N), \] 这里我们再次假定 \(|V|\) 关于 \(m,K,\sigma\) 适当地大。于是 \(V_j'\) 仅比 \(V_j\) 大了 \(1+O(\sigma)\) 倍。

现在我们来考察一对 \(V_i,V_j\) 的 \(\varepsilon\)-正则性。设 \(X\subset V_i\),\(Y\subset V_j\) 满足 \(|X|\ge\varepsilon|V_i|\),\(|Y|\ge\varepsilon|V_j|\),特别地 \(|X|,|Y|\ge\varepsilon N\)。我们想看是否有 \[ |d(X,Y)-d(V_i,V_j)|\le\varepsilon; \] 若我们能证明 \[ \left|\mathbb{E}_{x_1\in V_i,x_2\in V_j}\,f(x_1,x_2)\Big(1_X(x_1)1_Y(x_2)-\frac{|X|}{|V_i|}\frac{|Y|}{|V_j|}\Big)\right|\le\varepsilon^3 \tag{11.33} \] 对任意子集 \(X\subset V_i,Y\subset V_j\)(基数无下界要求)成立,则上式即可推出。

(11.33) 在说什么\(d(X,Y)\) 是 \(X,Y\) 之间的边密度。式 (11.33) 是说:在格子 \(V_i\times V_j\) 上,\(f\)(即“是否成边”)与“随机猜测的密度 \(\frac{|X|}{|V_i|}\frac{|Y|}{|V_j|}\)”之间的偏差非常小。换句话说,\(V_i,V_j\) 之间的边分布得很“均匀”——这正是 \(\varepsilon\)-正则的定义。下面的目标就是把这个偏差用三个分量 \(f_C,f_U,f_{U^\perp}-f_C\) 分别估出来。

我们先做几步预备约化。注意,可以把 \(X\) 限制到 \(V_i'\)、\(Y\) 限制到 \(V_j'\),并把 \(x_1,x_2\) 的取值范围分别换成 \(V_i'\) 和 \(V_j'\),左端只产生 \(O(\sigma)\) 的误差。类似地,可以把 \(|X|/|V_i|\) 与 \(|Y|/|V_j|\) 换成 \(|X|/N\) 与 \(|Y|/N\),同样只接受 \(O(\sigma)\) 的误差。于是 (11.33) 的左端可估为 \[ \left|\mathbb{E}_{x_1\in V_i,x_2\in V_j}\,f(x_1,x_2)\Big(1_X(x_1)1_Y(x_2)-\frac{|X|}{N}\frac{|Y|}{N}\Big)\right|+O(\sigma). \]

现在,由于 \(f_C\) 在 \(V_i\times V_j\) 上取常值,我们有 \[ \mathbb{E}_{x_1\in V_i,x_2\in V_j}\,f_C(x_1,x_2)\Big(1_X(x_1)1_Y(x_2)-\frac{|X|}{N}\frac{|Y|}{N}\Big)=0. \]

为什么 \(f_C\) 那一项恰好为零因为 \(f_C\) 在 \(V_i\times V_j\) 上是常数 \(c\),可提到平均外面:\(\mathbb{E}\,c\,(1_X 1_Y-\frac{|X||Y|}{N^2})=c\big(\mathbb{E}\,1_X 1_Y-\frac{|X||Y|}{N^2}\big)\)。而 \(\mathbb{E}_{x_1\in V_i,x_2\in V_j}1_X(x_1)1_Y(x_2)=\frac{|X|}{N}\cdot\frac{|Y|}{N}\)(\(x_1,x_2\) 独立均匀取),两项正好抵消。结构化的部分天生就是均匀的,对正则性没有贡献。

其次,由 \(f_U\) 的一致性,我们有 \[ \left|\mathbb{E}_{x_1\in V_i,x_2\in V_j}\,f_U(x_1,x_2)\Big(1_X(x_1)1_Y(x_2)-\frac{|X|}{N}\frac{|Y|}{N}\Big)\right|\le\frac{|V|^2}{N^2\,F(\sigma,K)}=O\!\left(\frac{m^2K^4}{\sigma^2\,F(\sigma,K)}\right). \] 通过适当选取 \(F\)(即令 \(F(\sigma,K)\) 足够大),我们可以确保右端是 \(O(\sigma)\)。

为什么把范围从 \(V\) 缩到 \(V_i\) 会乘上 \(|V|^2/N^2\)命题给出的一致性是在整个 \(V\times V\) 上的:\(|\mathbb{E}_{V\times V}1_{A_1\times A_2}f_U|\le 1/F\)。要换算到子格子 \(V_i\times V_j\) 上,需要乘以放大倍数 \(\frac{|V|}{|V_i|}\cdot\frac{|V|}{|V_j|}=\frac{|V|^2}{N^2}\)。这个倍数虽大(约 \(m^2K^4/\sigma^2\)),但 \(F\) 是我们事后才挑的,把 \(F\) 设得远大于它,整体就压回到 \(O(\sigma)\)。这就是“\(F\) 可任意”这件事真正起作用的地方。

把以上各项放在一起,(11.33) 的左端可被界为 \[ \left|\mathbb{E}_{x_1\in V_i,x_2\in V_j}\,(f_{U^\perp}-f_C)(x_1,x_2)\Big(1_X(x_1)1_Y(x_2)-\frac{|X|}{N}\frac{|Y|}{N}\Big)\right|+O(\sigma). \] 由三角不等式,这小于 \[ 2\,\mathbb{E}_{x_1\in V_i,x_2\in V_j}\,|(f_{U^\perp}-f_C)(x_1,x_2)|+O(\sigma). \]

分解到此处的逻辑把 \(f=f_C+(f_{U^\perp}-f_C)+f_U\) 代入:
  • \(f_C\) 那项 \(=0\)(恰好均匀);
  • \(f_U\) 那项 \(=O(\sigma)\)(靠把 \(F\) 调大);
  • 剩下只需控制 \(f_{U^\perp}-f_C\) 那项——而它在 \(L^2\) 里很小(\(\le\sigma\)),用三角不等式把括号里的因子放成 \(\le 2\),剩下就是它的 \(L^1\) 平均。
三块各个击破,这正是“紧致 + 一致”分解的威力。

现在由命题 11.29 与 Cauchy–Schwarz 不等式,我们有 \[ \mathbb{E}_{x_1\in V,x_2\in V}\,|(f_{U^\perp}-f_C)(x_1,x_2)|\le\sigma, \] 削去例外集 \(V_*\) 后,这给出 \[ \mathbb{E}_{x_1\in V_1\cup\cdots\cup V_k,\,x_2\in V_1\cup\cdots\cup V_k}\,|(f_{U^\perp}-f_C)(x_1,x_2)|=O(\sigma). \] 由 Markov 不等式(以及各 \(V_j\) 大小一致),我们断定 \[ \mathbb{E}_{x_1\in V_i,x_2\in V_j}\,|(f_{U^\perp}-f_C)(x_1,x_2)|=O(\sigma/\varepsilon) \] 对除了至多 \(\varepsilon\) 比例的格子对 \((i,j)\) 之外的所有格子对成立。在这种情形下,我们得到 (11.33) 左端的界 \(O(\sigma/\varepsilon)\);只要取 \(\sigma\) 等于 \(\varepsilon^?\) 的一个小倍数,这就是可接受的。最后,界 \(K=O_{\sigma,F}(1)\) 现在蕴含一个界 \(k=O_{\varepsilon,m}(1)\),正如所需。这就建立了该引理(取划分 \(V_1,\dots,V_k\))。

Markov 不等式这一步:把“平均小”变成“几乎处处小”我们只知道 \(|f_{U^\perp}-f_C|\) 在整体上的平均是 \(O(\sigma)\)。但正则性要求每一对格子都好。Markov 不等式说:一个非负量若整体平均小,则它“偏大”的比例必然很小——具体地,平均超过 \(O(\sigma/\varepsilon)\) 的格子对最多占 \(\varepsilon\) 比例。于是“坏格子对”不超过 \(\varepsilon\) 比例,其余全是 \(\varepsilon\)-正则的——这恰是正则性引理允许的少量例外。

注意,在上面的证明中只用到了一个非常特定的函数 \(F(\cdot)\) 的选取。然而,能够任意地设定函数 \(F\) 这件事,在超图理论中变得极其重要,因为它是调和前面提到的那个问题(需要让一个划分给出的正则性控制压倒另一个划分的格子数,同时又不彻底失去对所有误差项的掌控)的最简单办法。当然,为此付出的代价是:论证结束时格子的总数会变得极其巨大。

11.6.6 命题 11.29 的证明:能量增量算法

我们现在开始命题 11.29 的证明。读者不妨把注意力集中在 \(d=2\) 的情形以求熟悉,尽管一般的 \(d\) 情形并无不同。我们将把 \(V_i\) 的划分 \(V_{i,1},\dots,V_{i,K}\) 重新解释为 \(V_i\) 上的 \(\sigma\)-代数 \(\mathcal{B}_i\)(\(1\le i\le d\)),它在 \(V_1\times\cdots\times V_d\) 上诱导出一个更进一步的 \(\sigma\)-代数 \(\mathcal{B}_1\otimes\cdots\otimes\mathcal{B}_d\),由笛卡尔乘积 \(V_{1,i_1}\times\cdots\times V_{d,i_d}\) 生成。特别注意,函数 \(f_C:=\mathbb{E}(f\mid\mathcal{B}_1\otimes\cdots\otimes\mathcal{B}_d)\) 将是一个取值于 \([0,1]\) 之间的 \(K\)-常值函数。分解 \(f=f_{U^\perp}+f_U\) 将由 \(f_{U^\perp}:=\mathbb{E}(f\mid\mathcal{B}_1'\otimes\cdots\otimes\mathcal{B}_d')\) 与 \(f_U:=f-f_{U^\perp}\) 给出,其中 \(\mathcal{B}_i'\) 是比 \(\mathcal{B}_i\) 略细的 \(\sigma\)-代数。\(\mathcal{B}_i\) 和 \(\mathcal{B}_i'\) 的确切选取将由一个能量增量算法决定,它与证明命题 10.36 时所用的算法非常相似。

把“划分”翻译成“条件期望”一个划分对应一个 \(\sigma\)-代数;“\(f\) 在格子上的平均值”这个 \(K\)-常值函数,正是条件期望 \(\mathbb{E}(f\mid\mathcal{B})\)。粗划分 \(\mathcal{B}\) 给出粗逼近 \(f_C\),细划分 \(\mathcal{B}'\) 给出更准的逼近 \(f_{U^\perp}\),剩下的 \(f_U=f-f_{U^\perp}\) 就是“连最细划分也抓不住”的伪随机部分。这套语言让我们能用概率论的工具(Pythagoras 定理、Cauchy–Schwarz)。

我们转入细节。固定 \(V_1,\dots,V_d\) 与函数 \(f:V_1\times\cdots\times V_d\to\mathbb{R}^+\)。给定 \(V_i\) 的任意 \(\sigma\)-代数 \(\mathcal{B}_1,\dots,\mathcal{B}_d\),我们定义能量 \(\mathcal{E}_f(\mathcal{B}_1\otimes\cdots\otimes\mathcal{B}_d)\) 为 \[ \mathcal{E}_f(\mathcal{B}_1\otimes\cdots\otimes\mathcal{B}_d):=\big\|\mathbb{E}(f\mid\mathcal{B}_1\otimes\cdots\otimes\mathcal{B}_d)\big\|_{L^2(V_1\times\cdots\times V_d)}^2, \] 于是能量取值在 \(0\) 与 \(1\) 之间,且越细的 \(\sigma\)-代数能量越高。正如命题 10.36 依赖于引理 10.40,命题 11.29 将依赖于以下类比。

能量为什么“越细越高”能量 \(=\|\mathbb{E}(f\mid\mathcal{B})\|_{L^2}^2\) 是逼近 \(f_C\) 的“平方长度”。把划分加细相当于在 \(L^2\) 中把 \(f\) 投影到一个更大的子空间,投影只会变长不会变短(Pythagoras)。能量被 \(\|f\|_{L^2}^2\le 1\) 卡住封顶,所以加细带来的能量增量总和有限——这保证了下面的算法必然停机。
引理 11.31(缺乏一致性蕴含能量增量)设 \(\mu>0\) 与 \(K\ge 1\),并对每个 \(1\le i\le d\),设 \(\mathcal{B}_i\) 为 \(V_i\) 上至多含 \(K\) 个原子的 \(\sigma\)-代数,使得 \[ \Big|\mathbb{E}_{x_1\in V_1,\dots,x_d\in V_d}\,1_{A_1\times\cdots\times A_d}\big(f-\mathbb{E}(f\mid\mathcal{B}_1\otimes\cdots\otimes\mathcal{B}_d)\big)(x_1,\dots,x_d)\Big|\ge\mu \] 对某些 \(A_1\subseteq V_1,\dots,A_d\subseteq V_d\) 成立。那么对每个 \(1\le i\le d\),存在比 \(\mathcal{B}_i\) 更细、至多含 \(2K\) 个原子的 \(\sigma\)-代数 \(\mathcal{B}_i'\),使得 \[ \mathcal{E}_f(\mathcal{B}_1'\otimes\cdots\otimes\mathcal{B}_d')\ge\mathcal{E}_f(\mathcal{B}_1\otimes\cdots\otimes\mathcal{B}_d)+\mu^2. \]
证明.对 \(1\le i\le d\),令 \(\mathcal{B}_i'\) 为由 \(\mathcal{B}_i\) 与 \(A_i\) 生成的 \(\sigma\)-代数。观察到 \[ \mathbb{E}_{x_1\in V_1,\dots,x_d\in V_d}\,1_{A_1\times\cdots\times A_d}\big(f-\mathbb{E}(f\mid\mathcal{B}_1'\otimes\cdots\otimes\mathcal{B}_d')\big)(x_1,\dots,x_d)=0, \] 因为 \(A_1\times\cdots\times A_d\) 是 \(\mathcal{B}_1'\otimes\cdots\otimes\mathcal{B}_d'\) 中若干原子的并,而在每个原子上 \(f-\mathbb{E}(f\mid\mathcal{B}_1'\otimes\cdots\otimes\mathcal{B}_d')\) 的均值为零。把这一式从假设中减去,我们得到 \[ \Big|\mathbb{E}_{x_1,\dots,x_d}\,1_{A_1\times\cdots\times A_d}\big(\mathbb{E}(f\mid\mathcal{B}_1'\otimes\cdots\otimes\mathcal{B}_d')-\mathbb{E}(f\mid\mathcal{B}_1\otimes\cdots\otimes\mathcal{B}_d)\big)\Big|\ge\mu, \] 于是由 Cauchy–Schwarz 不等式, \[ \big\|\mathbb{E}(f\mid\mathcal{B}_1'\otimes\cdots\otimes\mathcal{B}_d')-\mathbb{E}(f\mid\mathcal{B}_1\otimes\cdots\otimes\mathcal{B}_d)\big\|_{L^2(V_1\times\cdots\times V_d)}^2\ge\mu^2. \] 结论随即由 Pythagoras 定理得出。
这条引理的核心机制它在说:只要还能找到一个“坏矩形” \(A_1\times\cdots\times A_d\)(在它上面 \(f\) 偏离当前逼近达 \(\mu\)),就把这个矩形的信息加进划分里,能量就涨 \(\mu^2\)。
  1. 把 \(A_i\) 并进 \(\mathcal{B}_i\),原子数最多翻倍(\(K\to 2K\))。
  2. 在更细的代数下,矩形 \(A_1\times\cdots\times A_d\) 变成整原子的并,逼近误差在它上面均值归零。
  3. “能抓住一个 \(\mu\) 级偏差”等价于“两个逼近相差 \(\mu^2\) 的能量”(Pythagoras:\(\|f-f_C\|^2=\|f-f_C'\|^2+\|f_C'-f_C\|^2\))。
由于能量封顶为 \(1\),这种 \(+\mu^2\) 的涨法不能无限进行,算法必然停。
命题 11.29 的证明.这将与命题 10.36 几乎完全相同。我们通过以下双重循环算法,为每个 \(1\le i\le d\) 构造一对嵌套的 \(\sigma\)-代数 \(\mathcal{B}_i\subset\mathcal{B}_i'\)(在 \(V_i\) 上)以及一个整数 \(K\ge 1\)。
  • 第 0 步。对每个 \(i\),初始化 \(\mathcal{B}_i=\{\varnothing,V_i\}\)。
  • 第 1 步。令 \(K\) 为使每个 \(\mathcal{B}_i\) 至多有 \(K\) 个原子的最小整数。对每个 \(i\) 令 \(\mathcal{B}_i':=\mathcal{B}_i\);于是平凡地有 \[ \mathcal{E}_f(\mathcal{B}_1'\otimes\cdots\otimes\mathcal{B}_d')\le\mathcal{E}_f(\mathcal{B}_1\otimes\cdots\otimes\mathcal{B}_d)+\sigma^2. \]
  • 第 2 步。若 \[ \Big|\mathbb{E}_{x_1,\dots,x_d}\,1_{A_1\times\cdots\times A_d}\big(f-\mathbb{E}(f\mid\mathcal{B}_1'\otimes\cdots\otimes\mathcal{B}_d')\big)\Big|\le\frac{1}{F(\sigma,K)} \] 对一切 \(A_1\subseteq V_1,\dots,A_d\subseteq V_d\) 成立,则终止算法。若不然,则可应用引理 11.31,为每个 \(1\le i\le d\) 得到一个新的 \(\sigma\)-代数 \(\mathcal{B}_i'\),其原子数至多为原来 \(\mathcal{B}_i'\) 的两倍,使得 \[ \mathcal{E}_f(\mathcal{B}_1'\otimes\cdots\otimes\mathcal{B}_d')\ge\mathcal{E}_f(\mathcal{B}_1'\otimes\cdots\otimes\mathcal{B}_d')+\frac{1}{F(\sigma,K)^2}. \]
  • 第 3 步。若 \[ \mathcal{E}_f(\mathcal{B}_1'\otimes\cdots\otimes\mathcal{B}_d')\le\mathcal{E}_f(\mathcal{B}_1\otimes\cdots\otimes\mathcal{B}_d)+\sigma^2, \] 则令 \(\mathcal{B}':=\mathcal{B}'\) 并返回第 2 步。若反之有 \[ \mathcal{E}_f(\mathcal{B}_1'\otimes\cdots\otimes\mathcal{B}_d')>\mathcal{E}_f(\mathcal{B}_1\otimes\cdots\otimes\mathcal{B}_d)+\sigma^2, \] 则令 \(\mathcal{B}:=\mathcal{B}'\) 并返回第 1 步。
算法一旦终止,我们便令 \(f_{U^\perp}:=\mathbb{E}(f\mid\mathcal{B}_1'\otimes\cdots\otimes\mathcal{B}_d')\),\(f_C:=\mathbb{E}(f\mid\mathcal{B}_1\otimes\cdots\otimes\mathcal{B}_d)\),\(f_U:=f-f_{U^\perp}\)。关于算法确实在有限时间内终止、并给出所需性质的验证,与命题 10.36 中的类似论证几乎完全相同,留作习题给读者。
第0步 初始化 B 第1步 设 B' := B定 K = 原子数 第2步 一致吗?否→引理11.31细化B' 第3步 能量涨过σ²?否→回第2步 终止:输出分解 是(一致)→终止 否→第2步 是→第1步
双重循环:内循环(第2↔3步)不断加细 \(\mathcal{B}'\) 直到 \(f_U\) 一致或能量涨满 \(\sigma^2\);外循环(回第1步)把 \(\mathcal{B}\) 也跟上。能量封顶为 1,两层循环都只能进行有限次。
注记 11.32对上述论证更仔细的考察表明:每当我们从第 3 步返回第 1 步时,\(\sigma\)-代数 \(\mathcal{B}\) 中的原子数 \(K\) 可以从 \(K\) 增大到多达约 \(K\cdot 2^{F(\sigma,K)^2}\) 那么多。由于这一步可以发生多达 \(1/\sigma^2\) 次,我们看到最终的复杂度极有可能是 \(K\) 的塔型指数,甚至更糟(除非我们把 \(F\) 限制为对数增长之类,关于这类引理的讨论见 [239])。正如第 10.6 节所述,这种塔型指数行为是不可避免的,见 [136]。
为什么会塔型爆炸内循环每跑一次(第2步细化)原子数最多翻倍,而内循环要跑到能量涨满 \(\sigma^2\),每次只涨 \(1/F^2\),所以可跑约 \(\sigma^2 F^2\) 次,原子数被 \(2^{\sim F^2}\) 倍放大。外循环又可跑 \(1/\sigma^2\) 次,每次都让 \(K\) 再过一遍这种指数放大——一层套一层,就得到“指数的指数的……”即塔型指数。这就是前面说的“格子总数极其巨大”的代价。

11.6.7 推广到超图:3-一致情形

现在我们讨论正则性引理向超图的推广。为简化论述,我们只考虑 \(3\)-一致的情形。首先表明,对命题 11.29 证明的一个小改动可以给出如下变体:其中我们得到强得多的一致性控制(关于任意的 \(2\)-边集,而不是顶点集),但代价是一个更弱、更复杂的 \(K\)-常值概念。更精确地说,我们称一个函数 \(f:V_1\times V_2\times V_3\to\mathbb{R}^+\) 是 \((K,2)\)-常值的,若存在划分 \[ V_i\times V_j=E_{ij,1}\cup\cdots\cup E_{ij,K}\qquad(ij=12,23,31), \] 使得 \(f\) 在每个集合 \[ \{(x_1,x_2,x_3)\in V_1\times V_2\times V_3:(x_i,x_j)\in E_{ij,a_{ij}}\text{ 对一切 }ij=12,23,31\} \] 上取常值,其中 \(a_{12},a_{23},a_{31}\in[1,K]\) 任意。

\((K,2)\)-常值 vs \(K\)-常值:差别在哪普通 \(K\)-常值是按“”分类:\(f(x_1,x_2,x_3)\) 的值只看每个 \(x_i\) 落在哪个顶点格子里。\((K,2)\)-常值升了一级,按“”分类:值取决于三对 \((x_1,x_2),(x_2,x_3),(x_3,x_1)\) 各自落在哪个 \(2\)-边格子 \(E_{ij,a}\) 里。这正对应前面说的解决方案——把 \(3\)-边用 \(2\)-边划分来正则化,从而抓住“边—边”这一层的关联。
3-边 f(x₁,x₂,x₃)三变量函数 2-边划分E_ij,a 双变量 顶点划分V_i,b 单变量 命题11.33 命题11.29 逐层逼近:三变量 → O(K) 个双变量 → O(K) 个单变量(各加可控误差)
\(3\)-一致超图正则化的两级结构:先用 \(2\)-边划分逼近 \(3\)-边函数,再用顶点划分逼近每个 \(2\)-边指示函数。
命题 11.33(预备超图正则性引理)[360]设 \(V_1,V_2,V_3\) 为任意有限非空集合,设 \(f:V_1\times V_2\times V_3\to\mathbb{R}^+\) 满足 \(0\le f(x_1,x_2,x_3)\le 1\),设 \(\sigma>0\),并设 \(F:\mathbb{R}^+\times\mathbb{R}^+\to\mathbb{R}^+\) 为任意函数。那么存在一个量 \(K=O_{\sigma,F}(1)\) 以及一个分解 \(f=f_{U^\perp}+f_U\),具有以下性质:
  • “反一致”分量 \(f_{U^\perp}\) 满足界 \(0\le f_{U^\perp}\le 1\)。此外存在 \(f_{U^\perp}\) 的一个 \((K,2)\)-常值逼近 \(f_C\),满足 \(0\le f_C\le 1\) 且 \(\|f_{U^\perp}-f_C\|_{L^2(V_1\times V_2\times V_3)}\le\sigma\);
  • “一致”分量 \(f_U\) 满足正则性估计 \[ \Big|\mathbb{E}_{x_1\in V_1,x_2\in V_2,x_3\in V_3}\,1_{A_{12}}(x_1,x_2)1_{A_{23}}(x_2,x_3)1_{A_{31}}(x_3,x_1)\,f_U(x_1,x_2,x_3)\Big|\le\frac{1}{F(\sigma,K)} \] 对一切 \(A_{12}\subseteq V_1\times V_2,\;A_{23}\subseteq V_2\times V_3,\;A_{31}\subseteq V_3\times V_1\) 成立。

命题 11.33 的证明与命题 11.29 的几乎相同,只是记号负担稍重。我们将它留作习题。

由此可以推出一个全强度的 \(3\)-一致超图正则性引理。这个引理的确切表述相当繁杂、也太不具启发性,不宜在此给出(见 [139]、[283]、[284]、[282]、[360]),但我们将通过非正式地勾勒其证明(遵循 [360])来间接描述它的表述。

证明思路勾勒(如何把两级正则化拼起来)
  1. 给定函数 \(f:V_1\times V_2\times V_3\to\mathbb{R}^+\)、初始误差容限 \(\sigma\) 和增长函数 \(F\),我们先决定一个快得多的增长函数 \(F_{\text{fast}}\)(其确切选取留待最后)。
  2. 用这个快增长函数 \(F_{\text{fast}}\) 应用命题 11.33,得到主分解 \(f=f_{U^\perp}+f_U\),其中 \(f_U\) 关于 \(2\)-边划分极其正则(分母里享有快函数 \(F_{\text{fast}}\)),而 \(f_{U^\perp}\) 可用一个 \((K,2)\)-常值函数 \(f_C\) 逼近,\(K\) 有某个(相当糟糕的)上界。这个 \(K\)-常值函数可用 \(V_i\times V_j\)(\(ij=12,23,31\))中的 \(O(K)\) 个边集 \(E_{ij,a}\) 来描述。
  3. 然后对这些边集的每一个的指示函数 \(1_{E_{ij,a}}:V_i\times V_j\to\mathbb{R}^+\) 应用命题 11.29,使用原来的函数 \(F\),并把误差容限 \(\sigma\) 换成更小的值,例如 \(1/F(\sigma,K)\)。(严格说来,这里需要命题 11.29 的一个“多函数”或“向量值”版本,用单个划分同时正则化多个函数,但这不难搭建。)这给出一个新参数 \(K':=O_{K,F,\sigma}(1)\),使我们对每个指示函数 \(1_{E_{ij,a}}\) 有次分解:一个 \(K'\)-常值主项加上一些可控误差。
  4. 最后,我们选取 \(F_{\text{fast}}\) 使 \(F_{\text{fast}}(\sigma,K)\) 压倒由 \(K'\) 产生的任何表达式;这基本上意味着 \(F_{\text{fast}}\) 是 \(F\) 的一个塔型迭代版本,从而确保主分解中的误差项 \(f_U\) 也是可控的。

因此总结一下(并略去关于各参数相对大小的微妙问题):我们从一个三变量函数 \(f(x_1,x_2,x_3)\) 出发,把它逼近成 \(O(K)\) 个双变量函数 \(1_{E_{ij,a}}(x_i,x_j)\) 的组合,加上可控误差;然后我们再把每个 \(1_{E_{ij,a}}(x_i,x_j)\) 逼近成 \(O(K')\) 个单变量函数(即顶点类的指示函数)的组合,同样加上可控误差。在上述精心选取的参数相对大小下,原函数 \(f\) 的这一正则化适用于诸如“准确计数一个 \(3\)-一致超图中 \(3\)-单纯形的数目”之类的任务,其方式在精神上类似于(但比之冗长一些)引理 10.46 的证明。这又最终导致定理 11.27 的证明,而后者又蕴含 Szemerédi 定理以及若干其他推论。

回顾全局:这条证明链是怎么搭起来的
  1. 把 \(3\)-边函数 \(f\) 分解为“关于 \(2\)-边极一致的 \(f_U\)” + “能用 \((K,2)\)-常值 \(f_C\) 逼近的 \(f_{U^\perp}\)”(命题 11.33)。
  2. 再把描述 \(f_C\) 的每个 \(2\)-边指示函数,用顶点划分进一步正则化(命题 11.29,普通正则性)。
  3. 用塔型快增长 \(F_{\text{fast}}\) 让上层一致性压倒下层格子数,使所有误差可控。
  4. 正则化到位后准确计数 \(3\)-单纯形 → 单纯形移除引理(定理 11.27)→ 命题 11.28 → Szemerédi 定理。
每一层都重复“紧致 + 一致”的分解思想,只是把“点”换成“边”,把控制强度逐层调到塔型大。

11.6.8 习题

习题
  1. 11.6.1 由引理 10.46 推出命题 11.28。(提示:\(k\)-一致超图的顶点集 \(V\) 应当由坐标超平面,如 \(\{(x_1,\dots,x_k):x_i=\text{常数}\}\),以及对角超平面 \(\{(x_1,\dots,x_k):x_1+\cdots+x_k=\text{常数}\}\) 组成。)
  2. 11.6.2 利用命题 11.28 推出定理 11.24。
  3. 11.6.3 利用命题 11.28 推出:只要 \(|Z|\) 与 \((k-1)!\) 互素,就有 \(r_k(Z)=o_{|Z|\to\infty;k}(|Z|)\)。
  4. 11.6.4 [139] 设 \(V,W\) 是两个不相交的集合,各有 \(n\) 个顶点。我们把 \(V\) 中的顶点随机、独立地染成红色或蓝色,红蓝各以等概率。再设我们也把 \(W\) 中的边(即 \(\binom{W}{2}\) 的元素)随机、独立地染成红色或蓝色。设 \(H=H(V\cup W,E)\) 为这样的 \(3\)-一致超图:其边集由所有满足“\(v\in V\) 且 \(\{w,w'\}\in\binom{W}{2}\) 同色”的三元组 \(\{v,w,w'\}\),连同所有形如 \(\{v,v',w\}\)(\(\{v,v'\}\in\binom{V}{2}\),\(w\in W\))的三元组组成。再定义一个与之竞争的 \(3\)-一致超图 \(H'=H(V\cup W,E')\),其中 \(E'\) 由所有形如 \(\{v,v',w\}\)(\(\{v,v'\}\in\binom{V}{2}\),\(w\in W\))的三元组,以及每个形如 \(\{v,w,w'\}\)(\(v\in V\),\(\{w,w'\}\in\binom{W}{2}\))的三元组——后者各以独立概率 \(1/2\) 属于 \(E'\)——组成。证明这两个超图在“按顶点划分”的弱正则性意义下统计上难以区分,但 \(3\)-单纯形的数目却相差悬殊(这说明仅靠顶点层的弱正则性无法准确计数单纯形)。
习题 11.6.4 想说明什么这是 Gowers 给出的构造,目的正是印证 11.6.3 节里的论断:Chung–Graham 那种“只按顶点划分”的弱超图正则性不足以数准单纯形。两个超图 \(H,H'\) 在顶点层看起来一模一样(同样的边密度统计),但一个含大量 \(3\)-单纯形、另一个几乎没有——这就证明了必须升级到“按 \(2\)-边划分”的正则性(命题 11.33)。

返回 全书目录