Tao–Vu · 加性组合学 · 第 11 章 k>3 的 Szemerédi 定理

11.6　超图方法The hypergraph approach

本页为译文 + 讲解合一：黑色正文为忠实翻译；彩色框（目标 / 例 / 定义 / 定理 / 证明 / 分步推演）与配图是为帮助理解而加的详解，逐步推演、举例、画图，不用比喻。本节技术性很强，讲解会尽量把每一步的动机说清楚。

本节目标第 10.6 节里，正则性引理 → 三角形移除引理 → Roth 定理这条链子证明了长度为 3 的等差数列的存在性。本节要回答：能不能把这条链子推广到任意长度 \(k\)？答案是肯定的，但代价是必须把“图”升级为“超图”（hypergraph）。本节先讲清超图、单纯形、单纯形移除引理这一套语言，然后用一个全新的、概率论味道很重的视角（把函数分解成“紧致部分 + 一致部分”）重新证明普通的图正则性引理，并说明它如何向高维推广。

11.6.1　从图到超图：为什么需要升级

在第 10.6 节中，我们看到 Szemerédi 正则性引理导出了一个图论中的结果，即三角形移除引理（triangle removal lemma），而后者又推出了 Roth 定理（以及它向直角三角形的一个推广）。于是很自然地要问：类似的方法能否证明一般 \(k\) 的 Szemerédi 定理？事实证明可以，但需要我们处理超图（也叫集合系统，set systems）而不是图。

我们需要一些记号。若 \(A\) 是一个有限集合，\(k\ge 0\)，我们用 \(\binom{A}{k}\) 表示 \(A\) 的所有 \(k\) 元子集构成的集族。定义一个 \(k\)-一致超图（\(k\)-uniform hypergraph）\(H=H(V,E)\) 为任意一对 \((V,E)\)，其中 \(V\) 是一个有限集合（顶点集），而 \(E\) 是 \(\binom{V}{k}\) 的一个子集（边集）。于是一个 \(2\)-一致超图就和普通的图是一回事。

定义（\(k\)-一致超图）顶点集 \(V\) 是有限集；每条“边”不再是两个点，而是 \(V\) 的一个 \(k\) 元子集。\(k=2\) 时每条边是两个点，就是普通图；\(k=3\) 时每条边是三个点。

普通图的边连两个点；\(3\)-一致超图的“边”是三个点构成的三元组（图中阴影面）。一般 \(k\)-一致超图的边是 \(k\) 个点。

11.6.2　单纯形与单纯形移除引理

三角形移除引理（引理 10.46）可以如下推广。若 \(H=H(V,E)\) 是一个 \(k\)-一致超图，我们定义 \(H\) 中的一个 \(k\)-单纯形（\(k\)-simplex）为任意一组 \(k+1\) 个顶点 \(S=\{v_1,\dots,v_{k+1}\}\subset V\)，使得 \(\binom{S}{k}\subset E\)，即 \(k+1\) 条边 \(S\setminus\{v_1\},\dots,S\setminus\{v_{k+1}\}\) 全都落在 \(E\) 中。注意 \(2\)-单纯形就和三角形是一回事。

直观：什么是 \(k\)-单纯形取 \(k+1\) 个顶点，把其中任意一个去掉就得到一个 \(k\) 元子集——总共 \(k+1\) 个这样的子集。若这 \(k+1\) 个子集全都是边，这 \(k+1\) 个点就组成一个 \(k\)-单纯形。\(k=2\)：取 3 个点，去掉一个剩两个点是一条边，三条边都在就是三角形。\(k=3\)：取 4 个点，去掉一个剩 3 个点是一个 \(3\)-边，4 个面都在就是一个“四面体”。

\(k+1\) 个点，每“去掉一个点”得到的 \(k\) 元面都是边。三角形（\(k=2\)）有 3 条边；四面体（\(k=3\)）有 4 个三角形面。

定理 11.27（单纯形移除引理）[283],[284],[140]设 \(k\ge 2\)，设 \(H=H(V,E)\) 是一个 \(k\)-一致超图，它至多含有 \(\delta|V|^{k+1}\) 个 \(k\)-单纯形。那么，可以从 \(H\) 中删去 \(o_{\delta\to0;k}(|V|^{k})\) 条边，得到一个无单纯形的超图（它不含任何 \(k\)-单纯形）。

怎么读这条定理（\(k=2\) 退化为旧版）当 \(k=2\) 时它就是三角形移除引理：若一个图里三角形“很少”（不超过 \(\delta|V|^3\) 个），那么删去“很少”的边（\(o(|V|^2)\) 条）就能让它一个三角形都没有。一般 \(k\)：单纯形很少（\(\le\delta|V|^{k+1}\) 个），就能删去 \(o(|V|^k)\) 条边把单纯形全部消灭。关键在于“少量单纯形”可以靠“删少量边”一网打尽。

这个结果由 Erdős、Frankl 和 Rödl [87] 于 1986 年猜出，但直到很久以后才被完整证明。\(k=2\) 的情形当然可上溯到 1978 年的 [304]，但即便是 \(k=3\) 的情形也直到 2002 年才出现 [110]（不过此结果更早的未发表版本是存在的，例如可见 [109]）；另见 [139]。完整的结果由 Rödl 与 Skokan [283]、[284]（另见 [282]、[254]）以及 Gowers [140] 独立且同时证明。这个结果后来在 [360] 中被略作加强，用于建立 Gauss 素数中的任意星座（constellations）。关于近期进展的综述，可见 [281]。

正如引理 10.46 推出命题 10.47，定理 11.27 推出如下的高维类比：

命题 11.28设 \(Z\) 是一个有限加法群，\(k\ge 2\)，并设 \(A\subset Z^k\) 满足：\(A\) 中不含任何“直角单纯形” \[ x,\; x+re_1,\; \dots,\; x+re_k \] 其中 \(x\in Z^k\)，\(r\in Z\setminus\{0\}\)；这里（略微滥用记号）我们用 \(re_i\) 表示 \((0,\dots,0,r,\dots,0)\)，即只有第 \(i\) 个分量非零、取值为 \(r\)。那么 \(|A|=o_{|Z|\to\infty;k}(|Z|^k)\)。

直角单纯形长什么样（\(k=2\)）在 \(Z^2\) 里，取一个点 \(x=(a,b)\)，再取 \(x+re_1=(a+r,b)\)（往横向走 \(r\)）和 \(x+re_2=(a,b+r)\)（往纵向走 \(r\)）。这三个点构成一个等腰直角三角形（两条直角边都长 \(r\)）。命题说：若 \(A\subset Z^2\) 里一个这样的直角三角形都没有，则 \(A\) 只能是 \(Z^2\) 的极小一部分。这正是 Roth 定理“直角三角形版”的群论形式。

\(k=2\) 的直角单纯形：从 \(x\) 出发，沿坐标轴 \(e_1,e_2\) 各走步长 \(r\)。命题 11.28 说不含这种图形的集合必然稀疏。

反过来，这个命题又能用来推出定理 11.24 以及 Szemerédi 定理。事实上它给出了对任意群的 Szemerédi 定理：更精确地说，对任意有限加法群 \(Z\)，只要 \(|Z|\) 与 \((k-1)!\) 互素，就有 \(r_k(Z)=o_{|Z|\to\infty;k}(|Z|)\)。

11.6.3　多种超图正则性引理：困难在哪里

正如三角形移除引理可由 Szemerédi 正则性引理证明（事实上，这目前是它已知的唯一证明），单纯形移除引理也可由一个超图正则性引理来证明。然而结果表明：与普通正则性引理的情形不同——那里本质上只有一种表述方式（在等价意义下）——超图正则性引理却有好几种可供选择。

第一个这样的正则性引理由 Chung 和 Graham [58] 引入，它用顶点集 \(V\) 的一个划分来正则化 \(k\)-边集 \(E\)，其证明与图的正则性引理非常相似。遗憾的是，这个引理似乎太弱，不足以轻易地推出单纯形移除引理；问题在于：此引理所赋予的正则性，不足以对超图中单纯形的数目给出准确的计数，即便在 \(3\)-一致的情形也是如此。

为什么“弱正则性”数不准单纯形这个现象与前面几节里指出的一个现象惊人地相似：Fourier 一致性不足以计数长度 \(\ge 4\) 的等差数列（哪怕长度为 3 的能数准），尽管 Fourier 分析根本没有出现在正则性引理里。直觉是：要数准“三角形/单纯形”，需要三对变量之间的关联都被控制住；只按“点”划分时，控制的是“点—点”这一层，而单纯形的数目还依赖更高层的“边—边”关联，光控制点这一层会漏掉这些关联。

解决办法（为简单起见仍以 \(3\)-一致为例）是：先用 \(2\)-边集 \(\binom{V}{2}\) 的一个划分来正则化 \(3\)-边，然后再用顶点集 \(V\)（或等价地 \(\binom{V}{1}\)）的一个划分来进一步正则化这个 \(2\)-边划分（本质上是用普通的正则性引理）。然而这带来了普通图情形里没有的新问题：

第二层划分可能破坏第一层的正则性。用顶点划分细化 \(2\)-边划分时，有可能把第一层（\(3\)-边层）已经得到的正则性给搅乱。
必须决定两层正则性的相对强弱。这一点尤其重要，因为在“一个划分赋予的正则性强度”与“该划分所需的格子数”之间存在一个极其昂贵的（塔型指数式的）权衡；而人们往往需要让一层划分的正则性压倒另一层划分的格子数。
计数本身。即便所有该有的正则性都已到手，仍然需要准确地数出超图中单纯形的数目。

这些问题都能解决，但需要相当的技术性。我们在这里不给出一般情形的细节，但会详细处理 \(k=2\) 的情形（即通常的正则性引理），其处理方式将允许相对容易地推广到更高的 \(k\)。我们这里的处理遵循 [360]、[359]（另见 [7]、[282] 中一些密切相关的论证）。

11.6.4　把正则性引理看成“紧致 + 一致”的分解

具体来说，我们将把正则性引理视为类似于前几节中的 Koopman–von Neumann 定理：把一个函数分解成一个“紧致”分量和一个“一致”分量。事实上，我们有命题 11.18 的如下类比。

这是全节的核心思想不要把正则性引理看成“把顶点集切成几块”，而要看成对函数 \(f\)（图的邻接矩阵）的一种分解： \[ f = f_{U^\perp} + f_U. \] 其中 \(f_{U^\perp}\)（“反一致 / 紧致”分量）是结构化的——它能被一个在“格子上取常值”的简单函数 \(f_C\) 很好地逼近；\(f_U\)（“一致 / 伪随机”分量）是无结构的——它在所有矩形 \(A_1\times\cdots\times A_d\) 上的平均都极小。这正对应前几节里“几乎周期函数 + 一致函数”的分法。

我们称一个函数 \(f:V_1\times\cdots\times V_d\to\mathbb{R}^+\) 是 \(K\)-常值的（\(K\)-constant），若对每个 \(1\le i\le d\)，都存在 \(V_i\) 的一个划分，将其分成 \(K\) 个格子 \(V_{i,1},\dots,V_{i,K}\)（某些格子可以为空或大小不等），使得 \(f\) 在每个乘积格子 \(V_{1,i}\times\cdots\times V_{d,j}\) 上取常值。这将类比于前几节中用到的“几乎周期性”概念。

\(K\)-常值：两个轴各被切成 \(K\) 段，平面被切成 \(K\times K\) 个矩形格子，\(f\) 在每个格子里是一个常数。这就是“结构化”分量的样子。

命题 11.29（预备正则性引理）[359]设 \(V_1,\dots,V_d\) 为任意有限非空集合，设 \(f:V_1\times\cdots\times V_d\to\mathbb{R}^+\) 满足 \(0\le f(x_1,\dots,x_d)\le 1\)，设 \(\sigma>0\)，并设 \(F:\mathbb{R}^+\times\mathbb{R}^+\to\mathbb{R}^+\) 为任意函数。那么存在一个量 \(K=O_{\sigma,F}(1)\) 以及一个分解 \(f=f_{U^\perp}+f_U\)，具有以下性质：

“反一致”分量 \(f_{U^\perp}\) 满足界 \(0\le f_{U^\perp}\le 1\)。此外存在一个 \(f_{U^\perp}\) 的 \(K\)-常值逼近 \(f_C\)，满足 \(0\le f_C\le 1\) 且 \[ \|f_{U^\perp}-f_C\|_{L^2(V_1\times\cdots\times V_d)}\le\sigma; \]
“一致”分量 \(f_U\) 满足正则性估计 \[ \Big|\mathbb{E}_{x_1\in V_1,\dots,x_d\in V_d}\,1_{A_1\times\cdots\times A_d}\,f_U(x_1,\dots,x_d)\Big|\le\frac{1}{F(\sigma,K)} \] 对一切 \(A_1\subseteq V_1,\dots,A_d\subseteq V_d\) 成立。

为什么 \(F\) 可以“任意”是关键注意 \(F\) 是任意给定的，而且可以放在最后才挑。一致分量的小程度是 \(1/F(\sigma,K)\)，其中 \(K\) 是格子数。这意味着：你可以先看格子数 \(K\) 是多少，再把 \(F\) 设得足够大，从而让一致分量比 \(K\) 还要“小得多”。这正是前面第 2 条困难（让一层正则性压倒另一层格子数）的解决钥匙。代价见后面的注记 11.32：格子总数会变得极其巨大。

注记 11.30对图正则性的应用只需 \(d=2\)。对更一般的 \(d\)，上述引理与 Chung 和 Graham [58] 的超图正则性引理密切相关。

11.6.5　用命题 11.29 推出经典正则性引理（引理 10.42）

我们暂且假定这个命题成立，并据此建立更传统表述形式（引理 10.42）下的正则性引理。

假定命题 11.29 来证明引理 10.42.

设 \(\varepsilon,m\) 以及 \(G=G(V,E)\) 如引理中所述。我们令 \(V_1=V_2=V\)，并令 \(f(x_1,x_2)\) 为 \(G\) 的关联矩阵（邻接矩阵），即 \(f(x_1,x_2)=\mathbb{I}(\{x_1,x_2\}\in E)\)。设 \(\sigma>0\) 是一个稍后选取的小数（它最终会是 \(\varepsilon^4\) 的一个小倍数），并设 \(F:\mathbb{R}^+\times\mathbb{R}^+\to\mathbb{R}^+\) 是一个稍后选取的增长函数（依赖于 \(m\)）。

我们对 \(d=2\) 应用命题 11.29，得到一个分解 \(f=f_{U^\perp}+f_U\)、\(f_{U^\perp}\) 的一个 \(K\)-常值逼近 \(f_C\)（对某个 \(K=O_{\sigma,F}(1)\)），以及 \(V\) 的两个划分 \(V_{1,1},\dots,V_{1,K}\) 与 \(V_{2,1},\dots,V_{2,K}\)，使 \(f_C\) 关于它们取常值。我们可取其公共加细 \(V_{K(i-1)+j}:=V_{1,i}\cap V_{2,j}\)（\(i,j\in[1,K]\)），得到一个统一的划分 \(V_1,\dots,V_{K^2}\)，使 \(f_C\) 在每个乘积 \(V_i\times V_j\) 上取常值。

分步：把两套划分合并成一套

命题给出的 \(f_C\) 在“第一坐标用划分 \(\{V_{1,i}\}\)、第二坐标用划分 \(\{V_{2,j}\}\)”时取常值。两套划分不一定相同。
取公共加细 \(V_{1,i}\cap V_{2,j}\)：把同一个 \(V\) 同时按两套切法叠起来，得到至多 \(K^2\) 块。在这套更细的划分里，\(f_C\) 在任意 \(V_i\times V_j\) 上都是常数。
这样就把“关于两套划分常值”整理成了“关于一套划分常值”，方便后面统一讨论。

接下来，令 \(N\) 为小于 \(\sigma|V|/(100mK^2)\) 的最大整数（我们假定 \(|V|\) 关于 \(m,K,\sigma\) 足够大，使 \(N\ge 1\)），并把每个格子 \(V_j\) 任意地划分成若干个大小为 \(N\) 的不相交子格子，外加一个大小至多为 \(N\) 的误差。注意所有这些误差合在一起，构成一个大小至多 \(K^2 N\le \sigma|V|/(100m)\) 的例外集 \(V_*\)，而其余的子格子给出剩余集 \(V\setminus V_*\) 的一个划分 \(V_1,\dots,V_k\)，每个 \(V_j\) 的基数恰为 \(N\)。于是我们有 \[ |V|-\frac{\sigma|V|}{100m}\le kN\le|V|, \] 因此 \(k\ge m\) 且 \(k=\Theta(|V|/N)=\Theta(mK^2/\sigma)\)。

为什么要把格子再切成等大小的小块命题给的格子 \(V_j\) 大小参差不齐，但引理 10.42 要求一个近一致划分（各块几乎一样大）。所以把每块按固定尺寸 \(N\) 切成等大小的小块，切剩的零头全扔进例外集 \(V_*\)。由于 \(N\) 取得很小（约为 \(|V|\) 的 \(\sigma/(100mK^2)\) 倍），零头总量 \(V_*\) 也很小，可控。块数 \(k\approx|V|/N\) 因此够大（\(\ge m\)），满足引理要求。

划分 \(V_1,\dots,V_k,V_*\) 还不完全是第 10.6 节意义下的近一致划分，因为有这个例外集 \(V_*\)。但我们可以把 \(V_*\) 任意地拆成 \(k\) 个近一致的小片并分配到各 \(V_j\) 上，把每个 \(V_j\) 替换成稍大的集合 \(V_j'\)，使 \(V_1',\dots,V_k'\) 成为 \(V\) 的一个近一致划分，并且 \[ |V_j'\setminus V_j|=O\!\left(\frac{|V_*|}{k}+1\right)=O\!\left(\frac{K^2N}{mK^2/\sigma}+1\right)=O(\sigma N), \] 这里我们再次假定 \(|V|\) 关于 \(m,K,\sigma\) 适当地大。于是 \(V_j'\) 仅比 \(V_j\) 大了 \(1+O(\sigma)\) 倍。

现在我们来考察一对 \(V_i,V_j\) 的 \(\varepsilon\)-正则性。设 \(X\subset V_i\)，\(Y\subset V_j\) 满足 \(|X|\ge\varepsilon|V_i|\)，\(|Y|\ge\varepsilon|V_j|\)，特别地 \(|X|,|Y|\ge\varepsilon N\)。我们想看是否有 \[ |d(X,Y)-d(V_i,V_j)|\le\varepsilon; \] 若我们能证明 \[ \left|\mathbb{E}_{x_1\in V_i,x_2\in V_j}\,f(x_1,x_2)\Big(1_X(x_1)1_Y(x_2)-\frac{|X|}{|V_i|}\frac{|Y|}{|V_j|}\Big)\right|\le\varepsilon^3 \tag{11.33} \] 对任意子集 \(X\subset V_i,Y\subset V_j\)（基数无下界要求）成立，则上式即可推出。

(11.33) 在说什么\(d(X,Y)\) 是 \(X,Y\) 之间的边密度。式 (11.33) 是说：在格子 \(V_i\times V_j\) 上，\(f\)（即“是否成边”）与“随机猜测的密度 \(\frac{|X|}{|V_i|}\frac{|Y|}{|V_j|}\)”之间的偏差非常小。换句话说，\(V_i,V_j\) 之间的边分布得很“均匀”——这正是 \(\varepsilon\)-正则的定义。下面的目标就是把这个偏差用三个分量 \(f_C,f_U,f_{U^\perp}-f_C\) 分别估出来。

我们先做几步预备约化。注意，可以把 \(X\) 限制到 \(V_i'\)、\(Y\) 限制到 \(V_j'\)，并把 \(x_1,x_2\) 的取值范围分别换成 \(V_i'\) 和 \(V_j'\)，左端只产生 \(O(\sigma)\) 的误差。类似地，可以把 \(|X|/|V_i|\) 与 \(|Y|/|V_j|\) 换成 \(|X|/N\) 与 \(|Y|/N\)，同样只接受 \(O(\sigma)\) 的误差。于是 (11.33) 的左端可估为 \[ \left|\mathbb{E}_{x_1\in V_i,x_2\in V_j}\,f(x_1,x_2)\Big(1_X(x_1)1_Y(x_2)-\frac{|X|}{N}\frac{|Y|}{N}\Big)\right|+O(\sigma). \]

现在，由于 \(f_C\) 在 \(V_i\times V_j\) 上取常值，我们有 \[ \mathbb{E}_{x_1\in V_i,x_2\in V_j}\,f_C(x_1,x_2)\Big(1_X(x_1)1_Y(x_2)-\frac{|X|}{N}\frac{|Y|}{N}\Big)=0. \]

为什么 \(f_C\) 那一项恰好为零因为 \(f_C\) 在 \(V_i\times V_j\) 上是常数 \(c\)，可提到平均外面：\(\mathbb{E}\,c\,(1_X 1_Y-\frac{|X||Y|}{N^2})=c\big(\mathbb{E}\,1_X 1_Y-\frac{|X||Y|}{N^2}\big)\)。而 \(\mathbb{E}_{x_1\in V_i,x_2\in V_j}1_X(x_1)1_Y(x_2)=\frac{|X|}{N}\cdot\frac{|Y|}{N}\)（\(x_1,x_2\) 独立均匀取），两项正好抵消。结构化的部分天生就是均匀的，对正则性没有贡献。

其次，由 \(f_U\) 的一致性，我们有 \[ \left|\mathbb{E}_{x_1\in V_i,x_2\in V_j}\,f_U(x_1,x_2)\Big(1_X(x_1)1_Y(x_2)-\frac{|X|}{N}\frac{|Y|}{N}\Big)\right|\le\frac{|V|^2}{N^2\,F(\sigma,K)}=O\!\left(\frac{m^2K^4}{\sigma^2\,F(\sigma,K)}\right). \] 通过适当选取 \(F\)（即令 \(F(\sigma,K)\) 足够大），我们可以确保右端是 \(O(\sigma)\)。

为什么把范围从 \(V\) 缩到 \(V_i\) 会乘上 \(|V|^2/N^2\)命题给出的一致性是在整个 \(V\times V\) 上的：\(|\mathbb{E}_{V\times V}1_{A_1\times A_2}f_U|\le 1/F\)。要换算到子格子 \(V_i\times V_j\) 上，需要乘以放大倍数 \(\frac{|V|}{|V_i|}\cdot\frac{|V|}{|V_j|}=\frac{|V|^2}{N^2}\)。这个倍数虽大（约 \(m^2K^4/\sigma^2\)），但 \(F\) 是我们事后才挑的，把 \(F\) 设得远大于它，整体就压回到 \(O(\sigma)\)。这就是“\(F\) 可任意”这件事真正起作用的地方。

把以上各项放在一起，(11.33) 的左端可被界为 \[ \left|\mathbb{E}_{x_1\in V_i,x_2\in V_j}\,(f_{U^\perp}-f_C)(x_1,x_2)\Big(1_X(x_1)1_Y(x_2)-\frac{|X|}{N}\frac{|Y|}{N}\Big)\right|+O(\sigma). \] 由三角不等式，这小于 \[ 2\,\mathbb{E}_{x_1\in V_i,x_2\in V_j}\,|(f_{U^\perp}-f_C)(x_1,x_2)|+O(\sigma). \]

分解到此处的逻辑把 \(f=f_C+(f_{U^\perp}-f_C)+f_U\) 代入：

\(f_C\) 那项 \(=0\)（恰好均匀）；
\(f_U\) 那项 \(=O(\sigma)\)（靠把 \(F\) 调大）；
剩下只需控制 \(f_{U^\perp}-f_C\) 那项——而它在 \(L^2\) 里很小（\(\le\sigma\)），用三角不等式把括号里的因子放成 \(\le 2\)，剩下就是它的 \(L^1\) 平均。

三块各个击破，这正是“紧致 + 一致”分解的威力。

现在由命题 11.29 与 Cauchy–Schwarz 不等式，我们有 \[ \mathbb{E}_{x_1\in V,x_2\in V}\,|(f_{U^\perp}-f_C)(x_1,x_2)|\le\sigma, \] 削去例外集 \(V_*\) 后，这给出 \[ \mathbb{E}_{x_1\in V_1\cup\cdots\cup V_k,\,x_2\in V_1\cup\cdots\cup V_k}\,|(f_{U^\perp}-f_C)(x_1,x_2)|=O(\sigma). \] 由 Markov 不等式（以及各 \(V_j\) 大小一致），我们断定 \[ \mathbb{E}_{x_1\in V_i,x_2\in V_j}\,|(f_{U^\perp}-f_C)(x_1,x_2)|=O(\sigma/\varepsilon) \] 对除了至多 \(\varepsilon\) 比例的格子对 \((i,j)\) 之外的所有格子对成立。在这种情形下，我们得到 (11.33) 左端的界 \(O(\sigma/\varepsilon)\)；只要取 \(\sigma\) 等于 \(\varepsilon^?\) 的一个小倍数，这就是可接受的。最后，界 \(K=O_{\sigma,F}(1)\) 现在蕴含一个界 \(k=O_{\varepsilon,m}(1)\)，正如所需。这就建立了该引理（取划分 \(V_1,\dots,V_k\)）。♦

Markov 不等式这一步：把“平均小”变成“几乎处处小”我们只知道 \(|f_{U^\perp}-f_C|\) 在整体上的平均是 \(O(\sigma)\)。但正则性要求每一对格子都好。Markov 不等式说：一个非负量若整体平均小，则它“偏大”的比例必然很小——具体地，平均超过 \(O(\sigma/\varepsilon)\) 的格子对最多占 \(\varepsilon\) 比例。于是“坏格子对”不超过 \(\varepsilon\) 比例，其余全是 \(\varepsilon\)-正则的——这恰是正则性引理允许的少量例外。

注意，在上面的证明中只用到了一个非常特定的函数 \(F(\cdot)\) 的选取。然而，能够任意地设定函数 \(F\) 这件事，在超图理论中变得极其重要，因为它是调和前面提到的那个问题（需要让一个划分给出的正则性控制压倒另一个划分的格子数，同时又不彻底失去对所有误差项的掌控）的最简单办法。当然，为此付出的代价是：论证结束时格子的总数会变得极其巨大。

11.6.6　命题 11.29 的证明：能量增量算法

我们现在开始命题 11.29 的证明。读者不妨把注意力集中在 \(d=2\) 的情形以求熟悉，尽管一般的 \(d\) 情形并无不同。我们将把 \(V_i\) 的划分 \(V_{i,1},\dots,V_{i,K}\) 重新解释为 \(V_i\) 上的 \(\sigma\)-代数 \(\mathcal{B}_i\)（\(1\le i\le d\)），它在 \(V_1\times\cdots\times V_d\) 上诱导出一个更进一步的 \(\sigma\)-代数 \(\mathcal{B}_1\otimes\cdots\otimes\mathcal{B}_d\)，由笛卡尔乘积 \(V_{1,i_1}\times\cdots\times V_{d,i_d}\) 生成。特别注意，函数 \(f_C:=\mathbb{E}(f\mid\mathcal{B}_1\otimes\cdots\otimes\mathcal{B}_d)\) 将是一个取值于 \([0,1]\) 之间的 \(K\)-常值函数。分解 \(f=f_{U^\perp}+f_U\) 将由 \(f_{U^\perp}:=\mathbb{E}(f\mid\mathcal{B}_1'\otimes\cdots\otimes\mathcal{B}_d')\) 与 \(f_U:=f-f_{U^\perp}\) 给出，其中 \(\mathcal{B}_i'\) 是比 \(\mathcal{B}_i\) 略细的 \(\sigma\)-代数。\(\mathcal{B}_i\) 和 \(\mathcal{B}_i'\) 的确切选取将由一个能量增量算法决定，它与证明命题 10.36 时所用的算法非常相似。

把“划分”翻译成“条件期望”一个划分对应一个 \(\sigma\)-代数；“\(f\) 在格子上的平均值”这个 \(K\)-常值函数，正是条件期望 \(\mathbb{E}(f\mid\mathcal{B})\)。粗划分 \(\mathcal{B}\) 给出粗逼近 \(f_C\)，细划分 \(\mathcal{B}'\) 给出更准的逼近 \(f_{U^\perp}\)，剩下的 \(f_U=f-f_{U^\perp}\) 就是“连最细划分也抓不住”的伪随机部分。这套语言让我们能用概率论的工具（Pythagoras 定理、Cauchy–Schwarz）。

我们转入细节。固定 \(V_1,\dots,V_d\) 与函数 \(f:V_1\times\cdots\times V_d\to\mathbb{R}^+\)。给定 \(V_i\) 的任意 \(\sigma\)-代数 \(\mathcal{B}_1,\dots,\mathcal{B}_d\)，我们定义能量 \(\mathcal{E}_f(\mathcal{B}_1\otimes\cdots\otimes\mathcal{B}_d)\) 为 \[ \mathcal{E}_f(\mathcal{B}_1\otimes\cdots\otimes\mathcal{B}_d):=\big\|\mathbb{E}(f\mid\mathcal{B}_1\otimes\cdots\otimes\mathcal{B}_d)\big\|_{L^2(V_1\times\cdots\times V_d)}^2, \] 于是能量取值在 \(0\) 与 \(1\) 之间，且越细的 \(\sigma\)-代数能量越高。正如命题 10.36 依赖于引理 10.40，命题 11.29 将依赖于以下类比。

能量为什么“越细越高”能量 \(=\|\mathbb{E}(f\mid\mathcal{B})\|_{L^2}^2\) 是逼近 \(f_C\) 的“平方长度”。把划分加细相当于在 \(L^2\) 中把 \(f\) 投影到一个更大的子空间，投影只会变长不会变短（Pythagoras）。能量被 \(\|f\|_{L^2}^2\le 1\) 卡住封顶，所以加细带来的能量增量总和有限——这保证了下面的算法必然停机。

引理 11.31（缺乏一致性蕴含能量增量）设 \(\mu>0\) 与 \(K\ge 1\)，并对每个 \(1\le i\le d\)，设 \(\mathcal{B}_i\) 为 \(V_i\) 上至多含 \(K\) 个原子的 \(\sigma\)-代数，使得 \[ \Big|\mathbb{E}_{x_1\in V_1,\dots,x_d\in V_d}\,1_{A_1\times\cdots\times A_d}\big(f-\mathbb{E}(f\mid\mathcal{B}_1\otimes\cdots\otimes\mathcal{B}_d)\big)(x_1,\dots,x_d)\Big|\ge\mu \] 对某些 \(A_1\subseteq V_1,\dots,A_d\subseteq V_d\) 成立。那么对每个 \(1\le i\le d\)，存在比 \(\mathcal{B}_i\) 更细、至多含 \(2K\) 个原子的 \(\sigma\)-代数 \(\mathcal{B}_i'\)，使得 \[ \mathcal{E}_f(\mathcal{B}_1'\otimes\cdots\otimes\mathcal{B}_d')\ge\mathcal{E}_f(\mathcal{B}_1\otimes\cdots\otimes\mathcal{B}_d)+\mu^2. \]

证明.对 \(1\le i\le d\)，令 \(\mathcal{B}_i'\) 为由 \(\mathcal{B}_i\) 与 \(A_i\) 生成的 \(\sigma\)-代数。观察到 \[ \mathbb{E}_{x_1\in V_1,\dots,x_d\in V_d}\,1_{A_1\times\cdots\times A_d}\big(f-\mathbb{E}(f\mid\mathcal{B}_1'\otimes\cdots\otimes\mathcal{B}_d')\big)(x_1,\dots,x_d)=0, \] 因为 \(A_1\times\cdots\times A_d\) 是 \(\mathcal{B}_1'\otimes\cdots\otimes\mathcal{B}_d'\) 中若干原子的并，而在每个原子上 \(f-\mathbb{E}(f\mid\mathcal{B}_1'\otimes\cdots\otimes\mathcal{B}_d')\) 的均值为零。把这一式从假设中减去，我们得到 \[ \Big|\mathbb{E}_{x_1,\dots,x_d}\,1_{A_1\times\cdots\times A_d}\big(\mathbb{E}(f\mid\mathcal{B}_1'\otimes\cdots\otimes\mathcal{B}_d')-\mathbb{E}(f\mid\mathcal{B}_1\otimes\cdots\otimes\mathcal{B}_d)\big)\Big|\ge\mu, \] 于是由 Cauchy–Schwarz 不等式， \[ \big\|\mathbb{E}(f\mid\mathcal{B}_1'\otimes\cdots\otimes\mathcal{B}_d')-\mathbb{E}(f\mid\mathcal{B}_1\otimes\cdots\otimes\mathcal{B}_d)\big\|_{L^2(V_1\times\cdots\times V_d)}^2\ge\mu^2. \] 结论随即由 Pythagoras 定理得出。♦

这条引理的核心机制它在说：只要还能找到一个“坏矩形” \(A_1\times\cdots\times A_d\)（在它上面 \(f\) 偏离当前逼近达 \(\mu\)），就把这个矩形的信息加进划分里，能量就涨 \(\mu^2\)。

把 \(A_i\) 并进 \(\mathcal{B}_i\)，原子数最多翻倍（\(K\to 2K\)）。
在更细的代数下，矩形 \(A_1\times\cdots\times A_d\) 变成整原子的并，逼近误差在它上面均值归零。
“能抓住一个 \(\mu\) 级偏差”等价于“两个逼近相差 \(\mu^2\) 的能量”（Pythagoras：\(\|f-f_C\|^2=\|f-f_C'\|^2+\|f_C'-f_C\|^2\)）。

由于能量封顶为 \(1\)，这种 \(+\mu^2\) 的涨法不能无限进行，算法必然停。

命题 11.29 的证明.这将与命题 10.36 几乎完全相同。我们通过以下双重循环算法，为每个 \(1\le i\le d\) 构造一对嵌套的 \(\sigma\)-代数 \(\mathcal{B}_i\subset\mathcal{B}_i'\)（在 \(V_i\) 上）以及一个整数 \(K\ge 1\)。

第 0 步。对每个 \(i\)，初始化 \(\mathcal{B}_i=\{\varnothing,V_i\}\)。
第 1 步。令 \(K\) 为使每个 \(\mathcal{B}_i\) 至多有 \(K\) 个原子的最小整数。对每个 \(i\) 令 \(\mathcal{B}_i':=\mathcal{B}_i\)；于是平凡地有 \[ \mathcal{E}_f(\mathcal{B}_1'\otimes\cdots\otimes\mathcal{B}_d')\le\mathcal{E}_f(\mathcal{B}_1\otimes\cdots\otimes\mathcal{B}_d)+\sigma^2. \]
第 2 步。若 \[ \Big|\mathbb{E}_{x_1,\dots,x_d}\,1_{A_1\times\cdots\times A_d}\big(f-\mathbb{E}(f\mid\mathcal{B}_1'\otimes\cdots\otimes\mathcal{B}_d')\big)\Big|\le\frac{1}{F(\sigma,K)} \] 对一切 \(A_1\subseteq V_1,\dots,A_d\subseteq V_d\) 成立，则终止算法。若不然，则可应用引理 11.31，为每个 \(1\le i\le d\) 得到一个新的 \(\sigma\)-代数 \(\mathcal{B}_i'\)，其原子数至多为原来 \(\mathcal{B}_i'\) 的两倍，使得 \[ \mathcal{E}_f(\mathcal{B}_1'\otimes\cdots\otimes\mathcal{B}_d')\ge\mathcal{E}_f(\mathcal{B}_1'\otimes\cdots\otimes\mathcal{B}_d')+\frac{1}{F(\sigma,K)^2}. \]
第 3 步。若 \[ \mathcal{E}_f(\mathcal{B}_1'\otimes\cdots\otimes\mathcal{B}_d')\le\mathcal{E}_f(\mathcal{B}_1\otimes\cdots\otimes\mathcal{B}_d)+\sigma^2, \] 则令 \(\mathcal{B}':=\mathcal{B}'\) 并返回第 2 步。若反之有 \[ \mathcal{E}_f(\mathcal{B}_1'\otimes\cdots\otimes\mathcal{B}_d')>\mathcal{E}_f(\mathcal{B}_1\otimes\cdots\otimes\mathcal{B}_d)+\sigma^2, \] 则令 \(\mathcal{B}:=\mathcal{B}'\) 并返回第 1 步。

算法一旦终止，我们便令 \(f_{U^\perp}:=\mathbb{E}(f\mid\mathcal{B}_1'\otimes\cdots\otimes\mathcal{B}_d')\)，\(f_C:=\mathbb{E}(f\mid\mathcal{B}_1\otimes\cdots\otimes\mathcal{B}_d)\)，\(f_U:=f-f_{U^\perp}\)。关于算法确实在有限时间内终止、并给出所需性质的验证，与命题 10.36 中的类似论证几乎完全相同，留作习题给读者。♦

双重循环：内循环（第2↔3步）不断加细 \(\mathcal{B}'\) 直到 \(f_U\) 一致或能量涨满 \(\sigma^2\)；外循环（回第1步）把 \(\mathcal{B}\) 也跟上。能量封顶为 1，两层循环都只能进行有限次。

注记 11.32对上述论证更仔细的考察表明：每当我们从第 3 步返回第 1 步时，\(\sigma\)-代数 \(\mathcal{B}\) 中的原子数 \(K\) 可以从 \(K\) 增大到多达约 \(K\cdot 2^{F(\sigma,K)^2}\) 那么多。由于这一步可以发生多达 \(1/\sigma^2\) 次，我们看到最终的复杂度极有可能是 \(K\) 的塔型指数，甚至更糟（除非我们把 \(F\) 限制为对数增长之类，关于这类引理的讨论见 [239]）。正如第 10.6 节所述，这种塔型指数行为是不可避免的，见 [136]。

为什么会塔型爆炸内循环每跑一次（第2步细化）原子数最多翻倍，而内循环要跑到能量涨满 \(\sigma^2\)，每次只涨 \(1/F^2\)，所以可跑约 \(\sigma^2 F^2\) 次，原子数被 \(2^{\sim F^2}\) 倍放大。外循环又可跑 \(1/\sigma^2\) 次，每次都让 \(K\) 再过一遍这种指数放大——一层套一层，就得到“指数的指数的……”即塔型指数。这就是前面说的“格子总数极其巨大”的代价。

11.6.7　推广到超图：3-一致情形

现在我们讨论正则性引理向超图的推广。为简化论述，我们只考虑 \(3\)-一致的情形。首先表明，对命题 11.29 证明的一个小改动可以给出如下变体：其中我们得到强得多的一致性控制（关于任意的 \(2\)-边集，而不是顶点集），但代价是一个更弱、更复杂的 \(K\)-常值概念。更精确地说，我们称一个函数 \(f:V_1\times V_2\times V_3\to\mathbb{R}^+\) 是 \((K,2)\)-常值的，若存在划分 \[ V_i\times V_j=E_{ij,1}\cup\cdots\cup E_{ij,K}\qquad(ij=12,23,31), \] 使得 \(f\) 在每个集合 \[ \{(x_1,x_2,x_3)\in V_1\times V_2\times V_3:(x_i,x_j)\in E_{ij,a_{ij}}\text{ 对一切 }ij=12,23,31\} \] 上取常值，其中 \(a_{12},a_{23},a_{31}\in[1,K]\) 任意。

\((K,2)\)-常值 vs \(K\)-常值：差别在哪普通 \(K\)-常值是按“点”分类：\(f(x_1,x_2,x_3)\) 的值只看每个 \(x_i\) 落在哪个顶点格子里。\((K,2)\)-常值升了一级，按“边”分类：值取决于三对 \((x_1,x_2),(x_2,x_3),(x_3,x_1)\) 各自落在哪个 \(2\)-边格子 \(E_{ij,a}\) 里。这正对应前面说的解决方案——把 \(3\)-边用 \(2\)-边划分来正则化，从而抓住“边—边”这一层的关联。

\(3\)-一致超图正则化的两级结构：先用 \(2\)-边划分逼近 \(3\)-边函数，再用顶点划分逼近每个 \(2\)-边指示函数。

命题 11.33（预备超图正则性引理）[360]设 \(V_1,V_2,V_3\) 为任意有限非空集合，设 \(f:V_1\times V_2\times V_3\to\mathbb{R}^+\) 满足 \(0\le f(x_1,x_2,x_3)\le 1\)，设 \(\sigma>0\)，并设 \(F:\mathbb{R}^+\times\mathbb{R}^+\to\mathbb{R}^+\) 为任意函数。那么存在一个量 \(K=O_{\sigma,F}(1)\) 以及一个分解 \(f=f_{U^\perp}+f_U\)，具有以下性质：

“反一致”分量 \(f_{U^\perp}\) 满足界 \(0\le f_{U^\perp}\le 1\)。此外存在 \(f_{U^\perp}\) 的一个 \((K,2)\)-常值逼近 \(f_C\)，满足 \(0\le f_C\le 1\) 且 \(\|f_{U^\perp}-f_C\|_{L^2(V_1\times V_2\times V_3)}\le\sigma\)；
“一致”分量 \(f_U\) 满足正则性估计 \[ \Big|\mathbb{E}_{x_1\in V_1,x_2\in V_2,x_3\in V_3}\,1_{A_{12}}(x_1,x_2)1_{A_{23}}(x_2,x_3)1_{A_{31}}(x_3,x_1)\,f_U(x_1,x_2,x_3)\Big|\le\frac{1}{F(\sigma,K)} \] 对一切 \(A_{12}\subseteq V_1\times V_2,\;A_{23}\subseteq V_2\times V_3,\;A_{31}\subseteq V_3\times V_1\) 成立。

命题 11.33 的证明与命题 11.29 的几乎相同，只是记号负担稍重。我们将它留作习题。

由此可以推出一个全强度的 \(3\)-一致超图正则性引理。这个引理的确切表述相当繁杂、也太不具启发性，不宜在此给出（见 [139]、[283]、[284]、[282]、[360]），但我们将通过非正式地勾勒其证明（遵循 [360]）来间接描述它的表述。

证明思路勾勒（如何把两级正则化拼起来）

给定函数 \(f:V_1\times V_2\times V_3\to\mathbb{R}^+\)、初始误差容限 \(\sigma\) 和增长函数 \(F\)，我们先决定一个快得多的增长函数 \(F_{\text{fast}}\)（其确切选取留待最后）。
用这个快增长函数 \(F_{\text{fast}}\) 应用命题 11.33，得到主分解 \(f=f_{U^\perp}+f_U\)，其中 \(f_U\) 关于 \(2\)-边划分极其正则（分母里享有快函数 \(F_{\text{fast}}\)），而 \(f_{U^\perp}\) 可用一个 \((K,2)\)-常值函数 \(f_C\) 逼近，\(K\) 有某个（相当糟糕的）上界。这个 \(K\)-常值函数可用 \(V_i\times V_j\)（\(ij=12,23,31\)）中的 \(O(K)\) 个边集 \(E_{ij,a}\) 来描述。
然后对这些边集的每一个的指示函数 \(1_{E_{ij,a}}:V_i\times V_j\to\mathbb{R}^+\) 应用命题 11.29，使用原来的函数 \(F\)，并把误差容限 \(\sigma\) 换成更小的值，例如 \(1/F(\sigma,K)\)。（严格说来，这里需要命题 11.29 的一个“多函数”或“向量值”版本，用单个划分同时正则化多个函数，但这不难搭建。）这给出一个新参数 \(K':=O_{K,F,\sigma}(1)\)，使我们对每个指示函数 \(1_{E_{ij,a}}\) 有次分解：一个 \(K'\)-常值主项加上一些可控误差。
最后，我们选取 \(F_{\text{fast}}\) 使 \(F_{\text{fast}}(\sigma,K)\) 压倒由 \(K'\) 产生的任何表达式；这基本上意味着 \(F_{\text{fast}}\) 是 \(F\) 的一个塔型迭代版本，从而确保主分解中的误差项 \(f_U\) 也是可控的。

因此总结一下（并略去关于各参数相对大小的微妙问题）：我们从一个三变量函数 \(f(x_1,x_2,x_3)\) 出发，把它逼近成 \(O(K)\) 个双变量函数 \(1_{E_{ij,a}}(x_i,x_j)\) 的组合，加上可控误差；然后我们再把每个 \(1_{E_{ij,a}}(x_i,x_j)\) 逼近成 \(O(K')\) 个单变量函数（即顶点类的指示函数）的组合，同样加上可控误差。在上述精心选取的参数相对大小下，原函数 \(f\) 的这一正则化适用于诸如“准确计数一个 \(3\)-一致超图中 \(3\)-单纯形的数目”之类的任务，其方式在精神上类似于（但比之冗长一些）引理 10.46 的证明。这又最终导致定理 11.27 的证明，而后者又蕴含 Szemerédi 定理以及若干其他推论。

回顾全局：这条证明链是怎么搭起来的

把 \(3\)-边函数 \(f\) 分解为“关于 \(2\)-边极一致的 \(f_U\)” + “能用 \((K,2)\)-常值 \(f_C\) 逼近的 \(f_{U^\perp}\)”（命题 11.33）。
再把描述 \(f_C\) 的每个 \(2\)-边指示函数，用顶点划分进一步正则化（命题 11.29，普通正则性）。
用塔型快增长 \(F_{\text{fast}}\) 让上层一致性压倒下层格子数，使所有误差可控。
正则化到位后准确计数 \(3\)-单纯形 → 单纯形移除引理（定理 11.27）→ 命题 11.28 → Szemerédi 定理。

每一层都重复“紧致 + 一致”的分解思想，只是把“点”换成“边”，把控制强度逐层调到塔型大。

11.6.8　习题

习题

11.6.1　由引理 10.46 推出命题 11.28。（提示：\(k\)-一致超图的顶点集 \(V\) 应当由坐标超平面，如 \(\{(x_1,\dots,x_k):x_i=\text{常数}\}\)，以及对角超平面 \(\{(x_1,\dots,x_k):x_1+\cdots+x_k=\text{常数}\}\) 组成。）
11.6.2　利用命题 11.28 推出定理 11.24。
11.6.3　利用命题 11.28 推出：只要 \(|Z|\) 与 \((k-1)!\) 互素，就有 \(r_k(Z)=o_{|Z|\to\infty;k}(|Z|)\)。
11.6.4　[139] 设 \(V,W\) 是两个不相交的集合，各有 \(n\) 个顶点。我们把 \(V\) 中的顶点随机、独立地染成红色或蓝色，红蓝各以等概率。再设我们也把 \(W\) 中的边（即 \(\binom{W}{2}\) 的元素）随机、独立地染成红色或蓝色。设 \(H=H(V\cup W,E)\) 为这样的 \(3\)-一致超图：其边集由所有满足“\(v\in V\) 且 \(\{w,w'\}\in\binom{W}{2}\) 同色”的三元组 \(\{v,w,w'\}\)，连同所有形如 \(\{v,v',w\}\)（\(\{v,v'\}\in\binom{V}{2}\)，\(w\in W\)）的三元组组成。再定义一个与之竞争的 \(3\)-一致超图 \(H'=H(V\cup W,E')\)，其中 \(E'\) 由所有形如 \(\{v,v',w\}\)（\(\{v,v'\}\in\binom{V}{2}\)，\(w\in W\)）的三元组，以及每个形如 \(\{v,w,w'\}\)（\(v\in V\)，\(\{w,w'\}\in\binom{W}{2}\)）的三元组——后者各以独立概率 \(1/2\) 属于 \(E'\)——组成。证明这两个超图在“按顶点划分”的弱正则性意义下统计上难以区分，但 \(3\)-单纯形的数目却相差悬殊（这说明仅靠顶点层的弱正则性无法准确计数单纯形）。

习题 11.6.4 想说明什么这是 Gowers 给出的构造，目的正是印证 11.6.3 节里的论断：Chung–Graham 那种“只按顶点划分”的弱超图正则性不足以数准单纯形。两个超图 \(H,H'\) 在顶点层看起来一模一样（同样的边密度统计），但一个含大量 \(3\)-单纯形、另一个几乎没有——这就证明了必须升级到“按 \(2\)-边划分”的正则性（命题 11.33）。

返回全书目录

11.6.1 从图到超图：为什么需要升级

11.6.2 单纯形与单纯形移除引理

11.6.3 多种超图正则性引理：困难在哪里

11.6.4 把正则性引理看成“紧致 + 一致”的分解

11.6.5 用命题 11.29 推出经典正则性引理（引理 10.42）

11.6.6 命题 11.29 的证明：能量增量算法

11.6.7 推广到超图：3-一致情形

11.6.8 习题