Tao–Vu · 加性组合学 · 第 7 章 Littlewood–Offord 问题

7.5　随机伯努利矩阵Random Bernoulli matrices

本页为译文 + 高中讲解合一：黑色正文为忠实翻译；彩色框（目标 / 例 / 分步推演）与配图为面向高中生的详解，逐步推演、举例、画图，不用比喻。本节是全章工具的一次大集结，难度较高，请耐心跟随每一步动机。

本节目标研究一个看似简单、实则极难的问题：把一个 \(n\times n\) 的方阵随机填上 \(+1\) 或 \(-1\)（每格独立、等概率），它的行列式恰好等于 \(0\) 的概率有多大？等价地：从立方体顶点集 \(\{-1,1\}^n\) 里随机取 \(n\) 个向量，它们线性相关的概率有多大？本节会给出一系列越来越强的上界，最终给出 Kahn–Komlós–Szemerédi 的指数型界 \(P(\det(M_n)=0)\le(1-\varepsilon)^n\)，并讲清前面各节的工具是如何被一一调用进来的。

设 \(M_n\) 为随机的 \(n\times n\) 矩阵，其元素是相互独立、均匀分布的符号 \(\pm1\)（\(M_n\) 常被称为随机伯努利矩阵，random Bernoulli matrix）。与 \(M_n\) 有关的若干量的分布，例如它的行列式与奇异值，是许多领域所关心的对象，包括理论物理、组合学与理论计算机科学。事实证明，前面各节发展出的工具非常适合用于研究 \(M_n\)。

本节我们聚焦于一个特定的问题，即理解奇异概率（singularity probability）\(P(\det(M_n)=0)\)。一个等价的表述是：给定 \(n\) 个向量 \(X_1,\dots,X_n\)，它们独立、均匀地取自单位立方体的顶点集 \(\{-1,1\}^n\subset\mathbb{R}^n\)，问这些向量线性无关的概率是多少？

“行列式为零”\(\Longleftrightarrow\)“这些 \(\pm1\) 向量线性相关”\(\Longleftrightarrow\)“它们全部落进 \(\mathbb{R}^n\) 中某个过原点的超平面”。

这个听起来简单的问题，结果却出人意料地不平凡。容易证明

\[\tag{7.9}P\big(X_i=\pm X_j\text{ 对某对 }1\le i一个类似的论证（同时考虑 \(M_n\) 的行与列）给出

\[\tag{7.10}P(\det(M_n)=0)\ge(2+o(1))\,n^2\,2^{-n}.\]

人们猜想这个下界是精确的；于是有：

猜想 7.24 \(\displaystyle P(\det(M_n)=0)=(2+o(1))\,n^2\,2^{-n}\)。特别地，\(\displaystyle P(\det(M_n)=0)=\Big(\tfrac12+o(1)\Big)^n\)。

例：为什么会出现 \(n^2 2^{-n}\) 让行列式为零的最常见原因，是矩阵里有两行恰好相等或恰好相反。

固定两行 \(i完全相同，每个坐标都得猜对，概率 \(2^{-n}\)；要完全相反，也是 \(2^{-n}\)。两种情形共 \(2\cdot2^{-n}\)。
这样的行对有 \(\binom{n}{2}=\tfrac{n(n-1)}{2}\approx\tfrac{n^2}{2}\) 对。
用联合界把它们加起来：\(\approx\tfrac{n^2}{2}\cdot2\cdot2^{-n}=n^2 2^{-n}\)，这正是 (7.9) 的量级。再把“列”也算上，下界就翻倍成 (7.10) 的 \(2n^2 2^{-n}\)。

猜想 7.24 断言：除了这种“两行/两列重合”的简单原因，没有别的来源会显著贡献——这就是它难证之处。注意 \(n^2 2^{-n}\) 和 \((\tfrac12+o(1))^n\) 是同一个量，因为多项式因子 \(n^2\) 会被指数的底数吸收进 \(o(1)\)。

这个猜想至今仍然悬而未决，不过本节将讨论在这个问题上取得的一些进展。注意到 \(M_n\) 奇异，当且仅当存在非零向量 \(v\in\mathbb{R}^n\) 使得 \(M_nv=0\)。通过把 \(v\) 限制在某些特殊的向量集合上，我们可以得到所猜测的界 \((1/2+o(1))^n\)。下面这个结果归功于 Komlós。

定理 7.25（Komlós）设 \(n\ge3\)，并设 \(\Omega_1\) 为 \(\mathbb{R}^n\) 中至少有 \(3n/\log_2 n\) 个坐标为零的向量构成的集合。则“存在非零 \(v\in\Omega_1\) 使得 \(M_nv=0\)”的概率为 \((1+o(1))\,n^2\,2^{-n}\)。

通过考虑 \(M_n\) 的转置，可以看出这条定理等价于下面的引理。

引理 7.26 设 \(n\ge3\)，并以 \(E\) 记事件“存在非零 \((a_1,\dots,a_n)\in\Omega_1\) 使得 \(a_1X_1+\dots+a_nX_n=0\)”。则 \(P(E)=(1+o(1))\,n^2\,2^{-n}\)。

证明. 为建立上界，我们用联合界给出 \[P(E)=\sum_{2\le k\le n-3n/\log_2 n}P(E_k\setminus E_{k-1}),\] 其中 \(E_k\) 是事件“存在恰有 \(k\) 个分量非零的 \((a_1,\dots,a_n)\in\mathbb{R}^n\) 使得 \(a_1X_1+\dots+a_nX_n=0\)”。（注意事件 \(E_1\) 是空的——单个非零向量永远张不出零。）由 (7.9) 容易看出 \(P(E_2)=(1+o(1))\,n^2\,2^{-n}\)，因此只需证明 \[\sum_{3\le k\le n-3n/\log_2 n}P(E_k\setminus E_{k-1})=o(n^2\,2^{-n}).\] 由对称性我们有 \(\displaystyle P(E_k)\le\binom{n}{k}P(F_k\setminus E_{k-1})\)，其中 \(F_k\) 是事件“存在非零 \(a_1,\dots,a_k\) 使得 \(a_1X_1+\dots+a_kX_k=0\)”。若 \(F_k\setminus E_{k-1}\) 发生，则以 \(X_1,\dots,X_k\) 为列的 \(n\times k\) 矩阵的秩恰为 \(k-1\)，于是 \((a_1,\dots,a_k)\) 本质上是该矩阵中 \(k-1\) 行的楔积（wedge product）。选取这 \(k-1\) 行有 \(\binom{n}{k-1}\) 种方式；固定这些行的全部元素后（从而也固定了 \(a_1,\dots,a_k\)），由推论 7.4 可知，其余 \(n-k+1\) 行中的每一行与方程 \(a_1X_1+\dots+a_kX_k=0\) 相容的概率为 \(\binom{k}{k/2}/2^k\)。于是我们得到 \[P(E_k\setminus E_{k-1})\le\binom{n}{k}\binom{n}{k-1}\left(\frac{\binom{k}{k/2}}{2^k}\right)^{n-k+1}.\] 当 \(k=\Theta(n)\) 时，把 \(\binom{k}{k/2}/2^k\) 估计为 \(O(1/\sqrt n)\)，则该结论由直接计算得出。♦

为什么把 \(v\) 限制在“稀疏”集合上会简单

\(\Omega_1\) 里的向量大部分坐标都是 0（至少 \(3n/\log_2 n\) 个零）。坐标越稀疏，能让 \(\sum a_jX_j=0\) 成立的“随机巧合”就越少。
关键估计是 \(\dfrac{\binom{k}{k/2}}{2^k}=O\!\Big(\dfrac{1}{\sqrt k}\Big)\)：一个长度 \(k\) 的随机 \(\pm1\) 向量与一个固定向量内积为某特定值的概率，正是中心二项系数除以 \(2^k\)，约 \(\dfrac{1}{\sqrt k}\)。这就是 Erdős–Littlewood–Offord 那条“最大反链/中心系数”界在此处的化身。
把它对“其余 \(n-k+1\) 行”各自独立地相乘，得到一个非常小的乘方 \((1/\sqrt n)^{\,n-k+1}\)，足以压过两个二项式系数 \(\binom{n}{k}\binom{n}{k-1}\) 的组合爆炸——于是除了 \(k=2\)（两行重合）那一项，其余都是高阶小量。

让我们再考虑另一类受限的向量。设 \(\Omega_2\) 为 \(\mathbb{R}^n\) 中所有坐标绝对值至多为 \(n^C\) 的整数向量构成的集合，其中 \(C\) 是某个正常数。

定理 7.27 “存在非零 \(v\in\Omega_2\) 使得 \(M_nv=0\)”的概率为 \((1/2+o(1))^n\)。（误差项 \(o(1)\) 当然依赖于 \(C\)。）

证明. 下界是平凡的，故我们集中精力于上界。对每个非零向量 \(v\)，记 \(p(v)\) 为“随机伯努利向量 \(X\) 满足 \(X\cdot v=0\)”的概率。显然 \(P(M_nv=0)=p(v)^n\)。由于一个超平面至多包含 \(2^{n-1}\) 个 \(\pm1\) 向量，故 \(p(v)\le 1/2\)。对 \(j=1,2,\dots\)，令 \(S_j\) 为 \(\Omega_2\) 中满足 \(2^{-j-1}2^{-j}\ge n^{-(d+1/3)}.\] （\(d\) 的值依赖于 \(j\)，但被一个常数从上方控制。）置 \(k=n^{\varepsilon}\)。于是 \(2^{-j}\approx k^{-d}\)，我们便可用命题 7.21 来估计 \(S_j\)。事实上，调用该命题可知，选取 \(v\) 的例外坐标的位置与取值至多有 \(\binom{n}{k^2}(2n^C+1)^{k^2}=n^{O(k^2)}=n^{o(n)}\) 种方式。固定广义级数 \(P\) 只有 \((2n^C+1)^{d-1}=n^{O(1)}\) 种方式。一旦 \(P\) 固定，设置 \(v\) 其余坐标的方式至多有 \(|P|^n=(2k+1)^{(d-1)n}\) 种。把这些合在一起， \[S_j\le O(1)^n\,n^{O(k^2)}\,k^{(d-1)n}.\] 由于 \(k=n^{\varepsilon}\) 且 \(2^{-j}\le n^{-(d-1+1/3)}\)，可得 \[2^{-jn}\,S_j\le O(1)^n\,n^{o(n)}\,n^{-n/3}.\] 由于 \(j\) 的个数只有 \(O(\log n)\)，而 \(n^{-\Theta(n)}\log n=o((1/2)^n)\)，证毕。♦

这一步在做什么（直觉）我们把所有“整数小坐标”向量 \(v\) 按它们的“危险程度” \(p(v)\)（一个随机行恰好垂直于 \(v\) 的概率）分桶：第 \(j\) 桶里 \(p(v)\approx 2^{-j}\)。

桶里每个 \(v\) 贡献 \((2^{-j})^n\)（要 \(n\) 行同时垂直），所以 \(p(v)\) 越小越无害。
但小 \(p(v)\) 的桶里向量可能很多（\(S_j\) 大）。胜负取决于 \(S_j\) 增长得快还是 \((2^{-j})^n\) 衰减得快。
逆 Littlewood–Offord 型结果（命题 7.21）说：要让 \(p(v)\) 不太小，\(v\) 的坐标必须高度结构化——挤进一个广义算术级数 \(P\) 里。结构化意味着“能选的 \(v\) 不多”，于是 \(S_j\) 被严格压住，衰减最终获胜。

这就是“加性组合学反过来帮概率论”的典型套路：从“概率不小”反推“必有算术结构”，再用结构稀少性回收概率。

将定理 7.25 与推论 7.13 结合，我们得到下面的推论。

推论 7.28 [215] 设 \(n\ge3\)。则对任意 \(1\le i\le n\) 有 \[P\big(X_i\text{ 是 }X_1,\dots,X_{i-1}\text{ 的线性组合}\big)\le\min\left(2^{\,i-n-1},\;O\!\Big(\frac{1}{\sqrt n}\Big)\right).\]

证明. 先证明上界 \(2^{i-n-1}\)。注意 \(X_1,\dots,X_{i-1}\) 张成一个维数至多为 \(i-1\) 的空间，因此存在 \(i-1\) 个坐标，它们决定了该空间中所有其余坐标。但若固定了 \(X_i\) 的这 \(i-1\) 个坐标，则 \(X_i\) 仍在剩下的 \(2^{n-i+1}\) 个点中均匀分布，结论随之得出。现在证明界 \(O(1/\sqrt n)\)。我们可以假设 \(n\) 很大且 \(i\) 接近 \(n\)（譬如 \(i>.9n\)）。向量 \(X_1,\dots,X_{i-1}\) 至少包含于一个超平面 \(\{(x_1,\dots,x_n)\in\mathbb{R}^n:a_1x_1+\dots+a_nx_n=0\}\) 中；任意选取一个这样的超平面。由定理 7.25，我们必有 \(\Theta(n)\) 个坐标 \(a\) 非零的概率为 \(1-O(1/\sqrt n)\)（事实上这里可以有高得多的概率）。由推论 7.13，\(X_i\cdot(a_1,\dots,a_n)=0\) 的概率至多为 \(O(1/\sqrt n)\)。由于此事件是 \(X_i\) 成为 \(X_1,\dots,X_{i-1}\) 线性组合的必要条件，结论得证。♦

由这条推论、贝叶斯恒等式与独立性，容易验证当 \(n\) 较大时

\[P(\det(M_n)=0)\le\sum_{i=2}^{n}P\big(X_i\text{ 是 }X_1,\dots,X_{i-1}\text{ 的线性组合}\big)=O\!\left(\frac{\log n}{\sqrt n}\right).\]

在 [215]、[216] 中，通过此方法的一个变体，这个界被略微改进为 \(O(1/\sqrt n)\)。

逐项相乘 vs. 逐项相加（直觉）要让 \(n\) 个向量线性无关，可以一行一行地添加：第 \(i\) 行只要不落进前 \(i-1\) 行张成的空间即可。

第 \(i\) 行“掉进去”的概率被推论 7.28 控制为 \(O(1/\sqrt n)\)。
“某一行掉进去”的概率，用联合界 \(\le\sum_{i=2}^n O(1/\sqrt n)=O(\sqrt n)\)——太弱，超过 1，没用。
真正有用的是把它接到行列式上：\(P(\det=0)\le\sum_i P(\text{第 }i\text{ 行掉进去})\)，而真正接近 \(n\) 的 \(i\) 才贡献 \(O(1/\sqrt n)\)，加起来约 \(O(\log n/\sqrt n)\)。这给出了一个多项式衰减的界——但不是指数级的，离猜想 \((\tfrac12)^n\) 还很远。

要拿到指数界，需要 Kahn–Komlós–Szemerédi 的全新想法（见定理 7.29）。

利用这一论证的一个精细化版本，事实上可以得到关于行列式的如下估计 [364]：

\[P\Big(\,|\det(M_n)|=\sqrt{n!}\,\exp\big(O(n^{1/2}\log^{1/2}n)\big)\Big)=1-o(1).\]

右端几乎是最优的（见习题 7.5.3 与 7.5.4）。借助 [366] 中近期的结果，可以使 \(o(1)=1/n^{C}\) 对任意固定的 \(C\) 成立，代价是改变左端 \(O\) 中隐藏的常数。然而，是否能取到 \(o(1)=\exp(-\Theta(n))\) 仍不清楚。

现在我们来介绍 Kahn、Komlós 与 Szemerédi 的一项突破性结果 [195]，它在没有任何限制的情况下建立了一个指数型的界。

定理 7.29 [195] 存在一个正常数 \(\varepsilon\) 使得 \(P(\det(M_n)=0)\le(1-\varepsilon)^n\)。

事实上，[195] 中得到的显式值为 \(\varepsilon=0.001\)。这在 [364] 中被改进到大约 \(\varepsilon=0.042\)，随后在 [365] 中被改进到 \(\varepsilon=\tfrac14+o(1)\)。猜想 7.24 断言可以取 \(\varepsilon=\tfrac12+o(1)\)，那将是最优可能的结果。

我们现在勾勒定理 7.29 的证明。用下面这条引理重新表述问题会很方便：

引理 7.30 [195],[374],[364] 我们有 \[P(\det(M_n)=0)=2^{o(n)}\,P\big(X_1,\dots,X_n\text{ 张成一个超平面}\big).\]

证明. 我们已经知道 \[P(\det(M_n)=0)=P\big(X_1,\dots,X_n\text{ 线性相关}\big).\] 因此下界是显然的，我们只需建立上界。若 \(X_1,\dots,X_n\) 线性相关，则必存在某个 \(0\le d\le n-1\) 使得 \(X_1,\dots,X_{d+1}\) 张成一个 \(d\) 维子空间。固定 \(d\) 并以此事件为条件，反复应用推论 7.28 可见，\(X_1,\dots,X_n\) 张成一个超平面的概率为 \(2^{-o(n)}\)。结论得证。♦

“线性相关”\(\approx\)“恰好张成一张超平面”

线性相关只说“张成的维数 \(\le n-1\)”，可能是任意维 \(d\)。
引理 7.30 说：维数偏小（\(d
所以在指数尺度上，几乎所有“相关”都是“恰好差一维”，即所有点落在同一张超平面 \(V\) 上。于是问题归结为：对每张超平面 \(V\)，估计“\(n\) 个点全落在 \(V\) 上”的概率，再对所有 \(V\) 求和。

用这条引理再配合联合界，于是只需证明 \[\sum_V P\big(X_1,\dots,X_n\text{ 张成 }V\big)\le(1-\varepsilon+o(1))^n,\] 其中 \(V\) 取遍所有超平面。注意我们可以把注意力限制在那些由其与 \(\{-1,1\}^n\) 的交张成的超平面 \(V\)；容易看出这是一个有限集合。我们称这样的超平面为非平凡的（non-trivial）。与一张非平凡超平面相关联的一个重要的量是它的密度 \[P(X\in V)=\frac{|V\cap\{-1,1\}^n|}{|\{-1,1\}|^n},\] 这里我们把 \(X\) 看成 \(\{-1,1\}^n\) 中的一个随机元素。注意只要 \(v\) 是 \(V\) 的法向量，就有 \(P(X\in V)=P(X\cdot v=0)\)。我们可以用下面的引理排除掉所有低密度超平面的贡献：

引理 7.31 [195] 对任意 \(0<\alpha<1\)，我们有 \[\sum_{V:\,P(X\in V)\le\alpha}P\big(X_1,\dots,X_n\text{ 张成 }V\big)\le n\alpha.\]

证明. 若 \(X_1,\dots,X_n\) 张成超平面 \(V\)，则存在某个 \(1\le i\le n\)，使得从 \(X_1,\dots,X_n\) 中去掉 \(X_i\) 后所成的 \(n-1\) 个向量仍然张成 \(V\)。固定 \(i\) 并以此事件为条件，可见 \(V\) 由除 \(X_i\) 之外的所有向量所决定，而此时 \(X_i\) 也落在 \(V\) 中的概率至多为 \(\alpha\)。结论得证。♦

每张非平凡超平面 \(V\) 抓住一部分 \(\pm1\) 顶点；抓得越多，密度 \(P(X\in V)\) 越高，\(n\) 个随机点全落进去的概率 \(\approx P(X\in V)^n\) 也越大。低密度超平面由引理 7.31 一次性清扫掉。

这样，为建立断言，只需考虑那些满足 \(P(X\in V)\ge(1-\varepsilon)^n\) 的高密度超平面。另一方面，由引理 7.26 与推论 7.13，我们可以控制那些满足 \(P(X\in V)\gg\tfrac1{\sqrt n}\) 的极高密度超平面。所以实际上我们只需处理 \[(1-\varepsilon)^n\le P(X\in V)\le O\!\Big(\tfrac1{\sqrt n}\Big)\] 这一段范围。

现在我们关键性地用到相对 Halász 不等式，即引理 7.14。令 \(0<\mu\ll1\) 为一个小参数（与 \(n\) 无关），并令 \(Y\in\{-1,0,1\}^n\) 为随机变量 \(Y=(\eta_1^{(\mu)},\dots,\eta_n^{(\mu)})\)。引理 7.14 蕴含（当 \(n\) 足够大时）：若 \(\mu\) 足够小，则 \(Y\) 比 \(X\) 更强地集中在上述超平面 \(V\) 上：

\[\tag{7.11}P(Y\in V)=O(\sqrt\mu)\,P(X\in V).\]

若我们使用非正式的启发式 \[P\big(X_1,\dots,X_n\text{ 张成 }V\big)\approx P(X\in V)^n,\] 那么我们就期望 \[P\big(X_1,\dots,X_n\text{ 张成 }V\big)\le O(\sqrt\mu)^n\,P\big(Y_1,\dots,Y_n\text{ 张成 }V\big),\] 其中 \(Y_1,\dots,Y_n\) 是 \(Y\) 的相互独立的同分布副本。对此式在 \(V\) 上求和，并利用一个平凡事实——每一组 \(Y_1,\dots,Y_n\) 至多张成一张超平面 \(V\)——我们于是期望 \[P(M_n=0)\le O(\sqrt\mu)^n,\] 取 \(\mu\) 足够小，这当然就给出了定理 7.29。

核心想法：把 \(X\) 换成更“尖”的 \(Y\)

\(X\) 的每个坐标是 \(\pm1\)；而 \(Y\) 的每个坐标以大概率取 \(0\)、小概率（由 \(\mu\) 控制）取 \(\pm1\)。\(Y\) 更稀疏。
相对 Halász 不等式 (7.11) 说：对同一张超平面，\(Y\) 落入的概率只是 \(X\) 的 \(O(\sqrt\mu)\) 倍——一个可以任意调小的固定折扣。
把“\(n\) 个点全落进 \(V\)”看成 \(n\) 次独立事件相乘，\(X\) 版与 \(Y\) 版相差因子 \(O(\sqrt\mu)^n\)。
而 \(Y\) 版求和后总量 \(\le1\)（每组 \(Y\) 至多定一张 \(V\)）。于是 \(X\) 版总量 \(\le O(\sqrt\mu)^n\)，取 \(\mu\) 小到使 \(\sqrt\mu<1-\varepsilon\)，就压出了指数界。这正是把加性组合学的集中不等式当作“概率折扣券”来用。

上述策略几乎奏效，唯有一个小问题：\(Y_1,\dots,Y_n\) 可能彼此过于线性相关，以至于它们只张成 \(V\) 的一个真子空间，而非 \(V\) 本身。解决这个问题最简单的办法，是只使用少量的 \(Y\)，譬如取 \(Y_1,\dots,Y_{\delta n}\)，其中 \(\delta\) 很小¹。若 \(V\) 的密度足够高且 \(\delta\) 足够小，我们就能保证 \(Y_1,\dots,Y_{\delta n}\) 在 \(V\) 中保持线性无关。这把本论证中潜在的收益从 \(O(\sqrt\mu)^n\) 削减到了仅 \(O(\sqrt\mu)^{\delta n}\)，但这仍足以建立定理 7.29。

更严格地，我们引入独立于 \(X_1,\dots,X_n\) 的 \(Y_1,\dots,Y_{\delta n}\)。固定一个密度 \((1-\varepsilon)^n\le\sigma\le O(1/\sqrt n)\)，并令 \(V\) 满足 \(P(X\in V)=(1+O(\tfrac1n))\sigma\)： \[P\big(Y_1,\dots,Y_{\delta n}\in V\big)\ge\Omega\!\Big(\tfrac{1}{\sqrt\mu}\Big)^{\delta n}\sigma^{\delta n}.\] 若 \(\delta\) 充分小（依赖于 \(\mu\)），且 \(\varepsilon\) 充分小（依赖于 \(\delta\) 与 \(\mu\)），则可以修改推论 7.28，把上式精细化为 \[\tag{7.12}P\big(Y_1,\dots,Y_{\delta n}\text{ 在 }V\text{ 中线性相关}\big)\ge\Omega\!\Big(\tfrac{1}{\sqrt\mu}\Big)^{\delta n}\sigma^{\delta n};\] 我们把它留作习题。由独立性，我们于是有 \[P\big(X_1,\dots,X_n\text{ 张成 }V\big)\le O(\sqrt\mu)^{\delta n}\,\sigma^{-\delta n}\,P(E_V),\] 其中 \(E_V\) 是事件“\(X_1,\dots,X_n\) 张成 \(V\) 且 \(Y_1,\dots,Y_{\delta n}\) 在 \(V\) 中线性无关”。但若此事件发生，则在 \(X_1,\dots,X_n\) 中存在 \(n-\delta n\) 个向量，它们与 \(Y_1,\dots,Y_{\delta n}\) 一起张成 \(V\)。若固定所有这些向量，则 \(V\) 也被固定，而 \(X_1,\dots,X_n\) 中剩下的 \(\delta n\) 个向量落在 \(V\) 中的概率为 \(O(\sigma^{\delta n})\)。我们于是断定 \[\sum_{V:\,P(X\in V)=(1+O(\frac1n))\sigma}P(E_V)\le\binom{n}{\delta n}\,O(\sigma^{\delta n}),\] 将其与前面诸估计结合，给出 \[\sum_{V:\,P(X\in V)=(1+O(\frac1n))\sigma}P\big(X_1,\dots,X_n\text{ 张成 }V\big)\le O(\sqrt\mu)^{\delta n}\binom{n}{\delta n}.\] 若我们选取 \(\delta\) 充分小（依赖于 \(\mu\)）、\(\varepsilon\) 充分小（依赖于 \(\delta,\mu\)），就能使右端为 \((1-\varepsilon+o(1))^n\)。再对所有相关的 \(\sigma\) 求和（这样的 \(\sigma\) 只有大约 \(O(n^2)\) 个），即如所愿地得到定理 7.29。

¹ 严格来说，我们应当用 \(\lfloor\delta n\rfloor\) 代替 \(\delta n\)，但为叙述方便，我们将略去这个无关紧要的细节。

为什么只用 \(\delta n\) 个 \(Y\) 仍然够（直觉）

理想方案“用满 \(n\) 个 \(Y\)”会因 \(Y\) 太稀疏而张不满 \(V\)，论证失效。
折中：只用 \(\delta n\) 个 \(Y\)（一小批），再借 \(n-\delta n\) 个 \(X\) 凑齐 \(V\) 的其余维度。这样 \(Y\) 这一小批仍能保持线性无关。
代价是折扣券只剩 \(O(\sqrt\mu)^{\delta n}\)（指数变小了），但底数仍 \(<1\)，乘上组合因子 \(\binom{n}{\delta n}\) 后整体仍为 \((1-\varepsilon)^n\) 量级。指数界因此保住。

利用定理 7.23，可以把 \(\varepsilon\) 提升到大至 \(\tfrac14+o(1)\)。其基本要点在于：定理 7.23 允许人们显著地改进 (7.11)，除非超平面 \(V\) 具有某种例外的形态（特别是，其法向量的坐标……）。

（本节摘录至此结束；正文在此处转入对例外超平面之法向量结构的进一步讨论，超出本 PDF 节选范围。）

本节回顾一条主线串起全章工具：

问题：\(P(\det M_n=0)\)，猜想 \((\tfrac12+o(1))^n\)，主因是“两行/两列重合”（定理 7.24，量级 \(n^2 2^{-n}\)）。
受限情形：把法向量 \(v\) 限制在稀疏向量集 \(\Omega_1\)（定理 7.25/引理 7.26）或小整数向量集 \(\Omega_2\)（定理 7.27），用中心二项系数界 \(\binom{k}{k/2}/2^k=O(1/\sqrt k)\) 和逆 Littlewood–Offord（命题 7.21）即可拿到 \((\tfrac12+o(1))^n\)。
逐行添加：推论 7.28 给出每行“掉进旧空间”的概率 \(O(1/\sqrt n)\)，但只得多项式界 \(O(\log n/\sqrt n)\)。
指数界：Kahn–Komlós–Szemerédi（定理 7.29）把问题化为“点全落进高密度超平面 \(V\)”（引理 7.30、7.31），再用相对 Halász 不等式 (7.11) 把 \(X\) 换成更稀疏的 \(Y\)，赚到折扣因子 \(O(\sqrt\mu)^{\delta n}\)，得到 \((1-\varepsilon)^n\)。后续工作把 \(\varepsilon\) 推到 \(\tfrac14+o(1)\)。

返回全书目录