Tao–Vu · 加性组合学 · 第 1 章概率方法

1.9　薄华林基Thin Waring bases

本页为译文 + 讲解合一：黑色正文为忠实翻译；彩色框（目标 / 例 / 分步推演 / 注记）与配图为面向高中生的详解，逐步推演、举例、画图，不用比喻。本节是全章的高潮，把前面发展的概率工具（尤其是 1.7 节的多项式集中不等式）用来回答一个非常具体的数论问题，建议先把下面的“本节目标”读懂。

本节目标一个数论里的经典对象是“华林基”——所有 \(r\) 次方数 \(\{0^r,1^r,2^r,\dots\}\)。已知当 \(k\) 足够大时，每个自然数都能写成 \(k\) 个 \(r\) 次方数之和。本节要问：能不能从这一堆 \(r\) 次方数里挑出极少的一部分，使得“每个数仍能写成 \(k\) 个之和”，而且表示方法的数目被压到最小（约 \(O(\log n)\) 个）？这样的稀疏子集叫“薄基”。本节用概率方法证明：这样的薄子基确实存在。

从“存在薄基”到“经典基里藏着薄基”

回忆：\(k\) 阶薄基（thin basis of order \(k\)）是指一个集合 \(B\subset\mathbb N\)，使得对所有充分大的 \(n\) 都有 \(r_{k,B}(n)=O(\log n)\)。上面已经证明的定理 1.15 断言：\(\mathbb N\) 含有任意阶的薄基。鉴于像平方数、素数这样的经典基（classical bases）如此丰富，自然要提出如下问题：

符号回顾 \(r_{k,B}(n)\) 表示把 \(n\) 写成 \(B\) 中 \(k\) 个元素之和的表示个数（即满足 \(b_1+\dots+b_k=n\)、各 \(b_i\in B\) 的方式数）。称 \(B\) 是 \(k\) 阶基，意思是对所有充分大的 \(n\) 都有 \(r_{k,B}(n)\ge 1\)，也就是每个大数都能写成 \(k\) 个 \(B\)-元素之和。"薄"指在保证 \(r_{k,B}(n)\ge1\)（基的资格）的前提下，把表示数压到尽可能小，\(r_{k,B}(n)=O(\log n)\)。

问题 1.46 设 \(A\) 是任意固定的 \(k\) 阶基。\(A\) 是否含有一个薄子基（thin subbasis）\(B\)？

注意，西顿（Sidon）最初的问题可以看成本问题在 \(k=2\)、\(A=\mathbb N\) 时的特例。由 (1.21) 我们知道，一个薄基 \(B\) 享有如下的上下界：

\[|B\cap[0,N]|=\Omega_k\!\left(N^{1/k}\right);\qquad |B\cap[0,N]|=O_k\!\left(N^{1/k}\log^{1/k}N\right)\]

对一切充分大的 \(N\) 成立。于是我们可以考虑问题 1.46 的如下较弱版本：

问题 1.47 设 \(A\) 是任意固定的 \(k\) 阶基。\(A\) 是否含有一个子基 \(B\)，使得对一切充分大的 \(N\) 都有 \(|B\cap[0,N]|=O_k\!\left(N^{1/k}\log^{1/k}N\right)\)？

为什么 \(N^{1/k}\) 是绕不过去的下界这一步是理解全节的钥匙。假设 \(B\) 是 \(k\) 阶基，看区间 \([0,N]\)。每个 \(n\le N\) 至少有一种 \(k\)-元素表示，而这些表示用到的元素都不超过 \(N\)，即都落在 \(B\cap[0,N]\) 里。设 \(M=|B\cap[0,N]|\)。

从 \(M\) 个元素里取 \(k\) 个（可重复）来求和，最多产生 \(\binom{M+k-1}{k}=O_k(M^k)\) 个不同的和。
这些和必须覆盖 \(0,1,\dots,N\) 共约 \(N\) 个目标值（基的资格要求），所以 \(O_k(M^k)\ge N\)。
反解得 \(M\ge \Omega_k(N^{1/k})\)。这就是下界 \(|B\cap[0,N]|=\Omega_k(N^{1/k})\) 的直觉来源——太稀疏就当不了基。

另一方向：若 \(r_{k,B}(n)=O(\log n)\)，把 \(n\) 从 \(0\) 加到 \(N\)，总表示数 \(\sum_{n\le N}r_{k,B}(n)=O(N\log N)\)；而这个总和又约等于 \(M^k\)（每组 \(k\)-元组贡献一个和）。于是 \(M^k=O(N\log N)\)，给出 \(M=O_k(N^{1/k}\log^{1/k}N)\)。这正是上界。所以薄基的密度被夹在 \(N^{1/k}\) 附近，只差一个 \(\log\) 因子。

把稠密的华林基"瘦身"成薄子基：保留的点要少到接近 \(N^{1/k}\) 的密度极限，又不能少到漏掉某个大数。

华林基上的已知结果

问题 1.47 已经针对华林基 \(\mathbb N^{\wedge r}=\{0^r,1^r,2^r,\dots\}\) 被深入研究，尤其是在 \(r=2\) 的情形 [90, 56, 387, 388, 384, 331]。对这些基，已知：若 \(k\) 充分大（依赖于 \(r\)），则 \(\mathbb N^{\wedge r}\) 是 \(k\) 阶基，并且进一步有

\[\tag{1.42} r_{k,\mathbb N^{\wedge r}}(n)=\Theta_{k,r}\!\left(n^{\frac{k}{r}-1}\right);\]

注意这与 (1.21) 是相容的。

指数 \(\tfrac{k}{r}-1\) 是怎么来的这是把 \(n\) 写成 \(x_1^r+\dots+x_k^r=n\) 的解数的几何估计，用"体积近似计数"即可看懂。

每个 \(x_j\) 的取值范围是 \(0\le x_j\le n^{1/r}\)（因为单个 \(x_j^r\le n\)）。
不加约束时 \((x_1,\dots,x_k)\) 是一个边长约 \(n^{1/r}\) 的 \(k\) 维方块里的格点，共约 \((n^{1/r})^k=n^{k/r}\) 个。
约束 \(x_1^r+\dots+x_k^r=n\) 是一个方程，把维数从 \(k\) 降到 \(k-1\)，相当于在解数上"除以"一个量级 \(n^{1/r}\cdot n^{-1/r}\cdots\)；精确算下来，落在这张曲面附近的格点约为 \(n^{k/r}\big/ n=n^{\frac{k}{r}-1}\)。
于是表示数 \(r_{k,\mathbb N^{\wedge r}}(n)=\Theta_{k,r}(n^{k/r-1})\)。当 \(k\) 增大，这个数随 \(n\) 增长得越来越快——表示极其富余，正好留出"删点瘦身"的空间。

Choi、Erdős 与 Nathanson 在 [56] 中证明：\(\mathbb N^{\wedge 2}\)（即平方数集）含有一个 \(4\) 阶子基 \(B\)，使得对一切 \(N>1\) 与一切 \(\varepsilon>0\) 都有 \(|B\cap[0,N]|=O_\varepsilon(N^{1/3+\varepsilon})\)。这被 Zöllner [387, 388] 推广：他证明对任意 \(k\ge 4\)，都存在一个 \(k\) 阶子基 \(B\subset\mathbb N^{\wedge 2}\)，使得对任意 \(\varepsilon>0\) 与 \(N>1\) 都有 \(|B\cap[0,N]|=O_{k,\varepsilon}(N^{1/k+\varepsilon})\)。这个界后来被进一步加强为 \(|B\cap[0,N]|=O_k(N^{1/k}\log^{1/k}N)\)；由 (1.21) 我们知道，除了那个对数因子之外，这个界是最优的。Spencer 在 [331] 中给出了 Wirsing 关于 \(k=4\) 情形结果的一个简短证明。

对 \(r\ge 3\)，已知的结果要少得多。1980 年，Nathanson [259] 证明 \(\mathbb N^{\wedge r}\) 含有某个阶的子基，其密度为 \(o(N^{1/r})\)。在同一篇论文里，他提出了问题 1.47 在 \(A=\mathbb N^{\wedge r}\) 时的一个特例。

在 [379] 中，Vu 对 \(A=\mathbb N^{\wedge r}\)（任意 \(r\ge 1\)）肯定地回答了问题 1.46（从而也回答了问题 1.47）：

定理 1.48 对任意固定的 \(r\)，存在一个整数 \(k_0\)，使得下述成立：对任意 \(k\ge k_0\)，所有 \(r\) 次方数构成的集合 \(\mathbb N^{\wedge r}\) 含有一个 \(k\) 阶薄基 \(B\)。特别地，由 (1.21) 我们有 \(|B\cap[0,n)|=O_k\!\left(N^{1/k}\log^{1/k}N\right)\) 对一切充分大的 \(N\) 成立。

注记 1.49 定理 1.37 中那个尖锐的集中（concentration）结果，最初正是为了证明定理 1.48 而发展出来的。

把定理 1.48 翻成大白话取 \(r=2\)（平方数）。所有平方数 \(0,1,4,9,16,25,\dots\) 太多了。定理说：只要 \(k\) 足够大（比如 \(k\ge k_0\)），就能从平方数里抠掉绝大多数，只留下一个稀薄子集 \(B\)，使得

每个充分大的 \(n\) 仍能写成 \(B\) 里 \(k\) 个平方数之和（\(B\) 还是 \(k\) 阶基）；
这样的写法数目 \(r_{k,B}(n)=O(\log n)\)（薄）；
留下的元素在 \([0,N]\) 里只有约 \(N^{1/k}\log^{1/k}N\) 个——已逼近理论下限 \(N^{1/k}\)。

关键证明思想：随机地保留每个 \(r\) 次方数，保留概率随数的大小精心调节，然后证明这个随机集合以概率 1 同时满足以上三条。

核心命题：随机子集几乎必然是薄基

正如定理 1.15 是命题 1.44 的推论一样，定理 1.48 是下述命题的直接推论。

命题 1.50 设 \(k,r\ge 2\)，并设 \(B\) 是 \((\mathbb Z^+)^{\wedge r}\) 的一个随机子集，定义方式为：让各个 \(x^r\in B\) 相互独立地以概率 \[P(x^r\in B)=\min\!\left(C\,x^{\frac{r}{k}-1}\log^{1/k}x,\;1\right)\] 被选入，其中 \(C>1\) 为某个正常数。若 \(k\) 充分大（依赖于 \(r\)），且 \(C\) 充分大（依赖于 \(k,r\)），则以概率 1，对除有限多个 \(n\) 之外的所有 \(n\) 都有 \(r_{k,B}(n)=\Theta_{C,k,r,B}(\log n)\)。特别地，\(B\) 以概率 1 是 \(k\) 阶薄基。

为什么保留概率取成 \(C\,x^{r/k-1}\log^{1/k}x\) 这个概率不是随便定的——它被"反推"出来，使得每个 \(n\) 的期望表示数恰好是 \(\log n\) 量级。

要使 \(n\) 能表示，需要 \(x_1^r+\dots+x_k^r=n\) 这样的 \(k\)-元组中，至少有一组的 \(k\) 个元素全部被保留。
一组被全部保留的概率约为 \(\prod_{j=1}^k P(x_j^r\in B)\approx \prod_j C x_j^{r/k-1}\log^{1/k}x_j\)。
把这个乘积对所有 \(\Theta(n^{k/r-1})\) 个 \(k\)-元组求和，得到期望表示数 \(E(Y_n)\)。代入概率后量纲恰好抵消掉那个 \(n^{k/r-1}\)，只剩下 \(C^k\log n\) 量级（见下文 (1.43)）。
所以期望 \(\approx C^k\log n\)：取 \(C\) 大可保证 \(\ge1\)（基的资格），而 \(\log n\) 的增长正是"薄"所要求的上界。指数 \(\tfrac{r}{k}-1\) 是负的，意味着越大的数被保留的概率越小——大数本来表示就多，要删得更狠。

证明（概要）. 与命题 1.44 的证明一样，只需证明：以概率 1，对除有限多个 \(n\) 之外的所有 \(n\) 都有 \[E(n)=O_{C,k,r,B}(1);\qquad R(n)=\Theta_{C,k,r,B}(\log n),\] 其中 \(R(n)\) 与 \(E(n)\) 在 (1.40)、(1.41) 中已定义。\(E(n)\) 的贡献可用与上一节相似的论证处理，留作习题，故我们集中于 \(R(n)\)。如前，我们可以把 \(R(n)\) 写成一个布尔多项式 \(Y_n=Y_n(t_1,\dots,t_m)\)，其中 \(m=\lfloor n^{1/r}\rfloor\)，\(t_x=\mathbb I(x^r\in B)\)，且 \[Y_n=\sum_{A\in\mathcal A_n}\ \prod_{x\in A}t_x,\] 这里 \(\mathcal A_n\) 是所有正整数集 \(\{x_1,\dots,x_k\}\) 的全体，满足 \(x_1^r+\dots+x_k^r=n\) 且 \(n^{0.1}期望。下面我们集中于 \(Y_n\) 的期望，特别要确立 \[E(Y_n)=\Theta_{k,r}\!\left(C^{k}\log n\right).\] 这是主估计，论证的其余部分照命题 1.44 进行。注意到 \[E(Y_n)=C^{k}\sum_{\substack{x_1<\dots♦

关于证明结构的说明上面的概要把整个证明压缩成一句话："把表示数写成随机变量 \(Y_n\)，证明它的期望约为 \(\log n\)，再用集中不等式让随机实例几乎必然贴住期望。" 其中：

\(t_x=\mathbb I(x^r\in B)\) 是独立的 \(0/1\) 随机变量（第 \(x\) 个 \(r\) 次方数是否被保留）。
\(Y_n=\sum_A\prod_{x\in A}t_x\) 数的是"全部元素都被保留"的合法 \(k\)-元组数，正是表示数 \(R(n)\) 的主部。
取期望时 \(E(t_x)=P(x^r\in B)\)，乘积展开就出现 \(C^k\prod x_j^{r/k-1}\log^{1/k}x_j\)。
(1.43) 是纯粹的计数/积分引理：那一堆负指数幂在约束曲面上求和恰好等于常数量级 \(\Theta_{r,k}(1)\)，这正是把 \(n^{k/r-1}\) 抵消干净、只留 \(\log n\) 的技术核心。

命题 1.50 的证明骨架：随机保留 → 表示数化为随机多项式 \(Y_n\) → 算期望约 \(\log n\) → 用集中不等式（1.7 节）锁住随机实例 → 几乎必然得到薄基。

为什么 (1.43) 是"略强于"(1.42) 的标准界 (1.42) 给的是整个表示数 \(r_{k,\mathbb N^{\wedge r}}(n)=\Theta(n^{k/r-1})\)，即对所有 \(k\)-元组求和带权重 \(1\)。而 (1.43) 给的是带负幂权重 \(\prod x_j^{r/k-1}\) 的加权和等于 \(\Theta_{r,k}(1)\)。把这个加权和"去掉权重"就回到 (1.42) 的数量级，所以 (1.43) 蕴含 (1.42)；但 (1.43) 还额外控制了权重的分布（即表示中各 \(x_j\) 大小的均衡程度），因此信息更丰富——这正是构造薄基时需要的精细控制。

即时自测

取 \(r=2,k=4\)。把 \(\mathbb N^{\wedge 2}\) 中第 \(x\) 个平方数以概率 \(\min(Cx^{2/4-1}\log^{1/4}x,1)=\min(Cx^{-1/2}\log^{1/4}x,1)\) 保留。随着 \(x\) 增大，这个概率是增大还是减小？这与"大数表示太多、要删得更狠"是否一致？
说明：为什么薄基在 \([0,N]\) 中的元素个数不可能少于常数倍 \(N^{1/k}\)？（提示：用上文"\(M\) 个元素最多产生 \(O_k(M^k)\) 个和"。）
在命题 1.50 的期望式中，把每个 \(x_j\) 都近似看成 \(n^{1/r}\)，元组数近似看成 \(n^{k/r-1}\)，验证 \(C^k\cdot n^{k/r-1}\cdot (n^{1/r})^{k(r/k-1)}\cdot(\log n)\) 化简后确实约为 \(C^k\log n\)。

返回全书目录