Davenport 圆法 · 第 3 章 · 高中生详解版

Weyl 不等式与华罗庚不等式（手把手讲解）A step-by-step, example-driven explanation for beginners

导读 · 为什么需要这些"丑"的不等式？

正式钻进符号之前，先想清楚一件事，否则你会觉得后面那些从等式退化成不等式、还一路丢掉一大堆东西的步骤莫名其妙、甚至"很丑"。这一节就回答：这些结论是在什么背景下产生的，为什么非得是不等式。

① 我们要的根本不是 $S$ 本身

请先纠正一个隐含的期待：我们从来没打算精确算出 $S=\sum e(f(x))$。真正想回答的问题是——

"$N$ 能不能写成 $s$ 个 $k$ 次方之和？有多少种写法？"

这个"写法数"$r(N)$ 由一个积分给出（就是第 4 章的 (4.1)，这里先认个脸熟）：

\[ r(N)=\int_0^1 T(\alpha)^s\,e(-N\alpha)\,d\alpha. \]

我们的目标只是证明 $r(N)\gt 0$（至少存在一种写法），最好再算出它的主阶。关键：要证 $r(N)\gt 0$，根本不需要 $r(N)$ 的精确值，只需要"正的主项 $\gt$ 误差的上界"。 我们要的是一场赛跑的胜负，不是终点的精确读数——这就是一切不等式的源头。

② 圆法的核心：把积分劈成"信号"和"噪声"

把积分区间 $[0,1]$ 切成两块（这就是"圆法/Hardy–Littlewood 方法"的招牌动作）：

主弧 $\mathfrak{M}$（$\alpha$ 靠近分母小的分数）: 这里 $T(\alpha)$ 很大、有漂亮的近似公式，贡献主项，量级约 $P^{s-k}$。这是"信号"，要算准——这部分恰恰用等式、用精细的渐近公式来处理。
次弧 $\mathfrak{m}$（其余所有 $\alpha$）: 这里 $T(\alpha)$ 没有任何封闭公式、剧烈震荡，我们既算不出、也不想算。只需要证明它们加起来比主项小，淹没不了信号。这是"噪声"。

所以本章那些"丑"的不等式，全部用在次弧上，唯一任务就是：把噪声压到信号以下。这就回答了"为什么要不等式"——对次弧，等式既不可能、也没必要。

③ 为什么"丢掉很多东西"反而是对的

④ 为什么平凡上界不够，那些幂次怎么"卡"出来的

若在次弧上偷懒、用平凡上界 $|T|\le P$，就会得到

\[ \int_{\mathfrak m}|T|^s\,d\alpha\le P^s\cdot|\mathfrak m|\approx P^{\,s}. \]

可是主项才 $P^{\,s-k}$，而 $P^{s}\gg P^{\,s-k}$——噪声把信号彻底淹没，什么都证不出来。于是我们必须把次弧积分压到 $\ll P^{\,s-k-\delta}$（严格小于主项）。Weyl 不等式正是为赢得这点差距而量身定制的：它给出 $|T(\alpha)|\ll P^{\,1-\delta}$（本章主角），Hua 不等式再控制 $\int|T|^{2^k}$，两者一拼（第 4 章引理 4.1）就把次弧压了下去。所以指数里那些 $-1/K$、$2^k-k$ 不是凭空的丑数字，而是"刚好够赢"所需的最小代价。

⑤ 为什么"丑"——丑是一种诚实

(a) 要对所有情况成立。 这些不等式对任意多项式、任意 $\alpha$、无条件（不假设任何未证猜想）都成立。一个必须照顾最坏情形的界，对典型情形必然保守——丑，是"普适 + 无条件"的代价。

(b) 它离真相还很远。 真值往往是平方根抵消 $|S|\approx\sqrt P=P^{1/2}$（还记得例 2.1 里 $\sum e(x^2/5)$ 恰好是 $\sqrt5$ 吗？那就是 $P^{1/2}$）。而 Weyl 只给到 $P^{\,1-1/2^{k-1}}$，当 $k$ 大时离 $P^{1/2}$ 差很远。这个"丑"诚实地标出了"能证明的"与"真相"之间的鸿沟。 Weyl（1916）只是第一代、最粗糙的工具；后来 Vinogradov 把 $2^{k-1}$ 改进成约 $4k^2\log k$（见第 3 章末的注），直到现代的 Vinogradov 中值定理（Wooley 的 efficient congruencing、Bourgain–Demeter–Guth 的 decoupling，约 2015 年）才基本做到最优。整个领域一直在把这些不等式变得不那么丑——丑是暂时的、是前沿的标记。

(c) 美在策略，不在某一行公式。 圆法的美在那个"主弧算准、次弧压小"的二分思想：用一个积分把"解的个数"翻译成"信号与噪声之争"，再分别用等式和不等式各个击破。单看一行 $\le$ 确实难看，退一步看整盘棋却极漂亮。

⑥ 历史背景

这套方法源于 Hardy 与 Ramanujan（1918） 研究分拆函数 $p(n)$，随即由 Hardy 与 Littlewood 在 1920 年代的系列论文《Partitio Numerorum》中发展成通用工具，专攻 Waring 问题（每个整数是若干 $k$ 次方之和）与 Goldbach 问题；Vinogradov（1937） 用它证明了"充分大的奇数是三个素数之和"。它们生来就是为了处理一类没有封闭公式、只能求存在性与渐近的丢番图问题——在这种问题里，不等式不是退而求其次，而是唯一可能的语言。

一句话总结：这些不等式之所以"丢掉很多、还很丑"，是因为我们要的从来不是精确值，而是"信号 $\gt$ 噪声"这一个胜负判定；对算不清的次弧，主动扔掉相位、只保留够用的上界，是唯一可行也最经济的做法——而它们的丑，恰恰诚实地记录着"可证"与"真相"之间至今仍在缩小的差距。带着这个全局观，再看下面每一步的 $\le$，就会发现它们一点都不随意。

读这篇要有的心理准备：这一章的原文是给数学研究者看的，跳步很多。下面我把它拆成最小的步骤，每出现一个新符号就停下来解释它是什么、读作什么、代进具体数字算一遍。你只需要会：加减乘除、平方、三角函数 $\sin\cos$、以及"复数 $i$ 满足 $i^2=-1$"。其余的我们从零讲起。

0. 这一章到底想干什么？

我们想研究一种特别的求和，叫指数和，长这个样子：

\[ S=\sum_{x=1}^{P}e\big(f(x)\big). \]

先别慌，下面会逐字解释。这一章只有两个主要结论：

Weyl 不等式：告诉你这个和 $S$ 不会太大——它远小于你一眼看上去的大小。
华罗庚不等式：告诉你 $|S|$ 的某个高次幂"平均下来"也不大。

"和不会太大"这件事，正是后面用圆法解决"每个大整数都能写成若干个 $k$ 次方之和"（华林问题）的关键武器。这一章就是在打磨这把武器。

1. 预备知识：记号 $e(\theta)$ 是什么

整章都在用一个缩写，定义是：

定义（记号 $e(\theta)$）. 对任意实数 $\theta$， \[ e(\theta)\;:=\;\cos(2\pi\theta)+i\,\sin(2\pi\theta), \] 其中 $i$ 是虚数单位（$i^2=-1$），$2\pi\theta$ 是一个用弧度表示的角（$2\pi$ 弧度 $=360^\circ$）。

逐字解释：

$\theta$（读作"西塔"）: 一个实数，是我们喂给这个记号的输入。
$e(\theta)$: 一个复数，也就是平面上的一个点 $(\cos 2\pi\theta,\ \sin 2\pi\theta)$。因为 $\cos^2+\sin^2=1$，这个点一定落在以原点为心、半径为 1 的圆上。

它有三条性质，全章反复用到，请记牢：

长度永远是 1：$|e(\theta)|=\sqrt{\cos^2(2\pi\theta)+\sin^2(2\pi\theta)}=1$。
只看小数部分：角转一整圈回到原地，所以 $e(\theta+1)=e(\theta)$。特别地，若 $m$ 是整数则 $e(m)=e(0)=1$。
相乘=指数相加：$e(\theta_1)\,e(\theta_2)=e(\theta_1+\theta_2)$。（这其实就是 $e^{2\pi i\theta}$ 的指数律，所以才用字母 $e$。）

例 1.1. 算几个具体值：

$e(0)=\cos 0+i\sin 0=1$。
$e(\tfrac14)=\cos 90^\circ+i\sin 90^\circ=0+i\cdot 1=i$。
$e(\tfrac12)=\cos 180^\circ+i\sin 180^\circ=-1$。
$e(\tfrac13)=\cos 120^\circ+i\sin 120^\circ=-\tfrac12+i\tfrac{\sqrt3}{2}$。
$e(\tfrac95)=e(1+\tfrac45)=e(\tfrac45)$（用性质 2，把整数部分 1 丢掉）。

2. 什么是"指数和" $S$

现在看主角：

\[ S=\sum_{x=1}^{P}e\big(f(x)\big). \]

$\textstyle\sum_{x=1}^{P}$（求和号）: 意思是"让 $x$ 依次取 $1,2,3,\dots,P$，把每个对应的东西加起来"。
$P$: 一个正整数，表示我们要加多少项。通常 $P$ 很大（几千、几万……），我们关心 $P$ 很大时 $S$ 有多大。
$f(x)$: 一个多项式，例如 $f(x)=\alpha x^2$ 或 $\alpha x^3+\dots$。它最高的次数记作 $k$。
$k$: 多项式 $f$ 的次数（最高次项的指数）。比如 $f(x)=\alpha x^3$ 时 $k=3$。
$\alpha$（读作"阿尔法"）: $f$ 的最高次项系数，是一个实数。它将扮演核心角色。

所以 $S$ 就是把 $P$ 个"圆上的点"加起来，得到的还是一个复数。我们关心它的长度 $|S|$。

例 2.1（完整算一遍）. 取 $k=2$，$f(x)=\dfrac{x^2}{5}$（即 $\alpha=\tfrac15$），$P=5$。那么 \[ S=\sum_{x=1}^{5}e\!\Big(\frac{x^2}{5}\Big)=e(\tfrac15)+e(\tfrac45)+e(\tfrac95)+e(\tfrac{16}{5})+e(\tfrac{25}{5}). \] 逐项用"只看小数部分"化简（性质 2）： \[ e(\tfrac95)=e(\tfrac45),\quad e(\tfrac{16}{5})=e(\tfrac15),\quad e(\tfrac{25}{5})=e(5)=e(0)=1. \] 于是 \[ S=1+2\,e(\tfrac15)+2\,e(\tfrac45). \] 又因为 $e(\tfrac45)=e(-\tfrac15)$（差一个整数 1），而 $\cos$ 是偶函数、$\sin$ 是奇函数，所以 $e(\tfrac15)+e(\tfrac45)=2\cos 72^\circ\approx 2(0.309)=0.618$。代回： \[ S=1+2(0.618)=2.236\approx\sqrt5. \] 注意虚部（$\sin$ 那部分）正好两两抵消，最后 $S$ 是个正实数。
关键观察：这里加了 5 个长度为 1 的复数，如果它们方向一致，和的长度可以达到 5；但实际只有 $\sqrt5\approx2.236$。这就是"抵消"。整章的目标就是证明这种抵消一定会发生，从而 $|S|$ 比 $P$ 小得多。

3. 最笨的上界 $P$，以及为什么我们想要更好的

因为每一项 $|e(f(x))|=1$，由三角不等式（"和的长度 $\le$ 各长度之和"）马上得到：

\[ |S|=\Big|\sum_{x=1}^{P}e(f(x))\Big|\le\sum_{x=1}^{P}\big|e(f(x))\big|=\sum_{x=1}^{P}1=P. \]

这叫平凡上界（trivial bound）：$|S|\le P$。它总成立，但没用——它只是说"$P$ 个东西加起来不超过 $P$ 个"。在例 2.1 里平凡上界是 5，实际却是 $\sqrt5$。

Weyl 不等式要给出一个真正小的上界，形如 $|S|\le P^{1-\text{某个正数}}$，也就是 $P$ 的一个低于 1 次的幂。$P$ 越大，这个改进越值钱。

两个简写符号，先讲清楚（后面到处用）：

$A\ll B$（读作"$A$ 远小于等于 $B$"，Vinogradov 记号）: 意思是：存在某个固定常数 $C\gt 0$，使得 $|A|\le C\cdot B$ 永远成立。它和大 $O$ 记号 $A=O(B)$ 完全同义。我们不关心 $C$ 具体是多少，只关心"差不多多大"。
例：$3P+10\ll P$（取 $C=13$ 即可，对 $P\ge1$）。
$\varepsilon$（读作"epsilon"）与 $P^{\varepsilon}$: $\varepsilon$ 表示一个任意小的正数（比如 $0.001$）。$P^{\varepsilon}$ 是一个增长得比任何正次幂都慢的因子；在估计里它几乎可以忽略，写上它只是为了让不等式严格成立。

4. Weyl 不等式：完整陈述 + 逐符号翻译

引理 3.1（Weyl 不等式）. 设 $f(x)=\alpha x^{k}+\alpha_1 x^{k-1}+\cdots+\alpha_k$ 是 $k$ 次实系数多项式，最高次系数为 $\alpha$。又设 $\alpha$ 有一个有理数逼近 $a/q$ 满足 \[ (a,q)=1,\qquad q\gt 0,\qquad \Big|\alpha-\frac{a}{q}\Big|\le\frac{1}{q^{2}}. \] 则对任意 $\varepsilon\gt 0$， \[ \Big|\sum_{x=1}^{P}e(f(x))\Big|\;\ll\;P^{1+\varepsilon}\Big(P^{-\frac1K}+q^{-\frac1K}+\big(\tfrac{P^k}{q}\big)^{-\frac1K}\Big),\qquad K=2^{k-1}. \]

这串符号看着吓人，我们一个一个拆。

$a/q$: 一个分数（有理数），用来近似最高次系数 $\alpha$。$a$ 是整数，$q$ 是正整数。
$(a,q)=1$: 表示 $a$ 与 $q$ 互素（最大公约数是 1），即分数 $a/q$ 已经约到最简。例：$3/5$ 满足 $(3,5)=1$；$2/4$ 不满足，要约成 $1/2$。
$\big|\alpha-\tfrac aq\big|\le\tfrac1{q^2}$: 分数 $a/q$ 与 $\alpha$ 的误差很小，小于分母平方的倒数。这样的分数一定存在——这是数论里的 Dirichlet 逼近定理保证的，任何实数都能被有理数逼近到这个精度。
$K=2^{k-1}$: 一个由次数 $k$ 决定的常数。$k=2$ 时 $K=2$；$k=3$ 时 $K=4$；$k=4$ 时 $K=8$。它会出现在指数 $-1/K$ 上。
右边那个括号 $\big(P^{-1/K}+q^{-1/K}+(P^k/q)^{-1/K}\big)$: 这是改进的来源。和平凡上界 $P$ 相比，现在多乘了一个"小因子"（再加上无害的 $P^{\varepsilon}$）。只要 $q$ 既不太小也不太大，这个括号就 $\ll P^{-\text{正数}}$，于是 $|S|\ll P^{1-\text{正数}}$，比 $P$ 小。

例 4.1（看一眼改进有多大）. 取 $k=3$（立方），则 $K=2^{2}=4$。若分母 $q$ 落在中等范围，比如 $P\le q\le P^{k-1}=P^2$，那么括号里三项都 $\ll P^{-1/4}$，于是 \[ |S|\ll P^{1+\varepsilon}\cdot P^{-1/4}=P^{\frac34+\varepsilon}. \] 对比平凡上界 $P$：当 $P=10^8$ 时，平凡上界是 $10^8$，而 Weyl 给出约 $10^{6}$——小了一百倍。$P$ 越大差距越悬殊。

5. 证明的第一招：把和"平方"，让次数降一

直接估计 $S$ 很难，因为 $f$ 次数高。核心技巧叫 Weyl 差分：先算 $|S|^2$，神奇的是这会把高次多项式变成低一次的多项式。我们一步步来。

由 $|z|^2=z\cdot\overline z$（复数乘它的共轭），并且 $\overline{e(\theta)}=e(-\theta)$：

\[ |S|^{2}=\Big(\sum_{x_1}e(f(x_1))\Big)\Big(\sum_{x_2}e(-f(x_2))\Big) =\sum_{x_1}\sum_{x_2}e\big(f(x_1)-f(x_2)\big). \]

$x_1,x_2$: 原来的求和变量 $x$ 现在出现两份，各自独立地跑遍 $1,\dots,P$。

现在做换元：令第二个变量比第一个大 $y$，即写 $x_2=x_1+y$（这里先看 $x_2\gt x_1$ 的项，对称项类似）。记差分

\[ \Delta_y f(x):=f(x+y)-f(x). \]

$y$: 两个变量之间的间距，是新引入的变量，取 $1,2,\dots$。
$\Delta_y f(x)$（读作"$f$ 关于 $y$ 的差分"）: 把 $f$ 在 $x+y$ 与 $x$ 处的值相减。这是全章最重要的运算。

为什么差分能降次？看具体例子就懂了。

例 5.1（二次 → 一次）. 设 $f(x)=\alpha x^2$（$k=2$）。则 \[ \Delta_y f(x)=\alpha(x+y)^2-\alpha x^2=\alpha\big(x^2+2xy+y^2-x^2\big)=\underbrace{2\alpha y}_{\text{}}\,x+\alpha y^2. \] 原来 $f$ 是 2 次的，差分之后 $\Delta_y f(x)=（2\alpha y)\,x+\alpha y^2$ 变成关于 $x$ 的 1 次多项式！而且 $x$ 的系数是 $2\alpha y$，正比于最高次系数 $\alpha$。

例 5.2（三次 → 二次）. 设 $f(x)=\alpha x^3$（$k=3$）。则 \[ \Delta_y f(x)=\alpha(x+y)^3-\alpha x^3=\alpha\big(3x^2y+3xy^2+y^3\big)=3\alpha y\,x^2+3\alpha y^2\,x+\alpha y^3. \] 从 3 次降到了 2 次。每平方一次、差分一次，次数就降 1。

下面就从上一行那个双重和，一步步推出本节要用的不等式。出发点是：

\[ |S|^{2}=\sum_{x_1=1}^{P}\sum_{x_2=1}^{P}e\big(f(x_1)-f(x_2)\big). \]

第 1 步：把"对角项"单独拎出来。 这个双重和一共有 $P\times P=P^2$ 项。其中 $x_1=x_2$ 的那些项叫对角项，它们的指数是 $f(x_1)-f(x_1)=0$，所以每项都等于 $e(0)=1$。这样的项恰好有 $P$ 个（$x_1=x_2=1,2,\dots,P$），合起来贡献 $P$。其余是 $x_1\ne x_2$ 的非对角项。于是

\[ |S|^2=\underbrace{P}_{\text{对角项之和}}+\sum_{x_1\ne x_2}e\big(f(x_1)-f(x_2)\big). \]

第 2 步：非对角项两两配对，化成实部。 把 $(x_1,x_2)$ 和把两个下标反过来的 $(x_2,x_1)$ 配成一对。它们的指数互为相反数，所以这两个复数互为共轭：

\[ e\big(f(x_2)-f(x_1)\big)=\overline{e\big(f(x_1)-f(x_2)\big)}. \]

而"一个复数 $z$ 加上它的共轭 $\overline z$"等于"它实部的 2 倍"，即 $z+\overline z=2\Re z$（$\Re$ 读作"取实部"）。因此我们只保留 $x_2\gt x_1$ 的那一半项，每个乘以 2 再取实部就行：

\[ |S|^2=P+2\,\Re\!\!\sum_{x_2\gt x_1}e\big(f(x_2)-f(x_1)\big). \]

第 3 步：换元 $x_2=x_1+y$，认出差分。 既然 $x_2\gt x_1$，就把它们的间距记作 $y=x_2-x_1\ge 1$。对每个固定的 $y$，要让 $x_1$ 和 $x_2=x_1+y$ 同时落在 $1$ 到 $P$ 之间，$x_1$ 就只能取 $1,2,\dots,P-y$。而此时指数正好就是差分： \[ f(x_2)-f(x_1)=f(x_1+y)-f(x_1)=\Delta_y f(x_1). \] 把"先选间距 $y$，再选起点 $x_1$"这两层求和明写出来：

\[ |S|^2=P+2\,\Re\sum_{y=1}^{P-1}\ \underbrace{\sum_{x_1=1}^{P-y}e\big(\Delta_y f(x_1)\big)}_{\textstyle =\,S_{k-1}(\Delta_y f)}. \]

括号里这个对 $x_1$ 的和，正是"对降了一次的多项式 $\Delta_y f$ 所做的指数和"，记作 $S_{k-1}(\Delta_y f)$。下标 $k-1$ 是在提醒：被求和的 $\Delta_y f$ 是 $k-1$ 次的（见例 5.1、5.2）。

第 4 步：取绝对值（两次放大）。 我们不需要等号，只要一个上界，于是用两条不等式往大了放：

实部不超过模长：$\Re w\le|w|$；
三角不等式：$\big|\sum_y(\cdots)\big|\le\sum_y|\cdots|$。

依次用上去：

\[ |S|^2=P+2\,\Re\sum_{y=1}^{P-1}S_{k-1}(\Delta_y f) \;\le\;P+2\Big|\sum_{y=1}^{P-1}S_{k-1}(\Delta_y f)\Big| \;\le\;P+2\sum_{y=1}^{P-1}\big|S_{k-1}(\Delta_y f)\big|. \]

这就是本节开头那个不等式（书里把求和上限写成 $P$，因为 $y=P$ 那一项是空和、等于 0，写不写都一样）：

\[ |S|^{2}\le P+2\sum_{y=1}^{P}\big|S_{k-1}(\Delta_y f)\big|. \]

它的意思是：原来 $k$ 次的难题，被转化成了一堆 $k-1$ 次的问题。

例 5.3（$P=3$ 全程展开）. 取 $P=3$。双重和共 $3\times3=9$ 项。

对角（3 项）：$(1,1),(2,2),(3,3)$，各等于 $1$，合计 $3=P$。
非对角（6 项）：取 $x_2\gt x_1$ 的一半是 $(1,2),(1,3),(2,3)$，对应间距 $y=1,2,1$；另一半 $(2,1),(3,1),(3,2)$ 是它们的共轭。

按间距 $y$ 归类（注意 $x_1$ 只能取到 $P-y$）： \[ y=1:\quad e(\Delta_1 f(1))+e(\Delta_1 f(2))=S_{k-1}(\Delta_1 f)\quad(x_1=1,2), \] \[ y=2:\quad e(\Delta_2 f(1))=S_{k-1}(\Delta_2 f)\quad(x_1=1). \] 于是 \[ |S|^2=3+2\,\Re\big[S_{k-1}(\Delta_1 f)+S_{k-1}(\Delta_2 f)\big]\le 3+2\big(|S_{k-1}(\Delta_1 f)|+|S_{k-1}(\Delta_2 f)|\big). \] $y=1$ 那项有 2 个加数、$y=2$ 那项只有 1 个——这正好对应"$x_1$ 取到 $P-y$ 为止"。

6. 反复平方：一路降到一次多项式

既然平方一次能降一次，那就反复做。每平方一轮就引入一个新的间距变量 $y_1,y_2,\dots$，次数也跟着降。差分 $\nu$ 次后，多项式降到 $k-\nu$ 次。

$\nu$（读作"纽"）: 差分（平方）的次数，取 $1,2,\dots$。
$y_1,\dots,y_\nu$: 每一轮平方引入的间距变量。
$\Delta_{y_1,\dots,y_\nu}f$: 连续做 $\nu$ 次差分后得到的多项式，次数为 $k-\nu$。

下面把"反复平方"真正做一遍，看它怎么从 §5 的结论一步步长成原文的不等式 (3.1)。先准备一件工具。

工具（Cauchy–Schwarz 的一个简单特例）. 对任意 $N$ 个非负实数 $a_1,\dots,a_N$，有 \[ \Big(\sum_{i=1}^{N}a_i\Big)^2\le N\sum_{i=1}^{N}a_i^{2}. \] 直观：左边把它们先加起来再平方，右边给每个平方后乘以个数 $N$；后者总不小于前者。
小验证：$N=2$ 时，$(a_1+a_2)^2=a_1^2+a_2^2+2a_1a_2\le a_1^2+a_2^2+(a_1^2+a_2^2)=2(a_1^2+a_2^2)$，用了 $2a_1a_2\le a_1^2+a_2^2$。

第一轮（$\nu=1$）就是 §5 的结论。 把 §5 那个不等式里的常数 2 用 $\ll$ 吸收掉，写成

\[ |S|^{2}\;\ll\;P+\sum_{y_1=1}^{P}\big|S_{k-1}(\Delta_{y_1}f)\big|.\tag{A} \]

第二轮（$\nu=1\to\nu=2$）：把 (A) 再平方一次。 两边平方，并用 $(u+v)^2\ll u^2+v^2$：

\[ |S|^{4}=\big(|S|^2\big)^2\;\ll\;P^2+\Big(\sum_{y_1=1}^{P}\big|S_{k-1}(\Delta_{y_1}f)\big|\Big)^2. \]

对右边那个"和的平方"用上面的 Cauchy–Schwarz 工具（这里 $N=P$ 项）：

\[ \Big(\sum_{y_1=1}^{P}\big|S_{k-1}(\Delta_{y_1}f)\big|\Big)^2\le P\sum_{y_1=1}^{P}\big|S_{k-1}(\Delta_{y_1}f)\big|^{2}. \]

现在每个 $\big|S_{k-1}(\Delta_{y_1}f)\big|^2$ 又是"某个指数和的平方"，而 $\Delta_{y_1}f$ 是 $k-1$ 次多项式——所以可以对它再用一次 §5 的招数（平方降次），只不过这次降到 $k-2$ 次，引入新间距 $y_2$：

\[ \big|S_{k-1}(\Delta_{y_1}f)\big|^{2}\;\ll\;P+\sum_{y_2=1}^{P}\big|S_{k-2}(\Delta_{y_1,y_2}f)\big|. \]

把它代回去：

\[ \begin{aligned} |S|^{4}&\ll P^2+P\sum_{y_1=1}^{P}\Big(P+\sum_{y_2=1}^{P}\big|S_{k-2}(\Delta_{y_1,y_2}f)\big|\Big)\\ &=P^2+\underbrace{P\cdot P\cdot P}_{=\,P^3}+P\sum_{y_1=1}^{P}\sum_{y_2=1}^{P}\big|S_{k-2}(\Delta_{y_1,y_2}f)\big|\\ &\ll P^{3}+P\sum_{y_1=1}^{P}\sum_{y_2=1}^{P}\big|S_{k-2}(\Delta_{y_1,y_2}f)\big|. \end{aligned} \]

把指数对一下：$P^3=P^{2^2-1}$，前面的因子 $P=P^{2^2-2-1}$。这正是下面通式在 $\nu=2$ 时的样子。

一直这样做下去（数学归纳法），每多平方一轮就多一层对 $y$ 的求和、被求和的多项式再降一次，得到原文的通式 (3.1)：

\[ |S|^{2^{\nu}}\;\ll\;P^{2^{\nu}-1}+P^{2^{\nu}-\nu-1}\sum_{y_1=1}^{P}\!\cdots\!\sum_{y_\nu=1}^{P}\big|S_{k-\nu}(\Delta_{y_1,\dots,y_\nu}f)\big|. \]

读法："$|S|$ 的 $2^\nu$ 次方，被一个主项 $P^{2^\nu-1}$，加上'对所有间距 $y_1,\dots,y_\nu$ 求和的低次指数和'控制住。"我们刚才已亲手验证了 $\nu=1$（即 (A)）和 $\nu=2$ 两步；归纳就是把"第二轮"那段话里的 $1\to2$ 换成 $\nu\to\nu+1$ 重复一遍。

现在选 $\nu=k-1$（差分到底），多项式 $\Delta_{y_1,\dots,y_{k-1}}f$ 就降成 1 次 了。它的最高次（$x$ 的）系数是多少？我们从最高次项 $\alpha x^k$ 出发，把每一次差分对最高次项的作用算清楚。

用二项式定理展开一次差分：

\[ \Delta_y(x^k)=(x+y)^k-x^k=\Big(x^k+k\,y\,x^{k-1}+\tbinom{k}{2}y^2x^{k-2}+\cdots\Big)-x^k=k\,y\,x^{k-1}+(\text{更低次的 }x\text{ 项}). \]

关键就一句：差分一次，最高次项 $x^k$ 变成 $k\,y\,x^{k-1}$——次数掉 1，系数多乘了"原次数 $k$"和一个新间距 $y$。对剩下的低次项再差分，规律一样。于是连续差分 $\nu$ 次后，最高次项是

\[ \alpha\cdot\underbrace{k(k-1)(k-2)\cdots(k-\nu+1)}_{\nu\text{ 个因子}}\cdot y_1y_2\cdots y_\nu\cdot x^{\,k-\nu}. \]

取 $\nu=k-1$，那串连乘是 $k(k-1)\cdots 2=k!$，而幂次变成 $x^{k-(k-1)}=x^1$。所以

\[ \Delta_{y_1,\dots,y_{k-1}}f(x)=\underbrace{k!\,\alpha\,y_1y_2\cdots y_{k-1}}_{\text{$x$ 的系数}}\;x\;+\;\beta. \]

$k!$（读作"$k$ 的阶乘"）: $k!=1\cdot2\cdots k$。这里它是连乘 $k(k-1)\cdots2$ 的结果。例：$k=2$ 时为 $2$（对上例 5.1 的系数 $2\alpha y$）；$k=3$ 时为 $6$（对上例 5.2/6.1 的系数 $6\alpha yz$）。
$\beta$（读作"贝塔"）: 把上面"更低次的 $x$ 项"一路差分后攒下来的、与 $x$ 无关的常数项总和。因为它不含 $x$，在下一步对 $x$ 求和时只贡献一个固定相位 $e(\beta)$（长度为 1），既不放大也不缩小，可以不管它的具体值。

注意一个对后面有用的事实：$x$ 的系数里出现了乘积 $y_1y_2\cdots y_{k-1}$，这正是 §8 要数"有多少组 $y$ 给出同一乘积"的原因。

例 6.1（验证 $k=3$ 的系数）. 对 $f(x)=\alpha x^3$，先差分 $y$（例 5.2 得 $3\alpha y\,x^2+\dots$），再差分 $z$： \[ \Delta_z\big(3\alpha y\,x^2\big)=3\alpha y\big((x+z)^2-x^2\big)=6\alpha yz\,x+3\alpha yz^2, \] 其余项要么是 $x$ 的常数项（并入 $\beta$），要么为 0。所以 $x$ 的系数是 $6\alpha yz=3!\,\alpha\,y_1y_2$，与公式里的 $k!\,\alpha\,y_1\cdots y_{k-1}$ 一致（这里 $k=3$，间距是 $y_1=y,\ y_2=z$）。

7. 一次多项式的指数和：等比数列求和

降到一次以后，要算的是 $\big|\sum_x e(\lambda x)\big|$，其中 $\lambda$（读作"拉姆达"）是那个 $x$ 的系数 $k!\,\alpha\,y_1\cdots y_{k-1}$，对固定的 $y$ 们来说是个常数。这一步可以精确求和，因为它是等比数列！

第 1 步：写成等比数列。 由性质 3，$e(\lambda x)=\big(e(\lambda)\big)^x$。记公比 $r=e(\lambda)$，要算的和（设 $x$ 从 $x_1$ 取到 $x_2-1$）就是

\[ G=\sum_{x=x_1}^{x_2-1}r^{x}=r^{x_1}+r^{x_1+1}+\cdots+r^{x_2-1}. \]

第 2 步：用"错位相减"求和（就是课本里推等比数列的办法）。 把 $G$ 乘以公比 $r$：

\[ rG=r^{x_1+1}+r^{x_1+2}+\cdots+r^{x_2}. \]

两式相减，中间的项全部抵消，只剩头尾：

\[ rG-G=r^{x_2}-r^{x_1}\ \Longrightarrow\ G=\frac{r^{x_2}-r^{x_1}}{r-1}=r^{x_1}\,\frac{r^{x_2-x_1}-1}{r-1}. \]

第 3 步：取长度（模）。 分子 $=r^{x_2}-r^{x_1}$，而 $|r^{x_2}|=|r^{x_1}|=1$（因为 $|r|=|e(\lambda)|=1$），由三角不等式分子的模 $\le 1+1=2$。所以

\[ \Big|\sum_x e(\lambda x)\Big|=|G|=\frac{|r^{x_2}-r^{x_1}|}{|r-1|}\le\frac{2}{|r-1|}=\frac{2}{|e(\lambda)-1|}. \]

第 4 步：把分母 $|e(\lambda)-1|$ 算成 $\sin$。 直接算它的模的平方：

\[ \begin{aligned} |e(\lambda)-1|^2&=\big(\cos2\pi\lambda-1\big)^2+\big(\sin2\pi\lambda\big)^2\\ &=\cos^2 2\pi\lambda-2\cos2\pi\lambda+1+\sin^2 2\pi\lambda\\ &=2-2\cos2\pi\lambda\qquad(\text{用 }\cos^2+\sin^2=1)\\ &=4\sin^2\pi\lambda\qquad(\text{用半角公式 }1-\cos2\theta=2\sin^2\theta,\ \theta=\pi\lambda). \end{aligned} \]

开方得 $|e(\lambda)-1|=2|\sin\pi\lambda|$。代回第 3 步：

\[ \Big|\sum_x e(\lambda x)\Big|\le\frac{2}{|e(\lambda)-1|}=\frac{2}{2|\sin\pi\lambda|}=\frac{1}{|\sin\pi\lambda|}. \]

第 5 步：把 $\sin$ 换成"离整数的距离"。 先引入记号：

$\|\lambda\|$（读作"$\lambda$ 到最近整数的距离"）: 例：$\|0.1\|=0.1$，$\|0.9\|=0.1$（因为离 1 更近），$\|2.3\|=0.3$，$\|3.5\|=0.5$（最大可能值），整数的 $\|\cdot\|=0$。它总落在 $[0,\tfrac12]$。

（数值感受：$t=0.1$ 时 $\sin18^\circ=0.309\ge 0.2$；$t=0.3$ 时 $\sin54^\circ=0.809\ge0.6$。）把它代进第 4 步的结果，分母变大、整体变小：

\[ \Big|\sum_x e(\lambda x)\Big|\le\frac{1}{|\sin\pi\lambda|}\le\frac{1}{2\|\lambda\|}\;\ll\;\frac{1}{\|\lambda\|}. \]

结论：只要 $\lambda$ 离整数有点距离，这个一次指数和就很小（与 $P$ 无关！）。只有当 $\lambda$ 几乎是整数（$\|\lambda\|\approx0\）)时它才可能大，那时我们退回用平凡上界 \(P$ 兜底。

例 7.1. 设 $\lambda=0.1$，要加 $P=100$ 项。平凡上界是 100，但实际： \[ \Big|\sum_{x}e(0.1\,x)\Big|\le\frac{1}{|\sin 18^\circ|}=\frac{1}{0.309}\approx 3.24. \] 3.24 远小于 100。这正是"抵消"的精确体现：当公比转得够快，转一圈就几乎加回原点。

8. 一个数论小工具：除数函数 $d(m)\ll m^{\varepsilon}$

把上一步的结果对所有间距 $y_1,\dots,y_{k-1}$ 求和时，会出现很多组 $(y_1,\dots,y_{k-1})$ 给出同一个乘积 $k!\,y_1\cdots y_{k-1}=m$。要数"有多少组"，就用到除数函数。

$d(m)$（除数函数）: 正整数 $m$ 的正因子个数。例：$d(6)=4$（因子 $1,2,3,6$）；$d(12)=6$（$1,2,3,4,6,12$）；素数 $p$ 有 $d(p)=2$。

书里证明的事实是：

\[ d(m)\ll m^{\varepsilon}\qquad(\text{对任意固定 }\varepsilon\gt 0). \]

意思是：因子个数虽然时大时小，但增长得比 $m$ 的任何正次幂都慢。下面把证明也完整走一遍。

第 1 步：把 $d(m)$ 写成乘积。 把 $m$ 做质因数分解：

\[ m=p_1^{\lambda_1}p_2^{\lambda_2}\cdots p_r^{\lambda_r}, \]

其中 $p_1,\dots,p_r$ 是不同的质数，$\lambda_i\ge1$ 是各自的指数。$m$ 的一个因子，等于"对每个质数 $p_i$，独立地从 $0,1,2,\dots,\lambda_i$ 里挑一个指数"。第 $i$ 个质数有 $\lambda_i+1$ 种挑法，所以因子总数是各处挑法相乘：

\[ d(m)=(\lambda_1+1)(\lambda_2+1)\cdots(\lambda_r+1)=\prod_{i=1}^{r}(\lambda_i+1). \]

（验证：$12=2^2\cdot3^1$，$d(12)=(2+1)(1+1)=6$，确实是 $1,2,3,4,6,12$ 共 6 个。）

第 2 步：除以 $m^\varepsilon$，逐个质数看。 因为 $m^\varepsilon=p_1^{\varepsilon\lambda_1}\cdots p_r^{\varepsilon\lambda_r}$，

\[ \frac{d(m)}{m^\varepsilon}=\prod_{i=1}^{r}\frac{\lambda_i+1}{p_i^{\varepsilon\lambda_i}}. \]

现在只要证明：这个乘积有一个不依赖于 $m$ 的上界 $C(\varepsilon)$。把质数分成"大的"和"小的"两类。

第 3 步：大质数那些因子 $\le 1$，白送。 若 $p_i$ 满足 $p_i^{\varepsilon}\ge2$（即 $p_i\ge 2^{1/\varepsilon}$），则 $p_i^{\varepsilon\lambda_i}=\big(p_i^\varepsilon\big)^{\lambda_i}\ge 2^{\lambda_i}$。而对所有整数 $\lambda_i\ge1$ 都有 $\lambda_i+1\le 2^{\lambda_i}$（验证：$\lambda=1$ 时 $2\le2$；$\lambda=2$ 时 $3\le4$；以后右边翻倍涨得更快）。于是

\[ \frac{\lambda_i+1}{p_i^{\varepsilon\lambda_i}}\le\frac{2^{\lambda_i}}{2^{\lambda_i}}=1. \]

所以所有大质数对应的因子都 $\le 1$，乘进去只会让乘积变小，可以全部丢掉。

第 4 步：小质数只有有限个，凑成常数。 剩下的是满足 $p_i\lt 2^{1/\varepsilon}$ 的"小质数"——它们只有有限个（因为 $2^{1/\varepsilon}$ 是个固定的数，比它小的质数就那么几个）。对每个这样的质数 $p$，函数 $\dfrac{\lambda+1}{p^{\varepsilon\lambda}}$（把 $\lambda$ 看成变量）当 $\lambda$ 增大时，分母按指数增长、分子只线性增长，所以它有最大值，记作某个常数 $C_p(\varepsilon)$。把这有限个常数乘起来：

\[ \frac{d(m)}{m^\varepsilon}\le\prod_{p\lt 2^{1/\varepsilon}}C_p(\varepsilon)=:C(\varepsilon). \]

这个 $C(\varepsilon)$ 只跟 $\varepsilon$ 有关，跟 $m$ 无关。于是 $d(m)\le C(\varepsilon)\,m^\varepsilon$，也就是 $d(m)\ll m^\varepsilon$。证毕。

所以在后面的估计里，$d(m)$ 和 $P^{\varepsilon}$ 一样，几乎可以忽略。

例 8.1. 拿 $\varepsilon=\tfrac12$，看 $d(m)/\sqrt m$： \[ \frac{d(12)}{\sqrt{12}}=\frac{6}{3.46}\approx1.73,\qquad \frac{d(60)}{\sqrt{60}}=\frac{12}{7.75}\approx1.55,\qquad \frac{d(360)}{\sqrt{360}}=\frac{24}{18.97}\approx1.26. \] 随着 $m$ 变大，这个比值整体往下走——说明 $\sqrt m$ 终究跑得比 $d(m)$ 快。这就是 $d(m)\ll_\varepsilon m^{\varepsilon}$ 的直观含义。

9. 把所有零件拼起来（Weyl 不等式的逻辑链）

现在回顾整条思路，每一步对应前面哪一节：

要估计 $k$ 次的 $|S|$。直接做太难。（§2–3）
平方 + 差分一次 → 降成 $k-1$ 次的问题。（§5）
反复平方 $k-1$ 次 → 降成一次多项式，$x$ 的系数是 $k!\,\alpha\,y_1\cdots y_{k-1}$。（§6）
一次指数和用等比求和，得到 $\ll 1/\|k!\,\alpha\,y_1\cdots y_{k-1}\|$（或退回平凡上界 $P$）。（§7）
对所有间距求和，用除数函数 $d(m)\ll m^\varepsilon$ 合并同乘积的项。（§8）
最后用题设的有理逼近 $|\alpha-a/q|\le 1/q^2$ 来估计那个求和——这一步下面完整推。

下面把第 1–5 步真的逐步拼接起来，看那个"核心求和"是怎么一步步冒出来的。记 $K=2^{k-1}$。

步 A：在通式 (3.1) 里取 $\nu=k-1$。 把 §6 的 (3.1) 令 $\nu=k-1$，先把两个指数算清楚：主项指数 $2^{\nu}-1=2^{k-1}-1=K-1$；求和前的因子指数 $2^{\nu}-\nu-1=2^{k-1}-(k-1)-1=K-k$。于是

\[ |S|^{K}\ll P^{K-1}+P^{K-k}\sum_{y_1=1}^{P}\!\cdots\!\sum_{y_{k-1}=1}^{P}\big|S_1(\Delta_{y_1,\dots,y_{k-1}}f)\big|, \]

其中 $S_1(\cdots)$ 是一次多项式的指数和（下标 1 表示一次）。

步 B：把每个一次和换成 §7 的上界。 由 §6，这个一次多项式是 $\Delta_{y_1,\dots,y_{k-1}}f(x)=\lambda x+\beta$，其中

\[ \lambda=k!\,\alpha\,y_1y_2\cdots y_{k-1}. \]

常数项 $\beta$ 只贡献一个长度为 1 的相位 $e(\beta)$，不影响大小。由 §7 的结论（一次和 $\ll 1/\|\lambda\|$，但任何时候都不超过平凡上界 $P$，两者取小者）：

\[ \big|S_1(\Delta_{y_1,\dots,y_{k-1}}f)\big|\ll\min\!\Big(P,\ \frac{1}{\|k!\,\alpha\,y_1\cdots y_{k-1}\|}\Big). \]

\[ |S|^{K}\ll P^{K-1}+P^{K-k}\sum_{y_1=1}^{P}\!\cdots\!\sum_{y_{k-1}=1}^{P}\min\!\Big(P,\ \frac{1}{\|k!\,\alpha\,y_1\cdots y_{k-1}\|}\Big). \]

步 C：用 §8 把"对 $y$ 求和"换成"对 $m$ 求和"。 令乘积 $m=k!\,y_1\cdots y_{k-1}$。当 $(y_1,\dots,y_{k-1})$ 跑遍 $[1,P]^{k-1}$ 时，$m$ 从 $k!$ 取到 $M:=k!\,P^{k-1}$。对一个固定的 $m$，满足 $k!\,y_1\cdots y_{k-1}=m$ 的 $(y_1,\dots,y_{k-1})$ 组数 $\ll m^{\varepsilon}\ll P^{\varepsilon}$——这正是 §8 那个 $d(m)\ll m^\varepsilon$ 的用处（"一个数能拆成几个因子相乘"的方法数，被除数函数控制住）。又因为 $\|k!\,\alpha\,y_1\cdots y_{k-1}\|=\|\alpha m\|$，把"同一个 $m$"的项并到一起，每个 $m$ 至多被重复数到 $P^{\varepsilon}$ 次：

\[ \sum_{y_1,\dots,y_{k-1}}\min\!\Big(P,\frac{1}{\|k!\alpha y_1\cdots y_{k-1}\|}\Big)\;\le\;P^{\varepsilon}\sum_{m=1}^{M}\min\!\Big(P,\frac{1}{\|\alpha m\|}\Big). \]

代回去，前面的 $P^{K-k}$ 吸收掉这个 $P^{\varepsilon}$ 变成 $P^{K-k+\varepsilon}$，于是得到核心不等式（其中 $\min(P,\cdot)$ 的含义同上）：

\[ |S|^{K}\;\ll\;P^{K-1}+P^{K-k+\varepsilon}\,\Sigma,\qquad \Sigma:=\sum_{m=1}^{M}\min\!\Big(P,\ \frac{1}{\|\alpha m\|}\Big),\quad M=k!\,P^{k-1}. \]

到这里，所有"零件"已经拼成一条式子；剩下的全部工作，就是估计这个求和 $\Sigma$（即逻辑链里的第 6 步）。

分块求和（第 6 步全程）.

(a) 分块。 把 $m=1,2,\dots,M$ 切成一段段长为 $q$ 的块，块数约为 $\dfrac{M}{q}+1$。下面只需估"一块的和"，再乘以块数。

(b) 一块里 $\alpha m$ 怎么动。 设某块是 $m=m_1,m_1+1,\dots,m_1+q-1$。把 $\alpha$ 写成 $\dfrac aq$ 加一个小误差：

\[ \alpha(m_1+t)=\alpha m_1+\frac{a\,t}{q}+\Big(\alpha-\frac aq\Big)t,\qquad t=0,1,\dots,q-1. \]

最后一项很小：$\big|(\alpha-\tfrac aq)t\big|\le\dfrac{1}{q^2}\cdot q=\dfrac1q$。所以 $\alpha(m_1+t)$ 基本上等于 $\alpha m_1+\dfrac{at}{q}$。

(c) 关键：$at$ 跑遍所有余数。 因为 $(a,q)=1$，当 $t=0,1,\dots,q-1$ 时，$at$ 模 $q$ 的余数恰好取遍 $0,1,\dots,q-1$ 各一次。于是 $\dfrac{at}{q}$ 的小数部分跑遍 $0,\dfrac1q,\dfrac2q,\dots,\dfrac{q-1}{q}$，从而距离 $\|\alpha(m_1+t)\|$ 取到的值大致是 $\dfrac{1}{q},\dfrac{2}{q},\dots$ 直到约 $\dfrac12$，每个值出现 $O(1)$ 次。

(d) 一块的和。 在这一块里：

有 $O(1)$ 个 $t$ 使 $\|\alpha(m_1+t)\|$ 非常接近 0（估计失效），对它们取 $\min$ 的第一项 $P$，合计贡献 $\ll P$；
其余的 $t$，$\|\alpha(m_1+t)\|\gg\dfrac sq$（$s=1,2,\dots,\lfloor q/2\rfloor$），所以 $\dfrac{1}{\|\alpha(m_1+t)\|}\ll\dfrac qs$，合计贡献 $\ll\displaystyle\sum_{s=1}^{q/2}\frac qs=q\sum_{s=1}^{q/2}\frac1s$.

这里用到调和级数的估计 $\displaystyle\sum_{s=1}^{n}\frac1s\approx\ln n$（即 $1+\tfrac12+\tfrac13+\cdots+\tfrac1n$ 大约是 $\log n$）。所以 $q\displaystyle\sum_{s=1}^{q/2}\frac1s\ll q\log q$。合起来，一块的和 $\ll P+q\log q$。

(e) 乘以块数。

\[ \Sigma\ll\Big(\frac{M}{q}+1\Big)\big(P+q\log q\big)=\Big(\frac{k!\,P^{k-1}}{q}+1\Big)\big(P+q\log q\big). \]

收尾的代数（每一步都摊开）。 先把方框 (e) 里 $\Sigma$ 的上界乘开成 4 项：

\[ \Sigma\ll\Big(\frac{P^{k-1}}{q}+1\Big)\big(P+q\log q\big) =\underbrace{\frac{P^{k}}{q}}_{①}+\underbrace{P^{k-1}\log q}_{②}+\underbrace{P}_{③}+\underbrace{q\log q}_{④}. \]

把它代回核心不等式的 $P^{K-k+\varepsilon}\,\Sigma$ 那一项，也就是给每一项都乘上 $P^{K-k+\varepsilon}$；同时随手用 $\log q\ll P^{\varepsilon}$ 把对数吞掉（多出来的 $\varepsilon$ 无所谓）：

\[ \begin{aligned} P^{K-k+\varepsilon}\cdot①&=P^{K-k+\varepsilon}\cdot\frac{P^k}{q}=P^{K+\varepsilon}\,q^{-1},\\[2pt] P^{K-k+\varepsilon}\cdot②&=P^{K-k+\varepsilon}\cdot P^{k-1}\log q\ll P^{K-1+2\varepsilon}=P^{K+2\varepsilon}\,P^{-1},\\[2pt] P^{K-k+\varepsilon}\cdot③&=P^{K-k+\varepsilon}\cdot P=P^{K-(k-1)+\varepsilon}=P^{K+\varepsilon}\,P^{-(k-1)},\\[2pt] P^{K-k+\varepsilon}\cdot④&=P^{K-k+\varepsilon}\cdot q\log q\ll P^{K+2\varepsilon}\,P^{-k}q. \end{aligned} \]

再算上核心不等式里的主项 $P^{K-1}=P^{K+\varepsilon}\,P^{-1-\varepsilon}\ll P^{K+\varepsilon}\,P^{-1}$。现在比较这 5 项里括号外都提出 $P^{K+\varepsilon}$ 后剩下的因子：$q^{-1},\ P^{-1},\ P^{-(k-1)},\ P^{-k}q,\ P^{-1}$。其中因为 $k\ge 2$，有 $P^{-(k-1)}\le P^{-1}$（第 ③ 项被 $P^{-1}$ 吃掉）。于是只剩三种本质不同的项；把 $2\varepsilon$ 重新记作 $\varepsilon$：

\[ |S|^{K}\;\ll\;P^{K+\varepsilon}\Big(P^{-1}+q^{-1}+P^{-k}q\Big). \]

最后一步：两边开 $K$ 次方（即取 $\tfrac1K$ 次幂）。左边 $\big(|S|^K\big)^{1/K}=|S|$。右边用 $t\mapsto t^{1/K}$ 的两条性质：$(AB)^{1/K}=A^{1/K}B^{1/K}$，以及"和的根不超过根的和" $(a+b+c)^{1/K}\le a^{1/K}+b^{1/K}+c^{1/K}$（对 $K\ge1$ 成立）。于是

\[ |S|\ll\big(P^{K+\varepsilon}\big)^{1/K}\Big(P^{-1}+q^{-1}+P^{-k}q\Big)^{1/K} \ll P^{\,1+\varepsilon}\Big(P^{-\frac1K}+q^{-\frac1K}+\big(P^{-k}q\big)^{\frac1K}\Big). \]

（这里 $\big(P^{K+\varepsilon}\big)^{1/K}=P^{1+\varepsilon/K}$，把 $\varepsilon/K$ 重新记作 $\varepsilon$。）最后整理第三项：$\big(P^{-k}q\big)^{1/K}=\big(q/P^{k}\big)^{1/K}=\big(P^{k}/q\big)^{-1/K}$。代入便得

\[ |S|\;\ll\;P^{\,1+\varepsilon}\Big(P^{-\frac1K}+q^{-\frac1K}+\big(\tfrac{P^k}{q}\big)^{-\frac1K}\Big),\qquad K=2^{k-1}. \]

这正是第 4 节陈述的 Weyl 不等式——现在它右边每一项的来历都清清楚楚了。一句话回顾：平方降次（§5–6）→ 降到一次时用等比数列把"抵消"算出来（§7）→ 用除数函数合并（§8）→ 用有理逼近把求和分块估清楚（§9 方框）→ 开 $K$ 次方还原。

为什么 $q$ 不能太小？若 $q$ 很小（$\alpha$ 极接近一个分母很小的分数），那 $\lambda=k!\alpha y_1\cdots y_{k-1}$ 会经常落在整数附近，$\|\lambda\|\approx0$，抵消失效，$|S|$ 确实可能接近 $P$。例 2.1 的 $\alpha=1/5$（$q=5$ 很小）就处在这种"无抵消保证"的边缘，但因为是平方且 $P=q$，仍得到 $\sqrt P$。Weyl 不等式真正发威是在 $q$ 中等大的时候。

10. 一个直接推论：Gauss 和 $S_{a,q}$

推论（引理 3.1 的特例）. 设 $a,q$ 互素、$q\gt 0$，令 \[ S_{a,q}=\sum_{z=1}^{q}e\!\Big(\frac{a z^{k}}{q}\Big),\qquad\text{则}\qquad S_{a,q}\ll q^{1-\frac1K+\varepsilon}. \]

这就是 Weyl 不等式取 $\alpha=a/q$、$P=q$ 的情形。我们把代入算一遍：因为 $\alpha$ 正好等于 $a/q$，误差是 $0\le 1/q^2$，逼近条件自动满足。把 $\alpha=a/q,\ P=q$ 代进第 4 节的不等式右边的三项：

\[ P^{-\frac1K}=q^{-\frac1K},\qquad q^{-\frac1K}=q^{-\frac1K},\qquad \Big(\frac{P^k}{q}\Big)^{-\frac1K}=\Big(\frac{q^k}{q}\Big)^{-\frac1K}=\big(q^{\,k-1}\big)^{-\frac1K}=q^{-\frac{k-1}{K}}. \]

因为 $k\ge2$，所以 $k-1\ge1$，第三项 $q^{-(k-1)/K}\le q^{-1/K}$。于是三项都 $\le q^{-1/K}$，加起来仍 $\ll q^{-1/K}$。再乘上前面的 $P^{1+\varepsilon}=q^{1+\varepsilon}$：

\[ |S_{a,q}|\ll q^{1+\varepsilon}\cdot q^{-\frac1K}=q^{\,1-\frac1K+\varepsilon}. \]

结论：这种"完整周期上的指数和"长度 $\ll q^{1-1/K}$，比平凡上界 $q$ 小。

例 10.1. 取 $k=2$（则 $K=2^{1}=2$），推论给出 $S_{a,q}\ll q^{1-1/2}=\sqrt q$。回到例 2.1：$k=2,\ a=1,\ q=5$，我们正是算出 $|S_{1,5}|=\sqrt5$。完全吻合——平凡上界 5，实际 $\sqrt5$。这类和叫 Gauss 和。

11. 华罗庚不等式：从"平均"的角度看抵消

Weyl 不等式管的是单个 $\alpha$ 的 $|S|$。华罗庚不等式换个角度：把 $\alpha$ 在 $[0,1]$ 上平均，看 $|T(\alpha)|$ 的高次幂平均下来多大。先定义：

\[ T(\alpha)=\sum_{x=1}^{P}e(\alpha x^{k}). \]

（这就是 $f(x)=\alpha x^k$、最高项系数为 $\alpha$ 的指数和，是圆法里反复出现的主角。）

11.1 先理解一个"积分挑选器"——正交性

下面这条性质是整个圆法的心脏，务必理解。对任意整数 $m$：

\[ \int_{0}^{1}e(m\alpha)\,d\alpha= \begin{cases}1,& m=0,\\[2pt]0,& m\ne 0.\end{cases} \]

$\int_0^1\cdots\,d\alpha$: 把 $\alpha$ 从 0 到 1 做积分（求"曲线下面积"，复数则实部虚部分别积）。

为什么？ 当 $m=0$ 时被积的是 $e(0)=1$，积分就是区间长度 1。当 $m\ne0$ 是整数时，$e(m\alpha)=\cos(2\pi m\alpha)+i\sin(2\pi m\alpha)$ 在 $[0,1]$ 上正好转 $|m|$ 整圈，$\cos$ 和 $\sin$ 的正负部分完全抵消，积分为 0。

这条性质就像一个开关：只有当指数里的整数恰好为 0 时，积分才"亮起"给出 1，否则归零。下面用它来数方程的解。

11.2 用积分数解的个数

先看最简单的 $|T(\alpha)|^2$ 的积分。用 $|T|^2=T\cdot\overline T$：

\[ \int_0^1|T(\alpha)|^2\,d\alpha =\int_0^1\Big(\sum_{x_1}e(\alpha x_1^k)\Big)\Big(\sum_{x_2}e(-\alpha x_2^k)\Big)d\alpha =\sum_{x_1}\sum_{x_2}\int_0^1 e\big(\alpha(x_1^k-x_2^k)\big)\,d\alpha. \]

现在对每一对 $(x_1,x_2)$，里面的整数是 $m=x_1^k-x_2^k$。由 11.1 的开关：只有当 $x_1^k-x_2^k=0$（即 $x_1=x_2$，因为变量都是正的）时积分 $=1$，否则 $=0$。所以

\[ \int_0^1|T(\alpha)|^2\,d\alpha=\#\{(x_1,x_2):x_1=x_2,\ 1\le x_i\le P\}=P. \]

也就是说，这个积分等于某个方程的解的个数。这正是圆法的基本套路。

例 11.1. 取 $P=3,\ k=2$。方程 $x_1^2=x_2^2$（$x_i\in\{1,2,3\}$）的解：$(1,1),(2,2),(3,3)$，共 3 个。于是 $\int_0^1|T|^2d\alpha=3=P$。和公式一致。

11.3 华罗庚不等式本身

引理 3.2（华罗庚不等式）. 对任意固定 $\varepsilon\gt 0$， \[ \int_{0}^{1}\big|T(\alpha)\big|^{2^{k}}\,d\alpha\;\ll\;P^{\,2^{k}-k+\varepsilon}. \]

把指数升到 $2^k$ 次方。这个积分照样等于某个方程解的个数——我们把推导完整写出来。为省字，记 $n=2^{k-1}$（于是 $2^k=2n$）。

第 1 步：把 $2n$ 次方拆成 $T^n$ 乘 $\overline T^{\,n}$。

\[ |T(\alpha)|^{2^k}=|T(\alpha)|^{2n}=\big(|T|^2\big)^n=\big(T\overline T\big)^n=T(\alpha)^{n}\,\overline{T(\alpha)}^{\,n}. \]

第 2 步：每个幂展开成多重求和。 $T(\alpha)^n=\big(\sum_x e(\alpha x^k)\big)^n$ 是 $n$ 个相同的和相乘，结果是对 $n$ 个独立变量 $x_1,\dots,x_n$ 求和（用性质 3 把指数相加）：

\[ T(\alpha)^{n}=\sum_{x_1=1}^{P}\!\cdots\!\sum_{x_n=1}^{P}e\big(\alpha(x_1^k+\cdots+x_n^k)\big). \]

共轭那半同理，注意 $\overline{e(\theta)}=e(-\theta)$ 带来一个负号，变量记作 $y_1,\dots,y_n$：

\[ \overline{T(\alpha)}^{\,n}=\sum_{y_1=1}^{P}\!\cdots\!\sum_{y_n=1}^{P}e\big(-\alpha(y_1^k+\cdots+y_n^k)\big). \]

第 3 步：相乘后积分，用正交性这个"开关"。 两个多重和相乘，再对 $\alpha$ 从 0 到 1 积分。把积分搬到求和里面：

\[ \int_0^1|T(\alpha)|^{2^k}d\alpha=\sum_{x_1,\dots,x_n}\sum_{y_1,\dots,y_n}\int_0^1 e\big(\alpha\,m\big)\,d\alpha,\qquad m=(x_1^k+\cdots+x_n^k)-(y_1^k+\cdots+y_n^k). \]

这里 $m$ 是整数。由 §11.1 的开关：只有当 $m=0$ 时里面那个积分 $=1$，否则 $=0$。所以求和里"活下来"的，恰好是让 $m=0$ 的那些 $(x_1,\dots,x_n,y_1,\dots,y_n)$。也就是说，

\[ \int_0^1|T(\alpha)|^{2^k}d\alpha=\#\Big\{(x_1,\dots,x_n,y_1,\dots,y_n):\ \underbrace{x_1^k+\cdots+x_n^k}_{n=2^{k-1}\text{ 个}}=\underbrace{y_1^k+\cdots+y_n^k}_{n=2^{k-1}\text{ 个}},\ \text{各变量}\in\{1,\dots,P\}\Big\}. \]

这正是下面这个方程的解的个数：

\[ x_1^k+\cdots+x_{2^{k-1}}^k=y_1^k+\cdots+y_{2^{k-1}}^k,\qquad \text{所有变量}\in\{1,\dots,P\}. \]

这个上界好在哪？ 总变量 $2^k$ 个，每个有 $P$ 种取值，全部组合是 $P^{2^k}$ 种。一个方程"砍掉一个自由度"，平凡地数大约有 $P^{2^k-1}$ 个解。华罗庚说实际只有 $\ll P^{2^k-k}$（忽略 $P^\varepsilon$）——指数从 $2^k-1$ 一举降到 $2^k-k$，省下了 $k-1$ 个数量级。证明方法和 Weyl 一样：靠平方降次（用第 6 节的 (3.2)）加归纳。

例 11.2（$k=3$）. 此时 $2^k=8$，$2^{k-1}=4$。积分 $\int_0^1|T|^{8}d\alpha$ 数的是方程 \[ x_1^3+x_2^3+x_3^3+x_4^3=y_1^3+y_2^3+y_3^3+y_4^3,\qquad x_i,y_i\in\{1,\dots,P\} \] 的解个数。华罗庚不等式说它 $\ll P^{8-3+\varepsilon}=P^{5+\varepsilon}$。
对照两个参照点：① 全部组合 $P^8$；② 最"显然"的一批解是 $(y_1,\dots,y_4)$ 为 $(x_1,\dots,x_4)$ 的某个排列，这种"对角解"大约有 $P^4$ 个。华罗庚的 $P^5$ 落在 $P^4$ 和 $P^8$ 之间，且非常接近真实的解数——这说明"非平凡的巧合解"并不多。

12. 一页纸小结

记号 $e(\theta)=\cos2\pi\theta+i\sin2\pi\theta$：单位圆上的点，长度恒为 1，相乘即角相加。
指数和 $S=\sum_{x=1}^P e(f(x))$：$P$ 个圆上点相加；平凡上界 $|S|\le P$，但通常会大量抵消。
Weyl 不等式：若最高次系数 $\alpha$ 有好的有理逼近 $a/q$，则 $|S|\ll P^{1+\varepsilon}\big(P^{-1/K}+q^{-1/K}+(P^k/q)^{-1/K}\big)$，$K=2^{k-1}$。证法：平方降次 → 降到一次 → 等比数列求和。
降次的引擎：差分 $\Delta_y f(x)=f(x+y)-f(x)$ 把次数减 1；差分 $k-1$ 次后 $x$ 的系数是 $k!\,\alpha\,y_1\cdots y_{k-1}$。
一次和的关键估计：$\big|\sum_x e(\lambda x)\big|\ll 1/\|\lambda\|$（$\|\lambda\|$ 是 $\lambda$ 到最近整数的距离）。
小工具：除数函数 $d(m)\ll m^\varepsilon$。
推论（Gauss 和）：$S_{a,q}=\sum_{z=1}^q e(az^k/q)\ll q^{1-1/K+\varepsilon}$。例：$k=2$ 时 $=\sqrt q$。
正交性（圆法心脏）：对整数 $m$，$\int_0^1 e(m\alpha)d\alpha$ 为 $1$（当 $m=0$）或 $0$（否则）。它把"求积分"变成"数方程的解"。
华罗庚不等式：$\int_0^1|T(\alpha)|^{2^k}d\alpha\ll P^{2^k-k+\varepsilon}$，即方程 $\sum x_i^k=\sum y_i^k$（各 $2^{k-1}$ 项）的解远比平凡估计少。

配套：第 3 章中文译文（忠实原书版） · 返回全书目录