Davenport 圆法 · 第 3 章 · 高中生详解版

Weyl 不等式与华罗庚不等式(手把手讲解)A step-by-step, example-driven explanation for beginners

导读 · 为什么需要这些"丑"的不等式?

正式钻进符号之前,先想清楚一件事,否则你会觉得后面那些从等式退化成不等式、还一路丢掉一大堆东西的步骤莫名其妙、甚至"很丑"。这一节就回答:这些结论是在什么背景下产生的,为什么非得是不等式

① 我们要的根本不是 \(S\) 本身

请先纠正一个隐含的期待:我们从来没打算精确算出 \(S=\sum e(f(x))\)。真正想回答的问题是——

"\(N\) 能不能写成 \(s\) 个 \(k\) 次方之和?有多少种写法?"

这个"写法数"\(r(N)\) 由一个积分给出(就是第 4 章的 (4.1),这里先认个脸熟):

\[ r(N)=\int_0^1 T(\alpha)^s\,e(-N\alpha)\,d\alpha. \]

我们的目标只是证明 \(r(N)\gt 0\)(至少存在一种写法),最好再算出它的主阶。关键:要证 \(r(N)\gt 0\),根本不需要 \(r(N)\) 的精确值,只需要"正的主项 \(\gt\) 误差的上界"。 我们要的是一场赛跑的胜负,不是终点的精确读数——这就是一切不等式的源头。

② 圆法的核心:把积分劈成"信号"和"噪声"

把积分区间 \([0,1]\) 切成两块(这就是"圆法/Hardy–Littlewood 方法"的招牌动作):

主弧 \(\mathfrak{M}\)(\(\alpha\) 靠近分母小的分数)
这里 \(T(\alpha)\) 很大、有漂亮的近似公式,贡献主项,量级约 \(P^{s-k}\)。这是"信号",要算准——这部分恰恰用等式、用精细的渐近公式来处理。
次弧 \(\mathfrak{m}\)(其余所有 \(\alpha\))
这里 \(T(\alpha)\) 没有任何封闭公式、剧烈震荡,我们既算不出、也不想算。只需要证明它们加起来比主项小,淹没不了信号。这是"噪声"

所以本章那些"丑"的不等式,全部用在次弧上,唯一任务就是:把噪声压到信号以下。这就回答了"为什么要不等式"——对次弧,等式既不可能、也没必要。

③ 为什么"丢掉很多东西"反而是对的

你注意到很多步从等式变成了不等式(三角不等式 \(|S|\le\sum|\cdot|\)、\(\Re w\le|w|\)、Cauchy–Schwarz……),每一步丢掉的其实是相位(角度)信息。而相位,正是我们对一般 \(\alpha\) 唯一掌控不了的东西。与其纠缠于算不清的相位,不如主动扔掉、换一个还够用的上界。
更要紧的是:每次只丢"便宜的东西"——丢掉的至多是一个常数倍或一个 \(P^\varepsilon\),绝不会丢掉一个会要命的 \(P\) 的幂。这门手艺的全部精髓就是:只在丢得起的地方丢

④ 为什么平凡上界不够,那些幂次怎么"卡"出来的

若在次弧上偷懒、用平凡上界 \(|T|\le P\),就会得到

\[ \int_{\mathfrak m}|T|^s\,d\alpha\le P^s\cdot|\mathfrak m|\approx P^{\,s}. \]

可是主项才 \(P^{\,s-k}\),而 \(P^{s}\gg P^{\,s-k}\)——噪声把信号彻底淹没,什么都证不出来。于是我们必须把次弧积分压到 \(\ll P^{\,s-k-\delta}\)(严格小于主项)。Weyl 不等式正是为赢得这点差距而量身定制的:它给出 \(|T(\alpha)|\ll P^{\,1-\delta}\)(本章主角),Hua 不等式再控制 \(\int|T|^{2^k}\),两者一拼(第 4 章引理 4.1)就把次弧压了下去。所以指数里那些 \(-1/K\)、\(2^k-k\) 不是凭空的丑数字,而是"刚好够赢"所需的最小代价

⑤ 为什么"丑"——丑是一种诚实

(a) 要对所有情况成立。 这些不等式对任意多项式、任意 \(\alpha\)、无条件(不假设任何未证猜想)都成立。一个必须照顾最坏情形的界,对典型情形必然保守——丑,是"普适 + 无条件"的代价。

(b) 它离真相还很远。 真值往往是平方根抵消 \(|S|\approx\sqrt P=P^{1/2}\)(还记得例 2.1 里 \(\sum e(x^2/5)\) 恰好是 \(\sqrt5\) 吗?那就是 \(P^{1/2}\))。而 Weyl 只给到 \(P^{\,1-1/2^{k-1}}\),当 \(k\) 大时离 \(P^{1/2}\) 差很远。这个"丑"诚实地标出了"能证明的"与"真相"之间的鸿沟。 Weyl(1916)只是第一代、最粗糙的工具;后来 Vinogradov 把 \(2^{k-1}\) 改进成约 \(4k^2\log k\)(见第 3 章末的注),直到现代的 Vinogradov 中值定理(Wooley 的 efficient congruencing、Bourgain–Demeter–Guth 的 decoupling,约 2015 年)才基本做到最优。整个领域一直在把这些不等式变得不那么丑——丑是暂时的、是前沿的标记。

(c) 美在策略,不在某一行公式。 圆法的美在那个"主弧算准、次弧压小"的二分思想:用一个积分把"解的个数"翻译成"信号与噪声之争",再分别用等式和不等式各个击破。单看一行 \(\le\) 确实难看,退一步看整盘棋却极漂亮。

⑥ 历史背景

这套方法源于 Hardy 与 Ramanujan(1918) 研究分拆函数 \(p(n)\),随即由 Hardy 与 Littlewood 在 1920 年代的系列论文《Partitio Numerorum》中发展成通用工具,专攻 Waring 问题(每个整数是若干 \(k\) 次方之和)与 Goldbach 问题Vinogradov(1937) 用它证明了"充分大的奇数是三个素数之和"。它们生来就是为了处理一类没有封闭公式、只能求存在性与渐近的丢番图问题——在这种问题里,不等式不是退而求其次,而是唯一可能的语言

一句话总结:这些不等式之所以"丢掉很多、还很丑",是因为我们要的从来不是精确值,而是"信号 \(\gt\) 噪声"这一个胜负判定;对算不清的次弧,主动扔掉相位、只保留够用的上界,是唯一可行也最经济的做法——而它们的丑,恰恰诚实地记录着"可证"与"真相"之间至今仍在缩小的差距。带着这个全局观,再看下面每一步的 \(\le\),就会发现它们一点都不随意。

读这篇要有的心理准备:这一章的原文是给数学研究者看的,跳步很多。下面我把它拆成最小的步骤,每出现一个新符号就停下来解释它是什么、读作什么、代进具体数字算一遍。你只需要会:加减乘除、平方、三角函数 \(\sin\cos\)、以及"复数 \(i\) 满足 \(i^2=-1\)"。其余的我们从零讲起。

0. 这一章到底想干什么?

我们想研究一种特别的求和,叫指数和,长这个样子:

\[ S=\sum_{x=1}^{P}e\big(f(x)\big). \]

先别慌,下面会逐字解释。这一章只有两个主要结论

"和不会太大"这件事,正是后面用圆法解决"每个大整数都能写成若干个 \(k\) 次方之和"(华林问题)的关键武器。这一章就是在打磨这把武器。


1. 预备知识:记号 \(e(\theta)\) 是什么

整章都在用一个缩写,定义是:

定义(记号 \(e(\theta)\)). 对任意实数 \(\theta\), \[ e(\theta)\;:=\;\cos(2\pi\theta)+i\,\sin(2\pi\theta), \] 其中 \(i\) 是虚数单位(\(i^2=-1\)),\(2\pi\theta\) 是一个用弧度表示的角(\(2\pi\) 弧度 \(=360^\circ\))。

逐字解释:

\(\theta\)(读作"西塔")
一个实数,是我们喂给这个记号的输入。
\(e(\theta)\)
一个复数,也就是平面上的一个点 \((\cos 2\pi\theta,\ \sin 2\pi\theta)\)。因为 \(\cos^2+\sin^2=1\),这个点一定落在以原点为心、半径为 1 的圆上。

它有三条性质,全章反复用到,请记牢:

  1. 长度永远是 1:\(|e(\theta)|=\sqrt{\cos^2(2\pi\theta)+\sin^2(2\pi\theta)}=1\)。
  2. 只看小数部分:角转一整圈回到原地,所以 \(e(\theta+1)=e(\theta)\)。特别地,若 \(m\) 是整数则 \(e(m)=e(0)=1\)。
  3. 相乘=指数相加:\(e(\theta_1)\,e(\theta_2)=e(\theta_1+\theta_2)\)。(这其实就是 \(e^{2\pi i\theta}\) 的指数律,所以才用字母 \(e\)。)
例 1.1. 算几个具体值:

2. 什么是"指数和" \(S\)

现在看主角:

\[ S=\sum_{x=1}^{P}e\big(f(x)\big). \]
\(\textstyle\sum_{x=1}^{P}\)(求和号)
意思是"让 \(x\) 依次取 \(1,2,3,\dots,P\),把每个对应的东西加起来"。
\(P\)
一个正整数,表示我们要加多少项。通常 \(P\) 很大(几千、几万……),我们关心 \(P\) 很大时 \(S\) 有多大。
\(f(x)\)
一个多项式,例如 \(f(x)=\alpha x^2\) 或 \(\alpha x^3+\dots\)。它最高的次数记作 \(k\)。
\(k\)
多项式 \(f\) 的次数(最高次项的指数)。比如 \(f(x)=\alpha x^3\) 时 \(k=3\)。
\(\alpha\)(读作"阿尔法")
\(f\) 的最高次项系数,是一个实数。它将扮演核心角色。

所以 \(S\) 就是把 \(P\) 个"圆上的点"加起来,得到的还是一个复数。我们关心它的长度 \(|S|\)。

例 2.1(完整算一遍). 取 \(k=2\),\(f(x)=\dfrac{x^2}{5}\)(即 \(\alpha=\tfrac15\)),\(P=5\)。那么 \[ S=\sum_{x=1}^{5}e\!\Big(\frac{x^2}{5}\Big)=e(\tfrac15)+e(\tfrac45)+e(\tfrac95)+e(\tfrac{16}{5})+e(\tfrac{25}{5}). \] 逐项用"只看小数部分"化简(性质 2): \[ e(\tfrac95)=e(\tfrac45),\quad e(\tfrac{16}{5})=e(\tfrac15),\quad e(\tfrac{25}{5})=e(5)=e(0)=1. \] 于是 \[ S=1+2\,e(\tfrac15)+2\,e(\tfrac45). \] 又因为 \(e(\tfrac45)=e(-\tfrac15)\)(差一个整数 1),而 \(\cos\) 是偶函数、\(\sin\) 是奇函数,所以 \(e(\tfrac15)+e(\tfrac45)=2\cos 72^\circ\approx 2(0.309)=0.618\)。代回: \[ S=1+2(0.618)=2.236\approx\sqrt5. \] 注意虚部(\(\sin\) 那部分)正好两两抵消,最后 \(S\) 是个正实数。
关键观察:这里加了 5 个长度为 1 的复数,如果它们方向一致,和的长度可以达到 5;但实际只有 \(\sqrt5\approx2.236\)。这就是"抵消"。整章的目标就是证明这种抵消一定会发生,从而 \(|S|\) 比 \(P\) 小得多。

3. 最笨的上界 \(P\),以及为什么我们想要更好的

因为每一项 \(|e(f(x))|=1\),由三角不等式("和的长度 \(\le\) 各长度之和")马上得到:

\[ |S|=\Big|\sum_{x=1}^{P}e(f(x))\Big|\le\sum_{x=1}^{P}\big|e(f(x))\big|=\sum_{x=1}^{P}1=P. \]

这叫平凡上界(trivial bound):\(|S|\le P\)。它总成立,但没用——它只是说"\(P\) 个东西加起来不超过 \(P\) 个"。在例 2.1 里平凡上界是 5,实际却是 \(\sqrt5\)。

Weyl 不等式要给出一个真正小的上界,形如 \(|S|\le P^{1-\text{某个正数}}\),也就是 \(P\) 的一个低于 1 次的幂。\(P\) 越大,这个改进越值钱。

两个简写符号,先讲清楚(后面到处用):
\(A\ll B\)(读作"\(A\) 远小于等于 \(B\)",Vinogradov 记号)
意思是:存在某个固定常数 \(C\gt 0\),使得 \(|A|\le C\cdot B\) 永远成立。它和大 \(O\) 记号 \(A=O(B)\) 完全同义。我们不关心 \(C\) 具体是多少,只关心"差不多多大"。
例:\(3P+10\ll P\)(取 \(C=13\) 即可,对 \(P\ge1\))。
\(\varepsilon\)(读作"epsilon")与 \(P^{\varepsilon}\)
\(\varepsilon\) 表示一个任意小的正数(比如 \(0.001\))。\(P^{\varepsilon}\) 是一个增长得比任何正次幂都慢的因子;在估计里它几乎可以忽略,写上它只是为了让不等式严格成立。

4. Weyl 不等式:完整陈述 + 逐符号翻译

引理 3.1(Weyl 不等式). 设 \(f(x)=\alpha x^{k}+\alpha_1 x^{k-1}+\cdots+\alpha_k\) 是 \(k\) 次实系数多项式,最高次系数为 \(\alpha\)。又设 \(\alpha\) 有一个有理数逼近 \(a/q\) 满足 \[ (a,q)=1,\qquad q\gt 0,\qquad \Big|\alpha-\frac{a}{q}\Big|\le\frac{1}{q^{2}}. \] 则对任意 \(\varepsilon\gt 0\), \[ \Big|\sum_{x=1}^{P}e(f(x))\Big|\;\ll\;P^{1+\varepsilon}\Big(P^{-\frac1K}+q^{-\frac1K}+\big(\tfrac{P^k}{q}\big)^{-\frac1K}\Big),\qquad K=2^{k-1}. \]

这串符号看着吓人,我们一个一个拆。

\(a/q\)
一个分数(有理数),用来近似最高次系数 \(\alpha\)。\(a\) 是整数,\(q\) 是正整数。
\((a,q)=1\)
表示 \(a\) 与 \(q\) 互素(最大公约数是 1),即分数 \(a/q\) 已经约到最简。例:\(3/5\) 满足 \((3,5)=1\);\(2/4\) 不满足,要约成 \(1/2\)。
\(\big|\alpha-\tfrac aq\big|\le\tfrac1{q^2}\)
分数 \(a/q\) 与 \(\alpha\) 的误差很小,小于分母平方的倒数。这样的分数一定存在——这是数论里的 Dirichlet 逼近定理保证的,任何实数都能被有理数逼近到这个精度。
\(K=2^{k-1}\)
一个由次数 \(k\) 决定的常数。\(k=2\) 时 \(K=2\);\(k=3\) 时 \(K=4\);\(k=4\) 时 \(K=8\)。它会出现在指数 \(-1/K\) 上。
右边那个括号 \(\big(P^{-1/K}+q^{-1/K}+(P^k/q)^{-1/K}\big)\)
这是改进的来源。和平凡上界 \(P\) 相比,现在多乘了一个"小因子"(再加上无害的 \(P^{\varepsilon}\))。只要 \(q\) 既不太小也不太大,这个括号就 \(\ll P^{-\text{正数}}\),于是 \(|S|\ll P^{1-\text{正数}}\),比 \(P\) 小。
例 4.1(看一眼改进有多大). 取 \(k=3\)(立方),则 \(K=2^{2}=4\)。若分母 \(q\) 落在中等范围,比如 \(P\le q\le P^{k-1}=P^2\),那么括号里三项都 \(\ll P^{-1/4}\),于是 \[ |S|\ll P^{1+\varepsilon}\cdot P^{-1/4}=P^{\frac34+\varepsilon}. \] 对比平凡上界 \(P\):当 \(P=10^8\) 时,平凡上界是 \(10^8\),而 Weyl 给出约 \(10^{6}\)——小了一百倍。\(P\) 越大差距越悬殊。

5. 证明的第一招:把和"平方",让次数降一

直接估计 \(S\) 很难,因为 \(f\) 次数高。核心技巧叫 Weyl 差分:先算 \(|S|^2\),神奇的是这会把高次多项式变成低一次的多项式。我们一步步来。

由 \(|z|^2=z\cdot\overline z\)(复数乘它的共轭),并且 \(\overline{e(\theta)}=e(-\theta)\):

\[ |S|^{2}=\Big(\sum_{x_1}e(f(x_1))\Big)\Big(\sum_{x_2}e(-f(x_2))\Big) =\sum_{x_1}\sum_{x_2}e\big(f(x_1)-f(x_2)\big). \]
\(x_1,x_2\)
原来的求和变量 \(x\) 现在出现两份,各自独立地跑遍 \(1,\dots,P\)。

现在做换元:令第二个变量比第一个大 \(y\),即写 \(x_2=x_1+y\)(这里先看 \(x_2\gt x_1\) 的项,对称项类似)。记差分

\[ \Delta_y f(x):=f(x+y)-f(x). \]
\(y\)
两个变量之间的间距,是新引入的变量,取 \(1,2,\dots\)。
\(\Delta_y f(x)\)(读作"\(f\) 关于 \(y\) 的差分")
把 \(f\) 在 \(x+y\) 与 \(x\) 处的值相减。这是全章最重要的运算。

为什么差分能降次?看具体例子就懂了。

例 5.1(二次 → 一次). 设 \(f(x)=\alpha x^2\)(\(k=2\))。则 \[ \Delta_y f(x)=\alpha(x+y)^2-\alpha x^2=\alpha\big(x^2+2xy+y^2-x^2\big)=\underbrace{2\alpha y}_{\text{}}\,x+\alpha y^2. \] 原来 \(f\) 是 2 次的,差分之后 \(\Delta_y f(x)=(2\alpha y)\,x+\alpha y^2\) 变成关于 \(x\) 的 1 次多项式!而且 \(x\) 的系数是 \(2\alpha y\),正比于最高次系数 \(\alpha\)。
例 5.2(三次 → 二次). 设 \(f(x)=\alpha x^3\)(\(k=3\))。则 \[ \Delta_y f(x)=\alpha(x+y)^3-\alpha x^3=\alpha\big(3x^2y+3xy^2+y^3\big)=3\alpha y\,x^2+3\alpha y^2\,x+\alpha y^3. \] 从 3 次降到了 2 次。每平方一次、差分一次,次数就降 1。

下面就从上一行那个双重和,一步步推出本节要用的不等式。出发点是:

\[ |S|^{2}=\sum_{x_1=1}^{P}\sum_{x_2=1}^{P}e\big(f(x_1)-f(x_2)\big). \]

第 1 步:把"对角项"单独拎出来。 这个双重和一共有 \(P\times P=P^2\) 项。其中 \(x_1=x_2\) 的那些项叫对角项,它们的指数是 \(f(x_1)-f(x_1)=0\),所以每项都等于 \(e(0)=1\)。这样的项恰好有 \(P\) 个(\(x_1=x_2=1,2,\dots,P\)),合起来贡献 \(P\)。其余是 \(x_1\ne x_2\) 的非对角项。于是

\[ |S|^2=\underbrace{P}_{\text{对角项之和}}+\sum_{x_1\ne x_2}e\big(f(x_1)-f(x_2)\big). \]

第 2 步:非对角项两两配对,化成实部。 把 \((x_1,x_2)\) 和把两个下标反过来的 \((x_2,x_1)\) 配成一对。它们的指数互为相反数,所以这两个复数互为共轭

\[ e\big(f(x_2)-f(x_1)\big)=\overline{e\big(f(x_1)-f(x_2)\big)}. \]

而"一个复数 \(z\) 加上它的共轭 \(\overline z\)"等于"它实部的 2 倍",即 \(z+\overline z=2\Re z\)(\(\Re\) 读作"取实部")。因此我们只保留 \(x_2\gt x_1\) 的那一半项,每个乘以 2 再取实部就行:

\[ |S|^2=P+2\,\Re\!\!\sum_{x_2\gt x_1}e\big(f(x_2)-f(x_1)\big). \]

第 3 步:换元 \(x_2=x_1+y\),认出差分。 既然 \(x_2\gt x_1\),就把它们的间距记作 \(y=x_2-x_1\ge 1\)。对每个固定的 \(y\),要让 \(x_1\) 和 \(x_2=x_1+y\) 同时落在 \(1\) 到 \(P\) 之间,\(x_1\) 就只能取 \(1,2,\dots,P-y\)。而此时指数正好就是差分: \[ f(x_2)-f(x_1)=f(x_1+y)-f(x_1)=\Delta_y f(x_1). \] 把"先选间距 \(y\),再选起点 \(x_1\)"这两层求和明写出来:

\[ |S|^2=P+2\,\Re\sum_{y=1}^{P-1}\ \underbrace{\sum_{x_1=1}^{P-y}e\big(\Delta_y f(x_1)\big)}_{\textstyle =\,S_{k-1}(\Delta_y f)}. \]

括号里这个对 \(x_1\) 的和,正是"对降了一次的多项式 \(\Delta_y f\) 所做的指数和",记作 \(S_{k-1}(\Delta_y f)\)。下标 \(k-1\) 是在提醒:被求和的 \(\Delta_y f\) 是 \(k-1\) 次的(见例 5.1、5.2)。

第 4 步:取绝对值(两次放大)。 我们不需要等号,只要一个上界,于是用两条不等式往大了放:

依次用上去:

\[ |S|^2=P+2\,\Re\sum_{y=1}^{P-1}S_{k-1}(\Delta_y f) \;\le\;P+2\Big|\sum_{y=1}^{P-1}S_{k-1}(\Delta_y f)\Big| \;\le\;P+2\sum_{y=1}^{P-1}\big|S_{k-1}(\Delta_y f)\big|. \]

这就是本节开头那个不等式(书里把求和上限写成 \(P\),因为 \(y=P\) 那一项是空和、等于 0,写不写都一样):

\[ |S|^{2}\le P+2\sum_{y=1}^{P}\big|S_{k-1}(\Delta_y f)\big|. \]

它的意思是:原来 \(k\) 次的难题,被转化成了一堆 \(k-1\) 次的问题。

例 5.3(\(P=3\) 全程展开). 取 \(P=3\)。双重和共 \(3\times3=9\) 项。 按间距 \(y\) 归类(注意 \(x_1\) 只能取到 \(P-y\)): \[ y=1:\quad e(\Delta_1 f(1))+e(\Delta_1 f(2))=S_{k-1}(\Delta_1 f)\quad(x_1=1,2), \] \[ y=2:\quad e(\Delta_2 f(1))=S_{k-1}(\Delta_2 f)\quad(x_1=1). \] 于是 \[ |S|^2=3+2\,\Re\big[S_{k-1}(\Delta_1 f)+S_{k-1}(\Delta_2 f)\big]\le 3+2\big(|S_{k-1}(\Delta_1 f)|+|S_{k-1}(\Delta_2 f)|\big). \] \(y=1\) 那项有 2 个加数、\(y=2\) 那项只有 1 个——这正好对应"\(x_1\) 取到 \(P-y\) 为止"。

6. 反复平方:一路降到一次多项式

既然平方一次能降一次,那就反复做。每平方一轮就引入一个新的间距变量 \(y_1,y_2,\dots\),次数也跟着降。差分 \(\nu\) 次后,多项式降到 \(k-\nu\) 次。

\(\nu\)(读作"纽")
差分(平方)的次数,取 \(1,2,\dots\)。
\(y_1,\dots,y_\nu\)
每一轮平方引入的间距变量。
\(\Delta_{y_1,\dots,y_\nu}f\)
连续做 \(\nu\) 次差分后得到的多项式,次数为 \(k-\nu\)。

下面把"反复平方"真正做一遍,看它怎么从 §5 的结论一步步长成原文的不等式 (3.1)。先准备一件工具。

工具(Cauchy–Schwarz 的一个简单特例). 对任意 \(N\) 个非负实数 \(a_1,\dots,a_N\),有 \[ \Big(\sum_{i=1}^{N}a_i\Big)^2\le N\sum_{i=1}^{N}a_i^{2}. \] 直观:左边把它们先加起来再平方,右边给每个平方后乘以个数 \(N\);后者总不小于前者。
小验证:\(N=2\) 时,\((a_1+a_2)^2=a_1^2+a_2^2+2a_1a_2\le a_1^2+a_2^2+(a_1^2+a_2^2)=2(a_1^2+a_2^2)\),用了 \(2a_1a_2\le a_1^2+a_2^2\)。

第一轮(\(\nu=1\))就是 §5 的结论。 把 §5 那个不等式里的常数 2 用 \(\ll\) 吸收掉,写成

\[ |S|^{2}\;\ll\;P+\sum_{y_1=1}^{P}\big|S_{k-1}(\Delta_{y_1}f)\big|.\tag{A} \]

第二轮(\(\nu=1\to\nu=2\)):把 (A) 再平方一次。 两边平方,并用 \((u+v)^2\ll u^2+v^2\):

\[ |S|^{4}=\big(|S|^2\big)^2\;\ll\;P^2+\Big(\sum_{y_1=1}^{P}\big|S_{k-1}(\Delta_{y_1}f)\big|\Big)^2. \]

对右边那个"和的平方"用上面的 Cauchy–Schwarz 工具(这里 \(N=P\) 项):

\[ \Big(\sum_{y_1=1}^{P}\big|S_{k-1}(\Delta_{y_1}f)\big|\Big)^2\le P\sum_{y_1=1}^{P}\big|S_{k-1}(\Delta_{y_1}f)\big|^{2}. \]

现在每个 \(\big|S_{k-1}(\Delta_{y_1}f)\big|^2\) 又是"某个指数和的平方",而 \(\Delta_{y_1}f\) 是 \(k-1\) 次多项式——所以可以对它再用一次 §5 的招数(平方降次),只不过这次降到 \(k-2\) 次,引入新间距 \(y_2\):

\[ \big|S_{k-1}(\Delta_{y_1}f)\big|^{2}\;\ll\;P+\sum_{y_2=1}^{P}\big|S_{k-2}(\Delta_{y_1,y_2}f)\big|. \]

把它代回去:

\[ \begin{aligned} |S|^{4}&\ll P^2+P\sum_{y_1=1}^{P}\Big(P+\sum_{y_2=1}^{P}\big|S_{k-2}(\Delta_{y_1,y_2}f)\big|\Big)\\ &=P^2+\underbrace{P\cdot P\cdot P}_{=\,P^3}+P\sum_{y_1=1}^{P}\sum_{y_2=1}^{P}\big|S_{k-2}(\Delta_{y_1,y_2}f)\big|\\ &\ll P^{3}+P\sum_{y_1=1}^{P}\sum_{y_2=1}^{P}\big|S_{k-2}(\Delta_{y_1,y_2}f)\big|. \end{aligned} \]

把指数对一下:\(P^3=P^{2^2-1}\),前面的因子 \(P=P^{2^2-2-1}\)。这正是下面通式在 \(\nu=2\) 时的样子。

一直这样做下去(数学归纳法),每多平方一轮就多一层对 \(y\) 的求和、被求和的多项式再降一次,得到原文的通式 (3.1)

\[ |S|^{2^{\nu}}\;\ll\;P^{2^{\nu}-1}+P^{2^{\nu}-\nu-1}\sum_{y_1=1}^{P}\!\cdots\!\sum_{y_\nu=1}^{P}\big|S_{k-\nu}(\Delta_{y_1,\dots,y_\nu}f)\big|. \]

读法:"\(|S|\) 的 \(2^\nu\) 次方,被一个主项 \(P^{2^\nu-1}\),加上'对所有间距 \(y_1,\dots,y_\nu\) 求和的低次指数和'控制住。"我们刚才已亲手验证了 \(\nu=1\)(即 (A))和 \(\nu=2\) 两步;归纳就是把"第二轮"那段话里的 \(1\to2\) 换成 \(\nu\to\nu+1\) 重复一遍。

现在选 \(\nu=k-1\)(差分到底),多项式 \(\Delta_{y_1,\dots,y_{k-1}}f\) 就降成 1 次 了。它的最高次(\(x\) 的)系数是多少?我们从最高次项 \(\alpha x^k\) 出发,把每一次差分对最高次项的作用算清楚

用二项式定理展开一次差分:

\[ \Delta_y(x^k)=(x+y)^k-x^k=\Big(x^k+k\,y\,x^{k-1}+\tbinom{k}{2}y^2x^{k-2}+\cdots\Big)-x^k=k\,y\,x^{k-1}+(\text{更低次的 }x\text{ 项}). \]

关键就一句:差分一次,最高次项 \(x^k\) 变成 \(k\,y\,x^{k-1}\)——次数掉 1,系数多乘了"原次数 \(k\)"和一个新间距 \(y\)。对剩下的低次项再差分,规律一样。于是连续差分 \(\nu\) 次后,最高次项是

\[ \alpha\cdot\underbrace{k(k-1)(k-2)\cdots(k-\nu+1)}_{\nu\text{ 个因子}}\cdot y_1y_2\cdots y_\nu\cdot x^{\,k-\nu}. \]

取 \(\nu=k-1\),那串连乘是 \(k(k-1)\cdots 2=k!\),而幂次变成 \(x^{k-(k-1)}=x^1\)。所以

\[ \Delta_{y_1,\dots,y_{k-1}}f(x)=\underbrace{k!\,\alpha\,y_1y_2\cdots y_{k-1}}_{\text{$x$ 的系数}}\;x\;+\;\beta. \]
\(k!\)(读作"\(k\) 的阶乘")
\(k!=1\cdot2\cdots k\)。这里它是连乘 \(k(k-1)\cdots2\) 的结果。例:\(k=2\) 时为 \(2\)(对上例 5.1 的系数 \(2\alpha y\));\(k=3\) 时为 \(6\)(对上例 5.2/6.1 的系数 \(6\alpha yz\))。
\(\beta\)(读作"贝塔")
把上面"更低次的 \(x\) 项"一路差分后攒下来的、与 \(x\) 无关的常数项总和。因为它不含 \(x\),在下一步对 \(x\) 求和时只贡献一个固定相位 \(e(\beta)\)(长度为 1),既不放大也不缩小,可以不管它的具体值。

注意一个对后面有用的事实:\(x\) 的系数里出现了乘积 \(y_1y_2\cdots y_{k-1}\),这正是 §8 要数"有多少组 \(y\) 给出同一乘积"的原因。

例 6.1(验证 \(k=3\) 的系数). 对 \(f(x)=\alpha x^3\),先差分 \(y\)(例 5.2 得 \(3\alpha y\,x^2+\dots\)),再差分 \(z\): \[ \Delta_z\big(3\alpha y\,x^2\big)=3\alpha y\big((x+z)^2-x^2\big)=6\alpha yz\,x+3\alpha yz^2, \] 其余项要么是 \(x\) 的常数项(并入 \(\beta\)),要么为 0。所以 \(x\) 的系数是 \(6\alpha yz=3!\,\alpha\,y_1y_2\),与公式里的 \(k!\,\alpha\,y_1\cdots y_{k-1}\) 一致(这里 \(k=3\),间距是 \(y_1=y,\ y_2=z\))。

7. 一次多项式的指数和:等比数列求和

降到一次以后,要算的是 \(\big|\sum_x e(\lambda x)\big|\),其中 \(\lambda\)(读作"拉姆达")是那个 \(x\) 的系数 \(k!\,\alpha\,y_1\cdots y_{k-1}\),对固定的 \(y\) 们来说是个常数。这一步可以精确求和,因为它是等比数列

第 1 步:写成等比数列。 由性质 3,\(e(\lambda x)=\big(e(\lambda)\big)^x\)。记公比 \(r=e(\lambda)\),要算的和(设 \(x\) 从 \(x_1\) 取到 \(x_2-1\))就是

\[ G=\sum_{x=x_1}^{x_2-1}r^{x}=r^{x_1}+r^{x_1+1}+\cdots+r^{x_2-1}. \]

第 2 步:用"错位相减"求和(就是课本里推等比数列的办法)。 把 \(G\) 乘以公比 \(r\):

\[ rG=r^{x_1+1}+r^{x_1+2}+\cdots+r^{x_2}. \]

两式相减,中间的项全部抵消,只剩头尾:

\[ rG-G=r^{x_2}-r^{x_1}\ \Longrightarrow\ G=\frac{r^{x_2}-r^{x_1}}{r-1}=r^{x_1}\,\frac{r^{x_2-x_1}-1}{r-1}. \]

第 3 步:取长度(模)。 分子 \(=r^{x_2}-r^{x_1}\),而 \(|r^{x_2}|=|r^{x_1}|=1\)(因为 \(|r|=|e(\lambda)|=1\)),由三角不等式分子的模 \(\le 1+1=2\)。所以

\[ \Big|\sum_x e(\lambda x)\Big|=|G|=\frac{|r^{x_2}-r^{x_1}|}{|r-1|}\le\frac{2}{|r-1|}=\frac{2}{|e(\lambda)-1|}. \]

第 4 步:把分母 \(|e(\lambda)-1|\) 算成 \(\sin\)。 直接算它的模的平方:

\[ \begin{aligned} |e(\lambda)-1|^2&=\big(\cos2\pi\lambda-1\big)^2+\big(\sin2\pi\lambda\big)^2\\ &=\cos^2 2\pi\lambda-2\cos2\pi\lambda+1+\sin^2 2\pi\lambda\\ &=2-2\cos2\pi\lambda\qquad(\text{用 }\cos^2+\sin^2=1)\\ &=4\sin^2\pi\lambda\qquad(\text{用半角公式 }1-\cos2\theta=2\sin^2\theta,\ \theta=\pi\lambda). \end{aligned} \]

开方得 \(|e(\lambda)-1|=2|\sin\pi\lambda|\)。代回第 3 步:

\[ \Big|\sum_x e(\lambda x)\Big|\le\frac{2}{|e(\lambda)-1|}=\frac{2}{2|\sin\pi\lambda|}=\frac{1}{|\sin\pi\lambda|}. \]

第 5 步:把 \(\sin\) 换成"离整数的距离"。 先引入记号:

\(\|\lambda\|\)(读作"\(\lambda\) 到最近整数的距离")
例:\(\|0.1\|=0.1\),\(\|0.9\|=0.1\)(因为离 1 更近),\(\|2.3\|=0.3\),\(\|3.5\|=0.5\)(最大可能值),整数的 \(\|\cdot\|=0\)。它总落在 \([0,\tfrac12]\)。

因为 \(|\sin\pi\lambda|\) 只看 \(\lambda\) 的小数部分、且关于整数对称,所以 \(|\sin\pi\lambda|=\sin(\pi\|\lambda\|)\)。又因为在 \(t\in[0,\tfrac12]\) 上 \(\sin(\pi t)\) 的图像是上凸的,它一定不低于连接两端点 \((0,0)\) 与 \((\tfrac12,1)\) 的那条直线 \(y=2t\),即

\[ \sin(\pi t)\ge 2t\quad(0\le t\le\tfrac12)\ \Longrightarrow\ |\sin\pi\lambda|=\sin(\pi\|\lambda\|)\ge 2\|\lambda\|. \]

(数值感受:\(t=0.1\) 时 \(\sin18^\circ=0.309\ge 0.2\);\(t=0.3\) 时 \(\sin54^\circ=0.809\ge0.6\)。)把它代进第 4 步的结果,分母变大、整体变小:

\[ \Big|\sum_x e(\lambda x)\Big|\le\frac{1}{|\sin\pi\lambda|}\le\frac{1}{2\|\lambda\|}\;\ll\;\frac{1}{\|\lambda\|}. \]

结论:只要 \(\lambda\) 离整数有点距离,这个一次指数和就很小(与 \(P\) 无关!)。只有当 \(\lambda\) 几乎是整数(\(\|\lambda\|\approx0\))时它才可能大,那时我们退回用平凡上界 \(P\) 兜底。

例 7.1. 设 \(\lambda=0.1\),要加 \(P=100\) 项。平凡上界是 100,但实际: \[ \Big|\sum_{x}e(0.1\,x)\Big|\le\frac{1}{|\sin 18^\circ|}=\frac{1}{0.309}\approx 3.24. \] 3.24 远小于 100。这正是"抵消"的精确体现:当公比转得够快,转一圈就几乎加回原点。

8. 一个数论小工具:除数函数 \(d(m)\ll m^{\varepsilon}\)

把上一步的结果对所有间距 \(y_1,\dots,y_{k-1}\) 求和时,会出现很多组 \((y_1,\dots,y_{k-1})\) 给出同一个乘积 \(k!\,y_1\cdots y_{k-1}=m\)。要数"有多少组",就用到除数函数。

\(d(m)\)(除数函数)
正整数 \(m\) 的正因子个数。例:\(d(6)=4\)(因子 \(1,2,3,6\));\(d(12)=6\)(\(1,2,3,4,6,12\));素数 \(p\) 有 \(d(p)=2\)。

书里证明的事实是:

\[ d(m)\ll m^{\varepsilon}\qquad(\text{对任意固定 }\varepsilon\gt 0). \]

意思是:因子个数虽然时大时小,但增长得比 \(m\) 的任何正次幂都慢。下面把证明也完整走一遍

第 1 步:把 \(d(m)\) 写成乘积。 把 \(m\) 做质因数分解:

\[ m=p_1^{\lambda_1}p_2^{\lambda_2}\cdots p_r^{\lambda_r}, \]

其中 \(p_1,\dots,p_r\) 是不同的质数,\(\lambda_i\ge1\) 是各自的指数。\(m\) 的一个因子,等于"对每个质数 \(p_i\),独立地从 \(0,1,2,\dots,\lambda_i\) 里挑一个指数"。第 \(i\) 个质数有 \(\lambda_i+1\) 种挑法,所以因子总数是各处挑法相乘:

\[ d(m)=(\lambda_1+1)(\lambda_2+1)\cdots(\lambda_r+1)=\prod_{i=1}^{r}(\lambda_i+1). \]

(验证:\(12=2^2\cdot3^1\),\(d(12)=(2+1)(1+1)=6\),确实是 \(1,2,3,4,6,12\) 共 6 个。)

第 2 步:除以 \(m^\varepsilon\),逐个质数看。 因为 \(m^\varepsilon=p_1^{\varepsilon\lambda_1}\cdots p_r^{\varepsilon\lambda_r}\),

\[ \frac{d(m)}{m^\varepsilon}=\prod_{i=1}^{r}\frac{\lambda_i+1}{p_i^{\varepsilon\lambda_i}}. \]

现在只要证明:这个乘积有一个不依赖于 \(m\) 的上界 \(C(\varepsilon)\)。把质数分成"大的"和"小的"两类。

第 3 步:大质数那些因子 \(\le 1\),白送。 若 \(p_i\) 满足 \(p_i^{\varepsilon}\ge2\)(即 \(p_i\ge 2^{1/\varepsilon}\)),则 \(p_i^{\varepsilon\lambda_i}=\big(p_i^\varepsilon\big)^{\lambda_i}\ge 2^{\lambda_i}\)。而对所有整数 \(\lambda_i\ge1\) 都有 \(\lambda_i+1\le 2^{\lambda_i}\)(验证:\(\lambda=1\) 时 \(2\le2\);\(\lambda=2\) 时 \(3\le4\);以后右边翻倍涨得更快)。于是

\[ \frac{\lambda_i+1}{p_i^{\varepsilon\lambda_i}}\le\frac{2^{\lambda_i}}{2^{\lambda_i}}=1. \]

所以所有大质数对应的因子都 \(\le 1\),乘进去只会让乘积变小,可以全部丢掉

第 4 步:小质数只有有限个,凑成常数。 剩下的是满足 \(p_i\lt 2^{1/\varepsilon}\) 的"小质数"——它们只有有限个(因为 \(2^{1/\varepsilon}\) 是个固定的数,比它小的质数就那么几个)。对每个这样的质数 \(p\),函数 \(\dfrac{\lambda+1}{p^{\varepsilon\lambda}}\)(把 \(\lambda\) 看成变量)当 \(\lambda\) 增大时,分母按指数增长、分子只线性增长,所以它有最大值,记作某个常数 \(C_p(\varepsilon)\)。把这有限个常数乘起来:

\[ \frac{d(m)}{m^\varepsilon}\le\prod_{p\lt 2^{1/\varepsilon}}C_p(\varepsilon)=:C(\varepsilon). \]

这个 \(C(\varepsilon)\) 只跟 \(\varepsilon\) 有关,跟 \(m\) 无关。于是 \(d(m)\le C(\varepsilon)\,m^\varepsilon\),也就是 \(d(m)\ll m^\varepsilon\)。证毕。

所以在后面的估计里,\(d(m)\) 和 \(P^{\varepsilon}\) 一样,几乎可以忽略。

例 8.1. 拿 \(\varepsilon=\tfrac12\),看 \(d(m)/\sqrt m\): \[ \frac{d(12)}{\sqrt{12}}=\frac{6}{3.46}\approx1.73,\qquad \frac{d(60)}{\sqrt{60}}=\frac{12}{7.75}\approx1.55,\qquad \frac{d(360)}{\sqrt{360}}=\frac{24}{18.97}\approx1.26. \] 随着 \(m\) 变大,这个比值整体往下走——说明 \(\sqrt m\) 终究跑得比 \(d(m)\) 快。这就是 \(d(m)\ll_\varepsilon m^{\varepsilon}\) 的直观含义。

9. 把所有零件拼起来(Weyl 不等式的逻辑链)

现在回顾整条思路,每一步对应前面哪一节:

  1. 要估计 \(k\) 次的 \(|S|\)。直接做太难。(§2–3)
  2. 平方 + 差分一次 → 降成 \(k-1\) 次的问题。(§5)
  3. 反复平方 \(k-1\) 次 → 降成一次多项式,\(x\) 的系数是 \(k!\,\alpha\,y_1\cdots y_{k-1}\)。(§6)
  4. 一次指数和用等比求和,得到 \(\ll 1/\|k!\,\alpha\,y_1\cdots y_{k-1}\|\)(或退回平凡上界 \(P\))。(§7)
  5. 对所有间距求和,用除数函数 \(d(m)\ll m^\varepsilon\) 合并同乘积的项。(§8)
  6. 最后用题设的有理逼近 \(|\alpha-a/q|\le 1/q^2\) 来估计那个求和——这一步下面完整推

下面把第 1–5 步真的逐步拼接起来,看那个"核心求和"是怎么一步步冒出来的。记 \(K=2^{k-1}\)。

步 A:在通式 (3.1) 里取 \(\nu=k-1\)。 把 §6 的 (3.1) 令 \(\nu=k-1\),先把两个指数算清楚:主项指数 \(2^{\nu}-1=2^{k-1}-1=K-1\);求和前的因子指数 \(2^{\nu}-\nu-1=2^{k-1}-(k-1)-1=K-k\)。于是

\[ |S|^{K}\ll P^{K-1}+P^{K-k}\sum_{y_1=1}^{P}\!\cdots\!\sum_{y_{k-1}=1}^{P}\big|S_1(\Delta_{y_1,\dots,y_{k-1}}f)\big|, \]

其中 \(S_1(\cdots)\) 是一次多项式的指数和(下标 1 表示一次)。

步 B:把每个一次和换成 §7 的上界。 由 §6,这个一次多项式是 \(\Delta_{y_1,\dots,y_{k-1}}f(x)=\lambda x+\beta\),其中

\[ \lambda=k!\,\alpha\,y_1y_2\cdots y_{k-1}. \]

常数项 \(\beta\) 只贡献一个长度为 1 的相位 \(e(\beta)\),不影响大小。由 §7 的结论(一次和 \(\ll 1/\|\lambda\|\),但任何时候都不超过平凡上界 \(P\),两者取小者):

\[ \big|S_1(\Delta_{y_1,\dots,y_{k-1}}f)\big|\ll\min\!\Big(P,\ \frac{1}{\|k!\,\alpha\,y_1\cdots y_{k-1}\|}\Big). \]

这个 \(\min(P,\cdot)\) 就是"两个上界取小者":\(\|\lambda\|\) 离 0 较远时用 \(1/\|\lambda\|\);\(\|\lambda\|\) 太接近 0、\(1/\|\lambda\|\) 失控时就退回 \(P\)。代回步 A:

\[ |S|^{K}\ll P^{K-1}+P^{K-k}\sum_{y_1=1}^{P}\!\cdots\!\sum_{y_{k-1}=1}^{P}\min\!\Big(P,\ \frac{1}{\|k!\,\alpha\,y_1\cdots y_{k-1}\|}\Big). \]

步 C:用 §8 把"对 \(y\) 求和"换成"对 \(m\) 求和"。 令乘积 \(m=k!\,y_1\cdots y_{k-1}\)。当 \((y_1,\dots,y_{k-1})\) 跑遍 \([1,P]^{k-1}\) 时,\(m\) 从 \(k!\) 取到 \(M:=k!\,P^{k-1}\)。对一个固定的 \(m\),满足 \(k!\,y_1\cdots y_{k-1}=m\) 的 \((y_1,\dots,y_{k-1})\) 组数 \(\ll m^{\varepsilon}\ll P^{\varepsilon}\)——这正是 §8 那个 \(d(m)\ll m^\varepsilon\) 的用处("一个数能拆成几个因子相乘"的方法数,被除数函数控制住)。又因为 \(\|k!\,\alpha\,y_1\cdots y_{k-1}\|=\|\alpha m\|\),把"同一个 \(m\)"的项并到一起,每个 \(m\) 至多被重复数到 \(P^{\varepsilon}\) 次:

\[ \sum_{y_1,\dots,y_{k-1}}\min\!\Big(P,\frac{1}{\|k!\alpha y_1\cdots y_{k-1}\|}\Big)\;\le\;P^{\varepsilon}\sum_{m=1}^{M}\min\!\Big(P,\frac{1}{\|\alpha m\|}\Big). \]

代回去,前面的 \(P^{K-k}\) 吸收掉这个 \(P^{\varepsilon}\) 变成 \(P^{K-k+\varepsilon}\),于是得到核心不等式(其中 \(\min(P,\cdot)\) 的含义同上):

\[ |S|^{K}\;\ll\;P^{K-1}+P^{K-k+\varepsilon}\,\Sigma,\qquad \Sigma:=\sum_{m=1}^{M}\min\!\Big(P,\ \frac{1}{\|\alpha m\|}\Big),\quad M=k!\,P^{k-1}. \]

到这里,所有"零件"已经拼成一条式子;剩下的全部工作,就是估计这个求和 \(\Sigma\)(即逻辑链里的第 6 步)。

分块求和(第 6 步全程).

(a) 分块。 把 \(m=1,2,\dots,M\) 切成一段段长为 \(q\) 的,块数约为 \(\dfrac{M}{q}+1\)。下面只需估"一块的和",再乘以块数。

(b) 一块里 \(\alpha m\) 怎么动。 设某块是 \(m=m_1,m_1+1,\dots,m_1+q-1\)。把 \(\alpha\) 写成 \(\dfrac aq\) 加一个小误差:

\[ \alpha(m_1+t)=\alpha m_1+\frac{a\,t}{q}+\Big(\alpha-\frac aq\Big)t,\qquad t=0,1,\dots,q-1. \]

最后一项很小:\(\big|(\alpha-\tfrac aq)t\big|\le\dfrac{1}{q^2}\cdot q=\dfrac1q\)。所以 \(\alpha(m_1+t)\) 基本上等于 \(\alpha m_1+\dfrac{at}{q}\)。

(c) 关键:\(at\) 跑遍所有余数。 因为 \((a,q)=1\),当 \(t=0,1,\dots,q-1\) 时,\(at\) 模 \(q\) 的余数恰好取遍 \(0,1,\dots,q-1\) 各一次。于是 \(\dfrac{at}{q}\) 的小数部分跑遍 \(0,\dfrac1q,\dfrac2q,\dots,\dfrac{q-1}{q}\),从而距离 \(\|\alpha(m_1+t)\|\) 取到的值大致是 \(\dfrac{1}{q},\dfrac{2}{q},\dots\) 直到约 \(\dfrac12\),每个值出现 \(O(1)\) 次。

(d) 一块的和。 在这一块里:

这里用到调和级数的估计 \(\displaystyle\sum_{s=1}^{n}\frac1s\approx\ln n\)(即 \(1+\tfrac12+\tfrac13+\cdots+\tfrac1n\) 大约是 \(\log n\))。所以 \(q\displaystyle\sum_{s=1}^{q/2}\frac1s\ll q\log q\)。合起来,一块的和 \(\ll P+q\log q\)

(e) 乘以块数。

\[ \Sigma\ll\Big(\frac{M}{q}+1\Big)\big(P+q\log q\big)=\Big(\frac{k!\,P^{k-1}}{q}+1\Big)\big(P+q\log q\big). \]

收尾的代数(每一步都摊开)。 先把方框 (e) 里 \(\Sigma\) 的上界乘开成 4 项

\[ \Sigma\ll\Big(\frac{P^{k-1}}{q}+1\Big)\big(P+q\log q\big) =\underbrace{\frac{P^{k}}{q}}_{①}+\underbrace{P^{k-1}\log q}_{②}+\underbrace{P}_{③}+\underbrace{q\log q}_{④}. \]

把它代回核心不等式的 \(P^{K-k+\varepsilon}\,\Sigma\) 那一项,也就是给每一项都乘上 \(P^{K-k+\varepsilon}\);同时随手用 \(\log q\ll P^{\varepsilon}\) 把对数吞掉(多出来的 \(\varepsilon\) 无所谓):

\[ \begin{aligned} P^{K-k+\varepsilon}\cdot①&=P^{K-k+\varepsilon}\cdot\frac{P^k}{q}=P^{K+\varepsilon}\,q^{-1},\\[2pt] P^{K-k+\varepsilon}\cdot②&=P^{K-k+\varepsilon}\cdot P^{k-1}\log q\ll P^{K-1+2\varepsilon}=P^{K+2\varepsilon}\,P^{-1},\\[2pt] P^{K-k+\varepsilon}\cdot③&=P^{K-k+\varepsilon}\cdot P=P^{K-(k-1)+\varepsilon}=P^{K+\varepsilon}\,P^{-(k-1)},\\[2pt] P^{K-k+\varepsilon}\cdot④&=P^{K-k+\varepsilon}\cdot q\log q\ll P^{K+2\varepsilon}\,P^{-k}q. \end{aligned} \]

再算上核心不等式里的主项 \(P^{K-1}=P^{K+\varepsilon}\,P^{-1-\varepsilon}\ll P^{K+\varepsilon}\,P^{-1}\)。现在比较这 5 项里括号外都提出 \(P^{K+\varepsilon}\) 后剩下的因子:\(q^{-1},\ P^{-1},\ P^{-(k-1)},\ P^{-k}q,\ P^{-1}\)。其中因为 \(k\ge 2\),有 \(P^{-(k-1)}\le P^{-1}\)(第 ③ 项被 \(P^{-1}\) 吃掉)。于是只剩三种本质不同的项;把 \(2\varepsilon\) 重新记作 \(\varepsilon\):

\[ |S|^{K}\;\ll\;P^{K+\varepsilon}\Big(P^{-1}+q^{-1}+P^{-k}q\Big). \]

最后一步:两边开 \(K\) 次方(即取 \(\tfrac1K\) 次幂)。左边 \(\big(|S|^K\big)^{1/K}=|S|\)。右边用 \(t\mapsto t^{1/K}\) 的两条性质:\((AB)^{1/K}=A^{1/K}B^{1/K}\),以及"和的根不超过根的和" \((a+b+c)^{1/K}\le a^{1/K}+b^{1/K}+c^{1/K}\)(对 \(K\ge1\) 成立)。于是

\[ |S|\ll\big(P^{K+\varepsilon}\big)^{1/K}\Big(P^{-1}+q^{-1}+P^{-k}q\Big)^{1/K} \ll P^{\,1+\varepsilon}\Big(P^{-\frac1K}+q^{-\frac1K}+\big(P^{-k}q\big)^{\frac1K}\Big). \]

(这里 \(\big(P^{K+\varepsilon}\big)^{1/K}=P^{1+\varepsilon/K}\),把 \(\varepsilon/K\) 重新记作 \(\varepsilon\)。)最后整理第三项:\(\big(P^{-k}q\big)^{1/K}=\big(q/P^{k}\big)^{1/K}=\big(P^{k}/q\big)^{-1/K}\)。代入便得

\[ |S|\;\ll\;P^{\,1+\varepsilon}\Big(P^{-\frac1K}+q^{-\frac1K}+\big(\tfrac{P^k}{q}\big)^{-\frac1K}\Big),\qquad K=2^{k-1}. \]

这正是第 4 节陈述的 Weyl 不等式——现在它右边每一项的来历都清清楚楚了。一句话回顾:平方降次(§5–6)→ 降到一次时用等比数列把"抵消"算出来(§7)→ 用除数函数合并(§8)→ 用有理逼近把求和分块估清楚(§9 方框)→ 开 \(K\) 次方还原。

为什么 \(q\) 不能太小? 若 \(q\) 很小(\(\alpha\) 极接近一个分母很小的分数),那 \(\lambda=k!\alpha y_1\cdots y_{k-1}\) 会经常落在整数附近,\(\|\lambda\|\approx0\),抵消失效,\(|S|\) 确实可能接近 \(P\)。例 2.1 的 \(\alpha=1/5\)(\(q=5\) 很小)就处在这种"无抵消保证"的边缘,但因为是平方且 \(P=q\),仍得到 \(\sqrt P\)。Weyl 不等式真正发威是在 \(q\) 中等大的时候。

10. 一个直接推论:Gauss 和 \(S_{a,q}\)

推论(引理 3.1 的特例). 设 \(a,q\) 互素、\(q\gt 0\),令 \[ S_{a,q}=\sum_{z=1}^{q}e\!\Big(\frac{a z^{k}}{q}\Big),\qquad\text{则}\qquad S_{a,q}\ll q^{1-\frac1K+\varepsilon}. \]

这就是 Weyl 不等式取 \(\alpha=a/q\)、\(P=q\) 的情形。我们把代入算一遍:因为 \(\alpha\) 正好等于 \(a/q\),误差是 \(0\le 1/q^2\),逼近条件自动满足。把 \(\alpha=a/q,\ P=q\) 代进第 4 节的不等式右边的三项:

\[ P^{-\frac1K}=q^{-\frac1K},\qquad q^{-\frac1K}=q^{-\frac1K},\qquad \Big(\frac{P^k}{q}\Big)^{-\frac1K}=\Big(\frac{q^k}{q}\Big)^{-\frac1K}=\big(q^{\,k-1}\big)^{-\frac1K}=q^{-\frac{k-1}{K}}. \]

因为 \(k\ge2\),所以 \(k-1\ge1\),第三项 \(q^{-(k-1)/K}\le q^{-1/K}\)。于是三项都 \(\le q^{-1/K}\),加起来仍 \(\ll q^{-1/K}\)。再乘上前面的 \(P^{1+\varepsilon}=q^{1+\varepsilon}\):

\[ |S_{a,q}|\ll q^{1+\varepsilon}\cdot q^{-\frac1K}=q^{\,1-\frac1K+\varepsilon}. \]

结论:这种"完整周期上的指数和"长度 \(\ll q^{1-1/K}\),比平凡上界 \(q\) 小。

例 10.1. 取 \(k=2\)(则 \(K=2^{1}=2\)),推论给出 \(S_{a,q}\ll q^{1-1/2}=\sqrt q\)。回到例 2.1:\(k=2,\ a=1,\ q=5\),我们正是算出 \(|S_{1,5}|=\sqrt5\)。完全吻合——平凡上界 5,实际 \(\sqrt5\)。这类和叫 Gauss 和

11. 华罗庚不等式:从"平均"的角度看抵消

Weyl 不等式管的是单个 \(\alpha\) 的 \(|S|\)。华罗庚不等式换个角度:把 \(\alpha\) 在 \([0,1]\) 上平均,看 \(|T(\alpha)|\) 的高次幂平均下来多大。先定义:

\[ T(\alpha)=\sum_{x=1}^{P}e(\alpha x^{k}). \]

(这就是 \(f(x)=\alpha x^k\)、最高项系数为 \(\alpha\) 的指数和,是圆法里反复出现的主角。)

11.1 先理解一个"积分挑选器"——正交性

下面这条性质是整个圆法的心脏,务必理解。对任意整数 \(m\):

\[ \int_{0}^{1}e(m\alpha)\,d\alpha= \begin{cases}1,& m=0,\\[2pt]0,& m\ne 0.\end{cases} \]
\(\int_0^1\cdots\,d\alpha\)
把 \(\alpha\) 从 0 到 1 做积分(求"曲线下面积",复数则实部虚部分别积)。

为什么? 当 \(m=0\) 时被积的是 \(e(0)=1\),积分就是区间长度 1。当 \(m\ne0\) 是整数时,\(e(m\alpha)=\cos(2\pi m\alpha)+i\sin(2\pi m\alpha)\) 在 \([0,1]\) 上正好转 \(|m|\) 整圈,\(\cos\) 和 \(\sin\) 的正负部分完全抵消,积分为 0。

这条性质就像一个开关:只有当指数里的整数恰好为 0 时,积分才"亮起"给出 1,否则归零。下面用它来数方程的解

11.2 用积分数解的个数

先看最简单的 \(|T(\alpha)|^2\) 的积分。用 \(|T|^2=T\cdot\overline T\):

\[ \int_0^1|T(\alpha)|^2\,d\alpha =\int_0^1\Big(\sum_{x_1}e(\alpha x_1^k)\Big)\Big(\sum_{x_2}e(-\alpha x_2^k)\Big)d\alpha =\sum_{x_1}\sum_{x_2}\int_0^1 e\big(\alpha(x_1^k-x_2^k)\big)\,d\alpha. \]

现在对每一对 \((x_1,x_2)\),里面的整数是 \(m=x_1^k-x_2^k\)。由 11.1 的开关:只有当 \(x_1^k-x_2^k=0\)(即 \(x_1=x_2\),因为变量都是正的)时积分 \(=1\),否则 \(=0\)。所以

\[ \int_0^1|T(\alpha)|^2\,d\alpha=\#\{(x_1,x_2):x_1=x_2,\ 1\le x_i\le P\}=P. \]

也就是说,这个积分等于某个方程的解的个数。这正是圆法的基本套路。

例 11.1. 取 \(P=3,\ k=2\)。方程 \(x_1^2=x_2^2\)(\(x_i\in\{1,2,3\}\))的解:\((1,1),(2,2),(3,3)\),共 3 个。于是 \(\int_0^1|T|^2d\alpha=3=P\)。和公式一致。

11.3 华罗庚不等式本身

引理 3.2(华罗庚不等式). 对任意固定 \(\varepsilon\gt 0\), \[ \int_{0}^{1}\big|T(\alpha)\big|^{2^{k}}\,d\alpha\;\ll\;P^{\,2^{k}-k+\varepsilon}. \]

把指数升到 \(2^k\) 次方。这个积分照样等于某个方程解的个数——我们把推导完整写出来。为省字,记 \(n=2^{k-1}\)(于是 \(2^k=2n\))。

第 1 步:把 \(2n\) 次方拆成 \(T^n\) 乘 \(\overline T^{\,n}\)。

\[ |T(\alpha)|^{2^k}=|T(\alpha)|^{2n}=\big(|T|^2\big)^n=\big(T\overline T\big)^n=T(\alpha)^{n}\,\overline{T(\alpha)}^{\,n}. \]

第 2 步:每个幂展开成多重求和。 \(T(\alpha)^n=\big(\sum_x e(\alpha x^k)\big)^n\) 是 \(n\) 个相同的和相乘,结果是对 \(n\) 个独立变量 \(x_1,\dots,x_n\) 求和(用性质 3 把指数相加):

\[ T(\alpha)^{n}=\sum_{x_1=1}^{P}\!\cdots\!\sum_{x_n=1}^{P}e\big(\alpha(x_1^k+\cdots+x_n^k)\big). \]

共轭那半同理,注意 \(\overline{e(\theta)}=e(-\theta)\) 带来一个负号,变量记作 \(y_1,\dots,y_n\):

\[ \overline{T(\alpha)}^{\,n}=\sum_{y_1=1}^{P}\!\cdots\!\sum_{y_n=1}^{P}e\big(-\alpha(y_1^k+\cdots+y_n^k)\big). \]

第 3 步:相乘后积分,用正交性这个"开关"。 两个多重和相乘,再对 \(\alpha\) 从 0 到 1 积分。把积分搬到求和里面:

\[ \int_0^1|T(\alpha)|^{2^k}d\alpha=\sum_{x_1,\dots,x_n}\sum_{y_1,\dots,y_n}\int_0^1 e\big(\alpha\,m\big)\,d\alpha,\qquad m=(x_1^k+\cdots+x_n^k)-(y_1^k+\cdots+y_n^k). \]

这里 \(m\) 是整数。由 §11.1 的开关:只有当 \(m=0\) 时里面那个积分 \(=1\),否则 \(=0\)。所以求和里"活下来"的,恰好是让 \(m=0\) 的那些 \((x_1,\dots,x_n,y_1,\dots,y_n)\)。也就是说,

\[ \int_0^1|T(\alpha)|^{2^k}d\alpha=\#\Big\{(x_1,\dots,x_n,y_1,\dots,y_n):\ \underbrace{x_1^k+\cdots+x_n^k}_{n=2^{k-1}\text{ 个}}=\underbrace{y_1^k+\cdots+y_n^k}_{n=2^{k-1}\text{ 个}},\ \text{各变量}\in\{1,\dots,P\}\Big\}. \]

这正是下面这个方程的解的个数:

\[ x_1^k+\cdots+x_{2^{k-1}}^k=y_1^k+\cdots+y_{2^{k-1}}^k,\qquad \text{所有变量}\in\{1,\dots,P\}. \]

这个上界好在哪? 总变量 \(2^k\) 个,每个有 \(P\) 种取值,全部组合是 \(P^{2^k}\) 种。一个方程"砍掉一个自由度",平凡地数大约有 \(P^{2^k-1}\) 个解。华罗庚说实际只有 \(\ll P^{2^k-k}\)(忽略 \(P^\varepsilon\))——指数从 \(2^k-1\) 一举降到 \(2^k-k\),省下了 \(k-1\) 个数量级。证明方法和 Weyl 一样:靠平方降次(用第 6 节的 (3.2))加归纳。

例 11.2(\(k=3\)). 此时 \(2^k=8\),\(2^{k-1}=4\)。积分 \(\int_0^1|T|^{8}d\alpha\) 数的是方程 \[ x_1^3+x_2^3+x_3^3+x_4^3=y_1^3+y_2^3+y_3^3+y_4^3,\qquad x_i,y_i\in\{1,\dots,P\} \] 的解个数。华罗庚不等式说它 \(\ll P^{8-3+\varepsilon}=P^{5+\varepsilon}\)。
对照两个参照点:① 全部组合 \(P^8\);② 最"显然"的一批解是 \((y_1,\dots,y_4)\) 为 \((x_1,\dots,x_4)\) 的某个排列,这种"对角解"大约有 \(P^4\) 个。华罗庚的 \(P^5\) 落在 \(P^4\) 和 \(P^8\) 之间,且非常接近真实的解数——这说明"非平凡的巧合解"并不多。

12. 一页纸小结

配套:第 3 章中文译文(忠实原书版) · 返回全书目录