Davenport · Analytic Methods for Diophantine Equations

Waring 问题：渐近公式Waring's problem: the asymptotic formula

我们回到处理 Waring 问题的工作起点，也就是第 2 章的 (2.7)：

\[ r(N)=\int_0^1 (T(\alpha))^s e(-N\alpha)\,d\alpha, \tag{4.1} \]

其中 \(T(\alpha)\) 是 (2.5) 中那个从 \(1\) 到 \(P\) 求和的指数和，且 \(P\ge[N^{1/k}]\)。没有必要把 \(P\) 取得比所需更大，所以我们取 \(P=[N^{1/k}]\)。渐近公式中的主项将被证明具有 \(N^{s/k-1}\)，亦即 \(P^{s-k}\) 的量级；事实上，只要任何简单的渐近公式成立，它就必须如此，因为这是 \(P\) 的唯一一个与下述事实相容的幂次：\(x_1,\dots,x_s\) 各有 \(P^s\) 种取法，而和 \(x_1^k+\dots+x_s^k\) 表示的是至多 \(P^k\) 量级的数。

于是，凡是对积分 (4.1) 的贡献能被证明严格低于 \(P^{s-k}\) 量级的那些 \(\alpha\) 取值集合，我们都可以略去。我们假设 \(s\ge 2^k+1\)，若把被积表达式的绝对值看作

\[ |T(\alpha)|^{s-2^k}\,|T(\alpha)|^{2^k}, \]

那么由引理 3.2 可知：凡是满足 \(|T(\alpha)|\ll P^{1-\delta}\)（其中 \(\delta>0\) 为某固定数）的任何 \(\alpha\) 集合都可以略去。为得到这样一个 \(\alpha\) 集合，我们将使用引理 3.1。

处理 Waring 问题及类似问题的工作中，一般性方案是把 \(\alpha\) 的取值分为两个集合：主弧（major arcs），它对渐近公式中的主项有贡献；以及次弧（minor arcs），它的贡献按上面所述方式估计，归入误差项。两个集合之间精确的分界线，在很大程度上取决于手头有哪些可用的辅助结果，并且在某种程度上可能因人的偏好而异。一般而言，处理主弧有一些强有力的（虽然略嫌繁复的）方法可用，而问题的关键在于次弧。在任何具体问题中，一旦找到了一种能成功处理次弧的方法，人们通常会发现：在该方法所允许的范围内尽可能扩大次弧是方便的，这样可以减少处理主弧所需的工作量（尽管这部分工作可能相对直接）。在本章的处理中，与本课题其他场合常见的情形相比，我们可以把主弧取得数目较少且长度较短。

围绕每个有理数 \(a/q\)（既约形式），我们放置一个区间

\[ \mathfrak{M}_{a,q}:\quad |\alpha-a/q|\lt P^{-k+\delta}, \tag{4.2} \]

并且对下述 \(q,a\) 都这样做：

\[ 1\le q\le P^{\delta},\quad 1\le a\le q,\quad (a,q)=1. \tag{4.3} \]

这些区间不重叠，因为它们的中心之间的距离至少为 \(P^{-2\delta}\)，而这远大于区间的长度。此外，除右端的 \(1/1\) 处那个区间的右半部分外，这些区间都包含在 \(0\le\alpha\le 1\) 内；为方便起见，我们设想把那个区间向左平移一个量 \(1\)，使它落到 \(\alpha=0\) 的右侧。区间 \(\mathfrak{M}_{a,q}\) 就是主弧，它们关于 \([0,1]\) 的补集构成次弧，其全体记作 \(\mathfrak{m}\)。在这些定义中，\(\delta\) 是某个固定的小正数。可以指出：在 Hardy–Littlewood 方法的许多应用中，(4.2) 中 \(\mathfrak{M}_{a,q}\) 的长度会带有一个因子 \(q^{-1}\) 以及 \(P\) 的某个负幂；但此处不需要这个因子，省略它是一个轻微的简化。

引理 4.1. 若 \(s\ge 2^k+1\)，则有 \[ \int_{\mathfrak{m}}|T(\alpha)|^s\,d\alpha\ll P^{s-k-\delta'}, \] 其中 \(\delta'\) 是依赖于 \(\delta\) 的一个正数。

证. 由 Dirichlet 关于丢番图逼近的经典结果，每个 \(\alpha\) 都有一个有理逼近 \(a/q\) 满足 \[ 1\le q\le P^{k-\delta},\quad |\alpha-a/q|\lt q^{-1}P^{-k+\delta}. \tag{4.4} \] 此外，当 \(0\lt \alpha\lt 1\) 时我们总有 \(1\le a\le q\)。由于 (4.4) 中最后一个不等式比 (4.2) 中的更强，若 \(q\le P^{\delta}\)，则 \(\alpha\) 应当落在某个 \(\mathfrak{M}_{a,q}\) 中。因此，若 \(\alpha\) 落在 \(\mathfrak{m}\) 中，我们必有 \[ q>P^{\delta}. \] 由于 \(|\alpha-a/q|\lt q^{-2}\)，我们可以把引理 3.1 应用于指数和 \(T(\alpha)\)；又因为 \(P^k/q\ge P^{\delta}\)，我们得到 \[ |T(\alpha)|\ll P^{1+\varepsilon-\delta/K}, \] 其中 \(K=2^{k-1}\)。按前面指出的方式把它与引理 3.2 结合起来，我们推出 \[ \int_{\mathfrak{m}}|T(\alpha)|^s\,d\alpha\ll P^{(s-2^k)(1+\varepsilon-\delta/K)}\int_0^1|T(\alpha)|^{2^k}\,d\alpha \ll P^{s-k-\delta'} \] 其中 \(\delta'>0\) 依赖于 \(\delta\)。这就证明了引理 4.1。∎

可以指出：除了诉诸 Dirichlet 定理之外，我们也可以利用连分数的一个简单性质：若取 \(a/q\) 为满足 \(q\le P^{k-\delta}\) 的 \(\alpha\) 的最后一个渐近分数，我们同样会得到 (4.4)。

现在我们把注意力转向主弧 \(\mathfrak{M}_{a,q}\)。这里 \(\alpha\) 非常接近 \(a/q\)，且 \(q\) 相对较小。如果 (4.2) 中 \(P\) 的指数取的是 \(-k-\delta\) 而非 \(-k+\delta\)，则 \(T(\alpha)\) 在 \(\mathfrak{M}_{a,q}\) 上将几乎是常数，因为那时我们应有

\[ \left|\alpha x^k-\frac{a}{q}x^k\right|\lt P^{-k-\delta}P^k=P^{-\delta}. \]

当然，情形并非如此，但尽管如此，弧 \(\mathfrak{M}_{a,q}\) 是如此之短，以至于 \(T(\alpha)\) 在该区间上的变化相对平缓。它究竟如何变化，可由下面的引理看出。

引理 4.2. 对于 \(\mathfrak{M}_{a,q}\) 中的 \(\alpha\)，令 \(\alpha=\beta+a/q\)，我们有 \[ T(\alpha)=q^{-1}S_{a,q}I(\beta)+O(P^{2\delta}), \tag{4.5} \] 其中 \[ S_{a,q}=\sum_{z=1}^{q}e(az^k/q), \tag{4.6} \] \[ I(\beta)=\int_0^P e(\beta\boldsymbol{\xi}^k)\,d\boldsymbol{\xi}. \tag{4.7} \]

证. 我们把定义 \(T(\alpha)\) 的和中那些位于同一剩余类（模 \(q\)）的 \(x\) 值收集到一起，这是自然的做法，因为 \(\alpha x^k\) 关于 \(x\) 几乎是以 \(q\) 为周期的。最方便的实现方式是令 \(x=qy+z\)，其中 \(1\le z\le q\)；此处 \(y\) 取遍一个区间——该区间依赖于 \(z\)，对应于 \(0\lt x\le P\)。我们得到 \[ T(\alpha)=\sum_{z=1}^{q}e(az^k/q)\sum_{y}e(\beta(qy+z)^k). \] 现在我们设法把离散变量 \(y\) 换成连续变量 \(\eta\)，并把对 \(y\) 的求和换成对 \(\eta\) 的积分。如果这能做到，那么我们可以再从 \(\eta\) 作变量替换到 \(\xi\)，其中 \(\xi=q\eta+z\)；\(\xi\) 的区间将是原来的区间 \(0\le\xi\le P\)，于是我们就把对 \(y\) 的求和换成了 \[ q^{-1}\int_0^P e(\beta\boldsymbol{\xi}^k)\,d\boldsymbol{\xi}=q^{-1}I(\beta), \] 其中因子 \(q^{-1}\) 来自 \(d\eta/d\xi\)。这样我们就恰好得到 (4.5) 中的主项。

我们需要估计对 \(y\) 求和与对应的积分之差。就目前的目的而言，一个很粗糙的论证就足够好了。若 \(f(y)\) 是任何可微函数，则有 \[ |f(\eta)-f(y)|\le\tfrac{1}{2}\max|f'(\eta)|\quad\text{当 }|\eta-y|\le\tfrac{1}{2}. \] 因此，把任何区间 \(A\lt \eta\lt B\) 划分为长度为 \(1\) 的若干小区间外加两段可能的残余区间，我们得到 \[ \left|\int_A^B f(\eta)\,d\eta-\sum_{A\lt y\lt B}f(y)\right|\ll(B-A)\max|f'(\eta)|+\max|f(\eta)|. \] 在我们的情形，\(f(\eta)=e(\beta(q\eta+z)^k)\)，因而 \[ \max|f'(\eta)|\ll q|\beta|P^{k-1},\quad \max|f(\eta)|=1. \] 又 \(B-A\ll P/q\)。因此，把对 \(y\) 的求和换成对 \(\eta\) 的积分所产生的误差是 \[ \ll Pq^{-1}q|\beta|P^{k-1}+1\ll P^{\delta}, \] 因为由 (4.2) 有 \(|\beta|\lt P^{-k+\delta}\)。乘以 \(q\)（它 \(\le P^{\delta}\)）以便处理外层对 \(z\) 的求和，我们便得到 (4.5) 中的误差项。∎

稍后在引理 9.1 中，我们将遇到一种更有效的、用对应积分替换求和的方法。

引理 4.3. 若 \(\mathfrak{M}\) 表示主弧 \(\mathfrak{M}_{a,q}\) 的全体，则 \[ \int_{\mathfrak{M}}(T(\alpha))^s e(-N\alpha)\,d\alpha=P^{s-k}\,\mathfrak{S}(P^{\delta},N)\,J(P^{\delta})+O(P^{s-k-\delta'}) \tag{4.8} \] 对某个 \(\delta'>0\) 成立，其中 \[ \mathfrak{S}(P^{\delta},N)=\sum_{q\le P^{\delta}}\;\sum_{\substack{a=1\\(a,q)=1}}^{q}(q^{-1}S_{a,q})^s e(-Na/q), \tag{4.9} \] \[ J(P^{\delta})=\int_{|\gamma|\lt P^{\delta}}\left(\int_0^1 e(\gamma\boldsymbol{\xi}^k)\,d\boldsymbol{\xi}\right)^s e(-\gamma)\,d\gamma. \tag{4.10} \]

证. 我们首先把在单个主弧 \(\mathfrak{M}_{a,q}\) 上成立的 \(T(\alpha)\) 的表达式 (4.5) 提升到 \(s\) 次幂。由于 \[ |q^{-1}S_{a,q}I(\beta)|\le P \] 平凡地成立，我们得到 \[ (T(\alpha))^s=(q^{-1}S_{a,q})^s(I(\beta))^s+O(P^{s-1+2\delta}). \tag{4.11} \] 把它乘以 \(e(-N\alpha)\) 并在 \(\mathfrak{M}_{a,q}\) 上积分，也就是对 \(|\beta|\lt P^{-k+\delta}\) 积分，最后这个表达式的主项给出 \[ (q^{-1}S_{a,q})^s e(-Na/q)\int_{|\beta|\lt P^{-k+\delta}}(I(\beta))^s e(-N\beta)\,d\beta. \] 这里的积分与 \(q,a\) 无关，因此对满足 (4.3) 的 \(q\) 与 \(a\) 求和，给出 \[ \mathfrak{S}(P^{\delta},N)\int_{|\beta|\lt P^{-k+\delta}}(I(\beta))^s e(-N\beta)\,d\beta. \] 在被积函数中我们可以把 \(N\) 换成 \(P^k\)，误差可忽略。事实上 \(N-P^k\ll P^{k-1}\)，于是 \[ |e(-\beta N)-e(-\beta P^k)|\ll|\beta|P^{k-1}\ll P^{-1+\delta}, \] 从而积分中的误差为 \(\ll P^{-k+\delta}P^s P^{-1+\delta}\)。由于 \(|\mathfrak{S}(P^{\delta},N)|\) 的一个粗略估计是 \(P^{2\delta}\)，这导致一个最终误差 \(P^{s-k-1+4\delta}\)，它是可忽略的。现在积分为 \[ \int_{|\beta|\lt P^{-k+\delta}}\left(\int_0^P e(\beta\boldsymbol{\xi}^k)\,d\boldsymbol{\xi}\right)^s e(-P^k\beta)\,d\beta, \] 令 \(\xi=P\xi'\) 且 \(\beta=P^{-k}\gamma\)，它变为 \[ P^{s-k}J(P^{\delta}). \] 这样我们就得到了结果 (4.8) 中的主项。

还需估计 (4.11) 中误差项的影响。在 \(|\beta|\lt P^{-k+\delta}\) 上积分后，它变为 \(\ll P^{s-k-1+3\delta}\)。对 \(a\le q\) 与 \(q\le P^{\delta}\) 求和后，它变为 \(P^{s-k-1+5\delta}\)，由于 \(\delta\) 很小，这就是 (4.8) 中所给的形式。∎

定义. 令 \[ \mathfrak{S}(N)=\sum_{q=1}^{\infty}\;\sum_{\substack{a=1\\(a,q)=1}}^{q}(q^{-1}S_{a,q})^s e(-Na/q). \tag{4.12} \]

这称为将 \(N\) 表示为 \(s\) 个正整数 \(k\) 次幂之和这一问题的奇异级数（singular series）。若 \(s\ge 2^k+1\)，则该级数绝对收敛，且关于 \(N\) 一致收敛；因为由引理 3.1 的推论我们有（其中 \(K=2^{k-1}\)）：

\[ |(q^{-1}S_{a,q})^s e(-Na/q)|\ll q^{-s/K+\varepsilon}\ll q^{-2-1/K+\varepsilon}. \]

稍后我们将证明：在更宽松的条件 \(s\ge 2k+1\) 下，同样的结论也成立。

定理 4.1. 若 \(s\ge 2^k+1\)，则将 \(N\) 表示为 \(s\) 个正整数 \(k\) 次幂之和的表示数 \(r(N)\) 满足 \[ r(N)=C_{k,s}N^{s/k-1}\mathfrak{S}(N)+O(N^{s/k-1-\delta'}) \tag{4.13} \] 对某个固定的 \(\delta'>0\) 成立，其中 \[ C_{k,s}=\frac{\Gamma(1+1/k)^s}{\Gamma(s/k)}>0. \tag{4.14} \]

证. 由 (4.1) 以及引理 4.1 和 4.3， \[ \begin{aligned} r(N)&=\left\{\int_{\mathfrak{M}}+\int_{\mathfrak{m}}\right\}(T(\alpha))^s e(-N\alpha)\,d\alpha\\ &=P^{s-k}\mathfrak{S}(P^{\delta},N)J(P^{\delta})+O(P^{s-k-\delta'}). \end{aligned} \tag{4.15} \] 我们首先研究在 (4.10) 中定义的积分 \(J(P^{\delta})\)。其中的内层积分，通过显然的变量替换，可以用三种方式表示： \[ \int_0^1 e(\gamma\boldsymbol{\xi}^k)\,d\boldsymbol{\xi} =k^{-1}\int_0^1\zeta^{-1+1/k}e(\gamma\zeta)\,d\zeta =k^{-1}\gamma^{-1/k}\int_0^{\gamma}\zeta^{-1+1/k}e(\zeta)\,d\zeta, \] 其中在最后一个表达式中，为简单起见我们假定 \(\gamma\) 为正。由 Dirichlet 关于无穷积分收敛的判别法，再结合该积分在 \(0\) 处绝对收敛这一事实，最后一个表达式中的积分是 \(\gamma\) 的有界函数。因此 \[ \left|\int_0^1 e(\gamma\boldsymbol{\xi}^k)\,d\boldsymbol{\xi}\right|\ll|\gamma|^{-1/k}. \] 这使我们能够把 (4.10) 中对 \(\gamma\) 的积分扩展到无穷；我们得到 \[ J(P^{\delta})=J+O(P^{-(s/k-1)\delta}), \] 其中 \[ J=\int_{-\infty}^{\infty}\left(k^{-1}\int_0^1\zeta^{-1+1/k}e(\gamma\zeta)\,d\zeta\right)^s e(-\gamma)\,d\gamma. \tag{4.16} \] 显然 \(J\) 只依赖于 \(k\) 和 \(s\)，我们稍后将证明 \(J=C_{k,s}\)。我们将把 \(J\) 称为将 \(N\) 表示为 \(s\) 个正整数 \(k\) 次幂之和这一问题的奇异积分（singular integral）。

由级数 \(\mathfrak{S}(N)\) 的绝对收敛性，以及刚刚为 \(J(P^{\delta})\) 所证的结果，我们可以在 (4.15) 中把 \(\mathfrak{S}(P^{\delta},N)\) 换成 \(\mathfrak{S}(N)\)，并把 \(J(P^{\delta})\) 换成 \(J\)，所产生的误差都是允许的。我们还可以把 \(P\) 换成 \(N^{1/k}\)，误差也允许，这便给出 (4.13)，只是其中 \(C_{k,s}=J\) 的证明尚未完成。\(J\) 的确切值或许并不重要，但我们需要知道 \(J>0\)。

为求出 \(J\)，我们从下述事实出发： \[ \int_{-\lambda}^{\lambda}e(\mu\gamma)\,d\gamma=\frac{\sin 2\pi\lambda\mu}{\pi\mu}. \] 因此 \[ \begin{aligned} k^s J&=\lim_{\lambda\to\infty}\int_0^1\cdots\int_0^1(\zeta_1\cdots\zeta_s)^{-1+1/k}\frac{\sin 2\pi\lambda(\zeta_1+\cdots+\zeta_s-1)}{\pi(\zeta_1+\cdots+\zeta_s-1)}\,d\zeta_1\cdots d\zeta_s\\ &=\lim_{\lambda\to\infty}\int_0^s\phi(u)\frac{\sin 2\pi\lambda(u-1)}{\pi(u-1)}\,du, \end{aligned} \] 其中 \[ \phi(u)=\int_0^1\cdots\int_0^1\{\zeta_1\cdots\zeta_{s-1}(u-\zeta_1-\cdots-\zeta_{s-1})\}^{-1+1/k}\,d\zeta_1\cdots d\zeta_{s-1}, \] 积分取遍满足 \(u-1\lt \zeta_1+\cdots+\zeta_{s-1}\lt u\) 的那些 \(\zeta_1,\dots,\zeta_{s-1}\)。这里我们已经把变量从 \(\zeta_s\) 换成了 \(u\)，其中 \(\zeta_1+\cdots+\zeta_s=u\)。

现在我们回忆有限区间上的 Fourier 积分定理，它指出¹：在某些条件下， \[ \lim_{\lambda\to\infty}\int_A^B\phi(u)\frac{\sin 2\pi\lambda(u-C)}{\pi(u-C)}\,du=\phi(C), \] 只要 \(A\lt C\lt B\)。假定这是可应用的，我们推出 \[ \begin{aligned} k^s J&=\phi(1)\\ &=\int_0^1\cdots\int_0^1\{\zeta_1\cdots\zeta_{s-1}(1-\zeta_1-\cdots-\zeta_{s-1})\}^{-1+1/k}\,d\zeta_1\cdots d\zeta_{s-1}, \end{aligned} \] 其中积分取遍满足 \(0\lt \zeta_1+\cdots+\zeta_{s-1}\lt 1\) 的那些 \(\zeta_1,\dots,\zeta_{s-1}\)。最后这个定积分是一个 \(s-1\) 个变量的积分，它是 Dirichlet 所求出的一类积分的一个实例；它确实是 Euler 积分 \[ B(p,q)=\int_0^1 x^{p-1}(1-x)^{q-1}\,dx=\frac{\Gamma(p)\Gamma(q)}{\Gamma(p+q)} \] 的一个直接推广。我们有² \[ \phi(1)=\frac{\Gamma(1/k)^s}{\Gamma(s/k)}, \] 因而 \[ J=\left(\frac{1}{k}\right)^s\frac{\Gamma(1/k)^s}{\Gamma(s/k)}=\frac{\Gamma(1+1/k)^s}{\Gamma(s/k)}. \] Fourier 积分定理成立的一个充分条件是 \(\phi(u)\) 应当是有界变差的。为验证这一点，令 \(\zeta_j=ut_j\)。那么 \(\phi(u)\) 等于 \[ u^{s/k-1}\int_0^{1/u}\cdots\int_0^{1/u}\{t_1\cdots t_{s-1}(1-t_1-\cdots-t_{s-1})\}^{-1+1/k}\,dt_1\cdots dt_{s-1}, \] 其中积分取遍满足 \(1-1/u\lt t_1+\cdots+t_{s-1}\lt 1\) 的那些 \(t_1,\dots,t_{s-1}\)。当 \(u\) 增大时积分区域收缩，而被积函数不含 \(u\)。因此 \(\phi(u)\) 是 \(u^{-1+s/k}\) 与 \(u\) 的一个正的单调递减函数之积，从而是一个有界变差函数。这就完成了证明。∎

注记. 在我们对奇异积分的处理中，我们遵循了 Landau 的一篇论文 [54]。关于略为更一般的处理，参见 Kestelman 的一篇论文 [52]。有若干手段可以避免使用 Fourier 积分定理；例如，可以把 \(I(\beta)\) 换成有限和 \[ k^{-1}\sum_{0\lt m\lt P^k}m^{-1+1/k}e(\beta m), \] 或者也可以像 Vinogradov [93, 第 3 章] 那样间接地求出 \(J\)。但总的来说，引用 Fourier 积分定理似乎是自然而恰当的。

在渐近公式 (4.13) 中，可以把第一个因子 \(C_{k,s}N^{s/k-1}\) 看作度量了方程

\[ x_1^k+\cdots+x_s^k=N,\quad x_1>0,\dots,x_s>0 \]

在实数中解的"密度"；它是某超曲面这一部分的 \((s-1)\) 维测度。换一种说法，它（在可忽略的误差范围内）是区域

\[ N-\tfrac{1}{2}\lt x_1^k+\cdots+x_s^k\lt N+\tfrac{1}{2},\quad x_1>0,\dots,x_s>0 \]

的 \(s\) 维体积。第二个因子 \(\mathfrak{S}(N)\) 可以看作一个补偿因子，用以反映这样一个事实：整数的 \(k\) 次幂并不像实数的 \(k\) 次幂那样均匀分布，因为前者受到同余限制的约束。（\(\mathfrak{S}(N)\) 与同余之间的关系将在下一节中浮现。）于是，我们从渐近公式中得出的结论，用略嫌含糊的话来说就是：把一个大数表示为 \(s\) 个正整数 \(k\) 次幂之和的表示数，渐近地由这两种影响所主导，前提是 \(s\) 大于 \(k\) 的某个函数。

例如可参见 [97, §9.43]。↩
例如可参见 [97, §12.5]。↩