Davenport · Analytic Methods for Diophantine Equations

Waring 问题:渐近公式Waring's problem: the asymptotic formula

我们回到处理 Waring 问题的工作起点,也就是第 2 章的 (2.7):

\[ r(N)=\int_0^1 (T(\alpha))^s e(-N\alpha)\,d\alpha, \tag{4.1} \]

其中 \(T(\alpha)\) 是 (2.5) 中那个从 \(1\) 到 \(P\) 求和的指数和,且 \(P\ge[N^{1/k}]\)。没有必要把 \(P\) 取得比所需更大,所以我们取 \(P=[N^{1/k}]\)。渐近公式中的主项将被证明具有 \(N^{s/k-1}\),亦即 \(P^{s-k}\) 的量级;事实上,只要任何简单的渐近公式成立,它就必须如此,因为这是 \(P\) 的唯一一个与下述事实相容的幂次:\(x_1,\dots,x_s\) 各有 \(P^s\) 种取法,而和 \(x_1^k+\dots+x_s^k\) 表示的是至多 \(P^k\) 量级的数。

于是,凡是对积分 (4.1) 的贡献能被证明严格低于 \(P^{s-k}\) 量级的那些 \(\alpha\) 取值集合,我们都可以略去。我们假设 \(s\ge 2^k+1\),若把被积表达式的绝对值看作

\[ |T(\alpha)|^{s-2^k}\,|T(\alpha)|^{2^k}, \]

那么由引理 3.2 可知:凡是满足 \(|T(\alpha)|\ll P^{1-\delta}\)(其中 \(\delta>0\) 为某固定数)的任何 \(\alpha\) 集合都可以略去。为得到这样一个 \(\alpha\) 集合,我们将使用引理 3.1。

处理 Waring 问题及类似问题的工作中,一般性方案是把 \(\alpha\) 的取值分为两个集合:主弧(major arcs),它对渐近公式中的主项有贡献;以及次弧(minor arcs),它的贡献按上面所述方式估计,归入误差项。两个集合之间精确的分界线,在很大程度上取决于手头有哪些可用的辅助结果,并且在某种程度上可能因人的偏好而异。一般而言,处理主弧有一些强有力的(虽然略嫌繁复的)方法可用,而问题的关键在于次弧。在任何具体问题中,一旦找到了一种能成功处理次弧的方法,人们通常会发现:在该方法所允许的范围内尽可能扩大次弧是方便的,这样可以减少处理主弧所需的工作量(尽管这部分工作可能相对直接)。在本章的处理中,与本课题其他场合常见的情形相比,我们可以把主弧取得数目较少且长度较短。

围绕每个有理数 \(a/q\)(既约形式),我们放置一个区间

\[ \mathfrak{M}_{a,q}:\quad |\alpha-a/q|\lt P^{-k+\delta}, \tag{4.2} \]

并且对下述 \(q,a\) 都这样做:

\[ 1\le q\le P^{\delta},\quad 1\le a\le q,\quad (a,q)=1. \tag{4.3} \]

这些区间不重叠,因为它们的中心之间的距离至少为 \(P^{-2\delta}\),而这远大于区间的长度。此外,除右端的 \(1/1\) 处那个区间的右半部分外,这些区间都包含在 \(0\le\alpha\le 1\) 内;为方便起见,我们设想把那个区间向左平移一个量 \(1\),使它落到 \(\alpha=0\) 的右侧。区间 \(\mathfrak{M}_{a,q}\) 就是主弧,它们关于 \([0,1]\) 的补集构成次弧,其全体记作 \(\mathfrak{m}\)。在这些定义中,\(\delta\) 是某个固定的小正数。可以指出:在 Hardy–Littlewood 方法的许多应用中,(4.2) 中 \(\mathfrak{M}_{a,q}\) 的长度会带有一个因子 \(q^{-1}\) 以及 \(P\) 的某个负幂;但此处不需要这个因子,省略它是一个轻微的简化。

引理 4.1. 若 \(s\ge 2^k+1\),则有 \[ \int_{\mathfrak{m}}|T(\alpha)|^s\,d\alpha\ll P^{s-k-\delta'}, \] 其中 \(\delta'\) 是依赖于 \(\delta\) 的一个正数。
证. 由 Dirichlet 关于丢番图逼近的经典结果,每个 \(\alpha\) 都有一个有理逼近 \(a/q\) 满足 \[ 1\le q\le P^{k-\delta},\quad |\alpha-a/q|\lt q^{-1}P^{-k+\delta}. \tag{4.4} \] 此外,当 \(0\lt \alpha\lt 1\) 时我们总有 \(1\le a\le q\)。由于 (4.4) 中最后一个不等式比 (4.2) 中的更强,若 \(q\le P^{\delta}\),则 \(\alpha\) 应当落在某个 \(\mathfrak{M}_{a,q}\) 中。因此,若 \(\alpha\) 落在 \(\mathfrak{m}\) 中,我们必有 \[ q>P^{\delta}. \] 由于 \(|\alpha-a/q|\lt q^{-2}\),我们可以把引理 3.1 应用于指数和 \(T(\alpha)\);又因为 \(P^k/q\ge P^{\delta}\),我们得到 \[ |T(\alpha)|\ll P^{1+\varepsilon-\delta/K}, \] 其中 \(K=2^{k-1}\)。按前面指出的方式把它与引理 3.2 结合起来,我们推出 \[ \int_{\mathfrak{m}}|T(\alpha)|^s\,d\alpha\ll P^{(s-2^k)(1+\varepsilon-\delta/K)}\int_0^1|T(\alpha)|^{2^k}\,d\alpha \ll P^{s-k-\delta'} \] 其中 \(\delta'>0\) 依赖于 \(\delta\)。这就证明了引理 4.1。

可以指出:除了诉诸 Dirichlet 定理之外,我们也可以利用连分数的一个简单性质:若取 \(a/q\) 为满足 \(q\le P^{k-\delta}\) 的 \(\alpha\) 的最后一个渐近分数,我们同样会得到 (4.4)。

现在我们把注意力转向主弧 \(\mathfrak{M}_{a,q}\)。这里 \(\alpha\) 非常接近 \(a/q\),且 \(q\) 相对较小。如果 (4.2) 中 \(P\) 的指数取的是 \(-k-\delta\) 而非 \(-k+\delta\),则 \(T(\alpha)\) 在 \(\mathfrak{M}_{a,q}\) 上将几乎是常数,因为那时我们应有

\[ \left|\alpha x^k-\frac{a}{q}x^k\right|\lt P^{-k-\delta}P^k=P^{-\delta}. \]

当然,情形并非如此,但尽管如此,弧 \(\mathfrak{M}_{a,q}\) 是如此之短,以至于 \(T(\alpha)\) 在该区间上的变化相对平缓。它究竟如何变化,可由下面的引理看出。

引理 4.2. 对于 \(\mathfrak{M}_{a,q}\) 中的 \(\alpha\),令 \(\alpha=\beta+a/q\),我们有 \[ T(\alpha)=q^{-1}S_{a,q}I(\beta)+O(P^{2\delta}), \tag{4.5} \] 其中 \[ S_{a,q}=\sum_{z=1}^{q}e(az^k/q), \tag{4.6} \] \[ I(\beta)=\int_0^P e(\beta\boldsymbol{\xi}^k)\,d\boldsymbol{\xi}. \tag{4.7} \]
证. 我们把定义 \(T(\alpha)\) 的和中那些位于同一剩余类(模 \(q\))的 \(x\) 值收集到一起,这是自然的做法,因为 \(\alpha x^k\) 关于 \(x\) 几乎是以 \(q\) 为周期的。最方便的实现方式是令 \(x=qy+z\),其中 \(1\le z\le q\);此处 \(y\) 取遍一个区间——该区间依赖于 \(z\),对应于 \(0\lt x\le P\)。我们得到 \[ T(\alpha)=\sum_{z=1}^{q}e(az^k/q)\sum_{y}e(\beta(qy+z)^k). \] 现在我们设法把离散变量 \(y\) 换成连续变量 \(\eta\),并把对 \(y\) 的求和换成对 \(\eta\) 的积分。如果这能做到,那么我们可以再从 \(\eta\) 作变量替换到 \(\xi\),其中 \(\xi=q\eta+z\);\(\xi\) 的区间将是原来的区间 \(0\le\xi\le P\),于是我们就把对 \(y\) 的求和换成了 \[ q^{-1}\int_0^P e(\beta\boldsymbol{\xi}^k)\,d\boldsymbol{\xi}=q^{-1}I(\beta), \] 其中因子 \(q^{-1}\) 来自 \(d\eta/d\xi\)。这样我们就恰好得到 (4.5) 中的主项。

我们需要估计对 \(y\) 求和与对应的积分之差。就目前的目的而言,一个很粗糙的论证就足够好了。若 \(f(y)\) 是任何可微函数,则有 \[ |f(\eta)-f(y)|\le\tfrac{1}{2}\max|f'(\eta)|\quad\text{当 }|\eta-y|\le\tfrac{1}{2}. \] 因此,把任何区间 \(A\lt \eta\lt B\) 划分为长度为 \(1\) 的若干小区间外加两段可能的残余区间,我们得到 \[ \left|\int_A^B f(\eta)\,d\eta-\sum_{A\lt y\lt B}f(y)\right|\ll(B-A)\max|f'(\eta)|+\max|f(\eta)|. \] 在我们的情形,\(f(\eta)=e(\beta(q\eta+z)^k)\),因而 \[ \max|f'(\eta)|\ll q|\beta|P^{k-1},\quad \max|f(\eta)|=1. \] 又 \(B-A\ll P/q\)。因此,把对 \(y\) 的求和换成对 \(\eta\) 的积分所产生的误差是 \[ \ll Pq^{-1}q|\beta|P^{k-1}+1\ll P^{\delta}, \] 因为由 (4.2) 有 \(|\beta|\lt P^{-k+\delta}\)。乘以 \(q\)(它 \(\le P^{\delta}\))以便处理外层对 \(z\) 的求和,我们便得到 (4.5) 中的误差项。

稍后在引理 9.1 中,我们将遇到一种更有效的、用对应积分替换求和的方法。

引理 4.3. 若 \(\mathfrak{M}\) 表示主弧 \(\mathfrak{M}_{a,q}\) 的全体,则 \[ \int_{\mathfrak{M}}(T(\alpha))^s e(-N\alpha)\,d\alpha=P^{s-k}\,\mathfrak{S}(P^{\delta},N)\,J(P^{\delta})+O(P^{s-k-\delta'}) \tag{4.8} \] 对某个 \(\delta'>0\) 成立,其中 \[ \mathfrak{S}(P^{\delta},N)=\sum_{q\le P^{\delta}}\;\sum_{\substack{a=1\\(a,q)=1}}^{q}(q^{-1}S_{a,q})^s e(-Na/q), \tag{4.9} \] \[ J(P^{\delta})=\int_{|\gamma|\lt P^{\delta}}\left(\int_0^1 e(\gamma\boldsymbol{\xi}^k)\,d\boldsymbol{\xi}\right)^s e(-\gamma)\,d\gamma. \tag{4.10} \]
证. 我们首先把在单个主弧 \(\mathfrak{M}_{a,q}\) 上成立的 \(T(\alpha)\) 的表达式 (4.5) 提升到 \(s\) 次幂。由于 \[ |q^{-1}S_{a,q}I(\beta)|\le P \] 平凡地成立,我们得到 \[ (T(\alpha))^s=(q^{-1}S_{a,q})^s(I(\beta))^s+O(P^{s-1+2\delta}). \tag{4.11} \] 把它乘以 \(e(-N\alpha)\) 并在 \(\mathfrak{M}_{a,q}\) 上积分,也就是对 \(|\beta|\lt P^{-k+\delta}\) 积分,最后这个表达式的主项给出 \[ (q^{-1}S_{a,q})^s e(-Na/q)\int_{|\beta|\lt P^{-k+\delta}}(I(\beta))^s e(-N\beta)\,d\beta. \] 这里的积分与 \(q,a\) 无关,因此对满足 (4.3) 的 \(q\) 与 \(a\) 求和,给出 \[ \mathfrak{S}(P^{\delta},N)\int_{|\beta|\lt P^{-k+\delta}}(I(\beta))^s e(-N\beta)\,d\beta. \] 在被积函数中我们可以把 \(N\) 换成 \(P^k\),误差可忽略。事实上 \(N-P^k\ll P^{k-1}\),于是 \[ |e(-\beta N)-e(-\beta P^k)|\ll|\beta|P^{k-1}\ll P^{-1+\delta}, \] 从而积分中的误差为 \(\ll P^{-k+\delta}P^s P^{-1+\delta}\)。由于 \(|\mathfrak{S}(P^{\delta},N)|\) 的一个粗略估计是 \(P^{2\delta}\),这导致一个最终误差 \(P^{s-k-1+4\delta}\),它是可忽略的。现在积分为 \[ \int_{|\beta|\lt P^{-k+\delta}}\left(\int_0^P e(\beta\boldsymbol{\xi}^k)\,d\boldsymbol{\xi}\right)^s e(-P^k\beta)\,d\beta, \] 令 \(\xi=P\xi'\) 且 \(\beta=P^{-k}\gamma\),它变为 \[ P^{s-k}J(P^{\delta}). \] 这样我们就得到了结果 (4.8) 中的主项。

还需估计 (4.11) 中误差项的影响。在 \(|\beta|\lt P^{-k+\delta}\) 上积分后,它变为 \(\ll P^{s-k-1+3\delta}\)。对 \(a\le q\) 与 \(q\le P^{\delta}\) 求和后,它变为 \(P^{s-k-1+5\delta}\),由于 \(\delta\) 很小,这就是 (4.8) 中所给的形式。

定义. 令 \[ \mathfrak{S}(N)=\sum_{q=1}^{\infty}\;\sum_{\substack{a=1\\(a,q)=1}}^{q}(q^{-1}S_{a,q})^s e(-Na/q). \tag{4.12} \]

这称为将 \(N\) 表示为 \(s\) 个正整数 \(k\) 次幂之和这一问题的奇异级数(singular series)。若 \(s\ge 2^k+1\),则该级数绝对收敛,且关于 \(N\) 一致收敛;因为由引理 3.1 的推论我们有(其中 \(K=2^{k-1}\)):

\[ |(q^{-1}S_{a,q})^s e(-Na/q)|\ll q^{-s/K+\varepsilon}\ll q^{-2-1/K+\varepsilon}. \]

稍后我们将证明:在更宽松的条件 \(s\ge 2k+1\) 下,同样的结论也成立。

定理 4.1. 若 \(s\ge 2^k+1\),则将 \(N\) 表示为 \(s\) 个正整数 \(k\) 次幂之和的表示数 \(r(N)\) 满足 \[ r(N)=C_{k,s}N^{s/k-1}\mathfrak{S}(N)+O(N^{s/k-1-\delta'}) \tag{4.13} \] 对某个固定的 \(\delta'>0\) 成立,其中 \[ C_{k,s}=\frac{\Gamma(1+1/k)^s}{\Gamma(s/k)}>0. \tag{4.14} \]
证. 由 (4.1) 以及引理 4.1 和 4.3, \[ \begin{aligned} r(N)&=\left\{\int_{\mathfrak{M}}+\int_{\mathfrak{m}}\right\}(T(\alpha))^s e(-N\alpha)\,d\alpha\\ &=P^{s-k}\mathfrak{S}(P^{\delta},N)J(P^{\delta})+O(P^{s-k-\delta'}). \end{aligned} \tag{4.15} \] 我们首先研究在 (4.10) 中定义的积分 \(J(P^{\delta})\)。其中的内层积分,通过显然的变量替换,可以用三种方式表示: \[ \int_0^1 e(\gamma\boldsymbol{\xi}^k)\,d\boldsymbol{\xi} =k^{-1}\int_0^1\zeta^{-1+1/k}e(\gamma\zeta)\,d\zeta =k^{-1}\gamma^{-1/k}\int_0^{\gamma}\zeta^{-1+1/k}e(\zeta)\,d\zeta, \] 其中在最后一个表达式中,为简单起见我们假定 \(\gamma\) 为正。由 Dirichlet 关于无穷积分收敛的判别法,再结合该积分在 \(0\) 处绝对收敛这一事实,最后一个表达式中的积分是 \(\gamma\) 的有界函数。因此 \[ \left|\int_0^1 e(\gamma\boldsymbol{\xi}^k)\,d\boldsymbol{\xi}\right|\ll|\gamma|^{-1/k}. \] 这使我们能够把 (4.10) 中对 \(\gamma\) 的积分扩展到无穷;我们得到 \[ J(P^{\delta})=J+O(P^{-(s/k-1)\delta}), \] 其中 \[ J=\int_{-\infty}^{\infty}\left(k^{-1}\int_0^1\zeta^{-1+1/k}e(\gamma\zeta)\,d\zeta\right)^s e(-\gamma)\,d\gamma. \tag{4.16} \] 显然 \(J\) 只依赖于 \(k\) 和 \(s\),我们稍后将证明 \(J=C_{k,s}\)。我们将把 \(J\) 称为将 \(N\) 表示为 \(s\) 个正整数 \(k\) 次幂之和这一问题的奇异积分(singular integral)。

由级数 \(\mathfrak{S}(N)\) 的绝对收敛性,以及刚刚为 \(J(P^{\delta})\) 所证的结果,我们可以在 (4.15) 中把 \(\mathfrak{S}(P^{\delta},N)\) 换成 \(\mathfrak{S}(N)\),并把 \(J(P^{\delta})\) 换成 \(J\),所产生的误差都是允许的。我们还可以把 \(P\) 换成 \(N^{1/k}\),误差也允许,这便给出 (4.13),只是其中 \(C_{k,s}=J\) 的证明尚未完成。\(J\) 的确切值或许并不重要,但我们需要知道 \(J>0\)。

为求出 \(J\),我们从下述事实出发: \[ \int_{-\lambda}^{\lambda}e(\mu\gamma)\,d\gamma=\frac{\sin 2\pi\lambda\mu}{\pi\mu}. \] 因此 \[ \begin{aligned} k^s J&=\lim_{\lambda\to\infty}\int_0^1\cdots\int_0^1(\zeta_1\cdots\zeta_s)^{-1+1/k}\frac{\sin 2\pi\lambda(\zeta_1+\cdots+\zeta_s-1)}{\pi(\zeta_1+\cdots+\zeta_s-1)}\,d\zeta_1\cdots d\zeta_s\\ &=\lim_{\lambda\to\infty}\int_0^s\phi(u)\frac{\sin 2\pi\lambda(u-1)}{\pi(u-1)}\,du, \end{aligned} \] 其中 \[ \phi(u)=\int_0^1\cdots\int_0^1\{\zeta_1\cdots\zeta_{s-1}(u-\zeta_1-\cdots-\zeta_{s-1})\}^{-1+1/k}\,d\zeta_1\cdots d\zeta_{s-1}, \] 积分取遍满足 \(u-1\lt \zeta_1+\cdots+\zeta_{s-1}\lt u\) 的那些 \(\zeta_1,\dots,\zeta_{s-1}\)。这里我们已经把变量从 \(\zeta_s\) 换成了 \(u\),其中 \(\zeta_1+\cdots+\zeta_s=u\)。

现在我们回忆有限区间上的 Fourier 积分定理,它指出1:在某些条件下, \[ \lim_{\lambda\to\infty}\int_A^B\phi(u)\frac{\sin 2\pi\lambda(u-C)}{\pi(u-C)}\,du=\phi(C), \] 只要 \(A\lt C\lt B\)。假定这是可应用的,我们推出 \[ \begin{aligned} k^s J&=\phi(1)\\ &=\int_0^1\cdots\int_0^1\{\zeta_1\cdots\zeta_{s-1}(1-\zeta_1-\cdots-\zeta_{s-1})\}^{-1+1/k}\,d\zeta_1\cdots d\zeta_{s-1}, \end{aligned} \] 其中积分取遍满足 \(0\lt \zeta_1+\cdots+\zeta_{s-1}\lt 1\) 的那些 \(\zeta_1,\dots,\zeta_{s-1}\)。最后这个定积分是一个 \(s-1\) 个变量的积分,它是 Dirichlet 所求出的一类积分的一个实例;它确实是 Euler 积分 \[ B(p,q)=\int_0^1 x^{p-1}(1-x)^{q-1}\,dx=\frac{\Gamma(p)\Gamma(q)}{\Gamma(p+q)} \] 的一个直接推广。我们有2 \[ \phi(1)=\frac{\Gamma(1/k)^s}{\Gamma(s/k)}, \] 因而 \[ J=\left(\frac{1}{k}\right)^s\frac{\Gamma(1/k)^s}{\Gamma(s/k)}=\frac{\Gamma(1+1/k)^s}{\Gamma(s/k)}. \] Fourier 积分定理成立的一个充分条件是 \(\phi(u)\) 应当是有界变差的。为验证这一点,令 \(\zeta_j=ut_j\)。那么 \(\phi(u)\) 等于 \[ u^{s/k-1}\int_0^{1/u}\cdots\int_0^{1/u}\{t_1\cdots t_{s-1}(1-t_1-\cdots-t_{s-1})\}^{-1+1/k}\,dt_1\cdots dt_{s-1}, \] 其中积分取遍满足 \(1-1/u\lt t_1+\cdots+t_{s-1}\lt 1\) 的那些 \(t_1,\dots,t_{s-1}\)。当 \(u\) 增大时积分区域收缩,而被积函数不含 \(u\)。因此 \(\phi(u)\) 是 \(u^{-1+s/k}\) 与 \(u\) 的一个正的单调递减函数之积,从而是一个有界变差函数。这就完成了证明。

注记. 在我们对奇异积分的处理中,我们遵循了 Landau 的一篇论文 [54]。关于略为更一般的处理,参见 Kestelman 的一篇论文 [52]。有若干手段可以避免使用 Fourier 积分定理;例如,可以把 \(I(\beta)\) 换成有限和 \[ k^{-1}\sum_{0\lt m\lt P^k}m^{-1+1/k}e(\beta m), \] 或者也可以像 Vinogradov [93, 第 3 章] 那样间接地求出 \(J\)。但总的来说,引用 Fourier 积分定理似乎是自然而恰当的。

在渐近公式 (4.13) 中,可以把第一个因子 \(C_{k,s}N^{s/k-1}\) 看作度量了方程

\[ x_1^k+\cdots+x_s^k=N,\quad x_1>0,\dots,x_s>0 \]

在实数中解的"密度";它是某超曲面这一部分的 \((s-1)\) 维测度。换一种说法,它(在可忽略的误差范围内)是区域

\[ N-\tfrac{1}{2}\lt x_1^k+\cdots+x_s^k\lt N+\tfrac{1}{2},\quad x_1>0,\dots,x_s>0 \]

的 \(s\) 维体积。第二个因子 \(\mathfrak{S}(N)\) 可以看作一个补偿因子,用以反映这样一个事实:整数的 \(k\) 次幂并不像实数的 \(k\) 次幂那样均匀分布,因为前者受到同余限制的约束。(\(\mathfrak{S}(N)\) 与同余之间的关系将在下一节中浮现。)于是,我们从渐近公式中得出的结论,用略嫌含糊的话来说就是:把一个大数表示为 \(s\) 个正整数 \(k\) 次幂之和的表示数,渐近地由这两种影响所主导,前提是 \(s\) 大于 \(k\) 的某个函数。

  1. 例如可参见 [97, §9.43]。
  2. 例如可参见 [97, §12.5]。