Davenport · Analytic Methods for Diophantine Equations

Weyl 不等式与华罗庚不等式Weyl's inequality and Hua's inequality

研究华林问题（Waring's problem），乃至研究数论解析理论中的许多其他问题时，最重要的单一工具就是 Weyl 不等式。这一不等式由 Weyl 在其 1916 年关于数列模 1 均匀分布的伟大论文 [96] 中以一种不太显式的形式给出。针对多项式、并以其最高次系数表述的显式形式，则由 Hardy 与 Littlewood 在 P.N. I [37] 中给出。

引理 3.1.（Weyl 不等式）设 \(f(x)\) 是一个次数为 \(k\)、最高次系数为 \(\alpha\) 的实系数多项式： \[ f(x)=\alpha x^{k}+\alpha_{1}x^{k-1}+\cdots+\alpha_{k}. \] 假设 \(\alpha\) 有一个满足下述条件的有理逼近 \(a/q\)： \[ (a,q)=1,\qquad q>0,\qquad \left|\alpha-\frac{a}{q}\right|\le\frac{1}{q^{2}}. \] 那么，对任意 \(\varepsilon>0\)，有 \[ \left|\sum_{x=1}^{P}e(f(x))\right|\ll P^{1+\varepsilon}\left(P^{-\frac{1}{K}}+q^{-\frac{1}{K}}+\left(\frac{P^{k}}{q}\right)^{-\frac{1}{K}}\right), \] 其中 \(K=2^{k-1}\)，所含的隐性常数¹只依赖于 \(k\) 与 \(\varepsilon\)。

注. 当 \(P^{\delta}\le q\le P^{k-\delta}\)（对某个固定的 \(\delta>0\)）时，该不等式对平凡上界 \(P\) 给出了某种改进。若 \(P\le q\le P^{k-1}\)，则我们得到估计 \(P^{1-1/K+\varepsilon}\)；正是在这些条件下，Weyl 不等式得到最为常见的应用。注意，若 \(q\) 很小，则 Weyl 不等式不能给出任何有用的信息；这是很自然的，因为若 \(f(x)=\alpha x^{k}\) 且 \(\alpha\) 非常接近于一个分母很小的有理数，则该和确实具有趋近于 \(P\) 的量级。

证. 证明中的基本操作是对一个指数和的绝对值取平方，从而把该和与一些次数更低的多项式的同类和的平均值联系起来。令 \[ S_{k}(f)=\sum_{x=P_{1}+1}^{P_{2}}e(f(x)), \] 其中 \(0\le P_{2}-P_{1}\le P\)，下标 \(k\) 用于标记 \(f(x)\) 的次数。则 \[ \begin{aligned} |S_{k}(f)|^{2}&=\sum_{x_{1}}\sum_{x_{2}}e(f(x_{2})-f(x_{1}))\\ &=P_{2}-P_{1}+2\Re\!\!\sum_{\substack{x_{1},x_{2}\\ x_{2}>x_{1}}}\!\! e(f(x_{2})-f(x_{1})). \end{aligned} \] 令 \(x_{2}=x_{1}+y\)。则 \(1\le y\lt P_{2}-P_{1}\)，且 \[ f(x_{2})-f(x_{1})=f(x_{1}+y)-f(x_{1})=\Delta_{y}f(x_{1}), \] 此处采用了显然的记号。于是 \[ |S_{k}(f)|^{2}=P_{2}-P_{1}+2\Re\sum_{y=1}^{P}\sum_{x}e\left(\Delta_{y}f(x)\right), \] 其中对 \(x\) 的求和取遍一个依赖于 \(y\) 但包含于 \(P_{1}\lt x\le P_{2}\) 之中的区间。对某些 \(y\) 的取值而言，该区间可能为空。

特别地， \[ |S_{k}(f)|^{2}\le P+2\sum_{y=1}^{P}|S_{k-1}(\Delta_{y}f)|, \] 其中 \(S_{k-1}\) 所对应的区间正是刚才描述的那种。重复上述论证，我们得到 \[ |S_{k-1}(\Delta_{y}f)|^{2}\le P+2\sum_{z=1}^{P}|S_{k-2}(\Delta_{y,z}f)|, \] 其中 \(S_{k-2}\) 的求和区间同时依赖于 \(y\) 与 \(z\)，但仍包含于 \(P_{1}\lt x\le P_{2}\)。利用 Cauchy 不等式，便可把第二个不等式中的 \(S_{k-1}\) 代入第一个不等式： \[ \begin{aligned} |S_{k}(f)|^{4}&\ll P^{2}+P\sum_{y=1}^{P}|S_{k-1}(\Delta_{y}f)|^{2}\\ &\ll P^{3}+P\sum_{y=1}^{P}\sum_{z=1}^{P}|S_{k-2}(\Delta_{y,z}f)|. \end{aligned} \]

此过程可以继续进行，由此建立的一般不等式为 \begin{equation}\tag{3.1} |S_{k}(f)|^{2^{\nu}}\ll P^{2^{\nu}-1}+P^{2^{\nu}-\nu-1}\sum_{y_{1}=1}^{P}\cdots\sum_{y_{\nu}=1}^{P}|S_{k-\nu}(\Delta_{y_{1},\ldots,y_{\nu}}f)|. \end{equation} 这只需对 \(\nu\) 作归纳即可证明：再次利用 Cauchy 不等式，连同上面所述把 \(|S_{k-\nu}|^{2}\) 用 \(S_{k-\nu-1}\) 表出的基本操作即可。须知 (3.1) 中对 \(x\) 的求和范围是一个依赖于 \(y_{1},\ldots,y_{\nu}\) 的区间，但包含于 \(P_{1}\lt x\le P_{2}\)。

在此我们插入一点说明，它在引理 3.2 的证明中会有用。这就是：若在导出 (3.1) 的最后一步中，我们把基本操作以其原始形式应用，则得到 \begin{equation}\tag{3.2} |S_{k}(f)|^{2^{\nu}}\ll P^{2^{\nu}-1}+P^{2^{\nu}-\nu-1}\sum_{y_{1}=1}^{P}\cdots\sum_{y_{\nu}=1}^{P}\Re S_{k-\nu}(\Delta_{y_{1},\ldots,y_{\nu}}f). \end{equation} 此处同样，\(S_{k-\nu}\) 中 \(x\) 的取值范围依赖于 \(y_{1},\ldots,y_{\nu}\)，并且有时可能为空。

回到 (3.1)，我们取 \(\nu=k-1\)，并在原始的 \(S_{k}\) 中取 \(P_{1}=0,\ P_{2}=P\)。我们注意到 \[ \Delta_{y_{1},\ldots,y_{k-1}}f(x)=k!\,\alpha y_{1}\cdots y_{k-1}x+\beta, \] 不妨这样记，其中 \(\beta\) 是一些与 \(x\) 无关的项的集合。于是 \[ \left|S_{1}(\Delta_{y_{1},\ldots,y_{k-1}}f)\right|=\left|\sum_{x}e(k!\,\alpha y_{1}\cdots y_{k-1}x)\right|. \]

右边的和取遍任一长度至多为 \(P\) 的 \(x\) 区间，形如 \[ \left|\sum_{x=x_{1}}^{x_{2}-1}e(\lambda x)\right|\le\frac{2}{|1-e(\lambda)|}=\frac{1}{|\sin\pi\lambda|}\ll\frac{1}{\|\lambda\|}, \] 其中 \(\|\lambda\|\) 表示 \(\lambda\) 到最近整数的距离。当 \(\lambda\) 是整数时这一估计失效——事实上当 \(\lambda\) 非常接近整数时它给出的结果很差——但我们可以用显然的上界 \(P\) 来补充。于是 (3.1) 给出 \[ |S_{k}(f)|^{K}\ll P^{K-1}+P^{K-k}\sum_{y_{1}=1}^{P}\cdots\sum_{y_{k-1}=1}^{P}\min\!\left(P,\ \|k!\,\alpha y_{1}\cdots y_{k-1}\|^{-1}\right). \]

现在我们诉诸初等数论中的一个结果，它使我们能把和中所有使 \(k!\,y_{1}\cdots y_{k-1}\) 取某个给定值（记为 \(m\)）的项合并到一起。这样的项的个数是 \(\ll m^{\varepsilon}\)。为证明此点，只需证明 \begin{equation}\tag{3.3} d(m)\ll m^{\varepsilon}, \end{equation} 对任意整数 \(m\) 成立，其中 \(d(m)=\sum_{d\mid m}1\) 是通常的除数函数。事实上，对于每个 \(y_{1},\ldots,y_{k-1}\)，至多有 \(d(m)\) 种可能。为建立 (3.3)，设 \(m=p_{1}^{\lambda_{1}}p_{2}^{\lambda_{2}}\cdots\)，并注意到 \[ \frac{d(m)}{m^{\varepsilon}}=\prod_{i}\frac{\lambda_{i}+1}{p_{i}^{\varepsilon\lambda_{i}}}\le\prod_{p_{i}\le 2^{1/\varepsilon}}\frac{\lambda_{i}+1}{2^{\varepsilon\lambda_{i}}}\le C(\varepsilon), \] 因为 \(2^{-\varepsilon\lambda}(\lambda+1)\) 对 \(\lambda>0\) 是有上界的。

如上所述把各项合并，我们得到 \[ |S_{k}(f)|^{K}\ll P^{K-1}+P^{K-k+\varepsilon}\sum_{m=1}^{k!P^{k-1}}\min(P,\ \|\alpha m\|^{-1}). \]

剩下的是用题设中提到的对 \(\alpha\) 的有理逼近 \(a/q\) 来估计最后这个和。我们把对 \(m\) 的求和分成若干个由 \(q\) 个连续项构成的块（也许还有一个不完整的块），这样的块的个数是 \[ \ll\frac{P^{k-1}}{q}+1. \] 考虑任一个块上的和，它形如 \[ \sum_{m=0}^{q-1}\min(P,\ \|\alpha(m_{1}+m)\|^{-1}), \] 其中 \(m_{1}\) 是该块中的第一个数。我们有 \[ \alpha(m_{1}+m)=\alpha m_{1}+\frac{am}{q}+O\!\left(\frac{1}{q}\right), \] 这是因为 \(|\alpha-a/q|\le q^{-2}\) 且 \(0\le m\lt q\)。当 \(m\) 从 \(0\) 取到 \(q-1\) 时，\(am\) 遍历模 \(q\) 的完全剩余系。令 \(am\equiv r\pmod{q}\)，则该和为 \[ \sum_{r=0}^{q-1}\min\!\left(P,\ \frac{1}{\left\|(r+b)/q+O(1/q)\right\|}\right), \] 其中我们取 \(b\) 为最接近 \(q\alpha m_{1}\) 的整数。在和中有 \(O(1)\) 个 \(r\) 值使得最小值中的第二个表达式无用，即那些使得 \(r+b\pmod{q}\) 的绝对最小剩余很小的 \(r\)。对这些 \(r\)，我们必须取 \(P\)。对于其余的 \(r\) 值，若 \(s\) 表示 \(r+b\pmod{q}\) 的绝对最小剩余，则有 \[ \left\|\frac{r+b}{q}+O\!\left(\frac{1}{q}\right)\right\|\gg\frac{s}{q}. \] 因此上述和为 \[ \ll P+\sum_{s=1}^{q/2}\frac{q}{s}\ll P+q\log q. \] 计入块的数目，我们得到 \[ |S_{k}(f)|^{K}\ll P^{K-1}+P^{K-k+\varepsilon}\left(\frac{P^{k-1}}{q}+1\right)(P+q\log q). \]

由于可以假设 \(q\le P^{k}\)（否则引理的结论平凡成立），因子 \(\log q\) 可被吸收进 \(P^{\varepsilon}\) 中。于是右边为 \[ \ll P^{K+\varepsilon}\left(P^{-1}+q^{-1}+P^{-k}q\right), \] 这就给出了所要的结果。∎

注. 若 \(k\) 较大，则 Vinogradov 给出了一个好得多的估计，其中（粗略地说）\(2^{k-1}\) 被 \(4k^{2}\log k\) 所取代 [49, 第 6 章]。

推论（引理 3.1 之推论）. 令 \[ S_{a,q}=\sum_{z=1}^{q}e(az^{k}/q), \] 其中 \(a,q\) 是互素的整数且 \(q>0\)。则 \[ S_{a,q}\ll q^{1-1/K+\varepsilon}. \]

这是引理 3.1 的一个特例，对应于 \(\alpha=a/q\) 且 \(P=q\)。我们以后（引理 6.4）将证明更精确的估计 \(q^{1-1/k}\) 以取代 \(q^{1-1/K+\varepsilon}\)，但目前上述结果已足够使用。

引理 3.2.（华罗庚不等式 [48]）若 \[ T(\alpha)=\sum_{x=1}^{P}e(\alpha x^{k}), \] 则 \[ \int_{0}^{1}|T(\alpha)|^{2^{k}}\,d\alpha\ll P^{2^{k}-k+\varepsilon}, \] 对任意固定的 \(\varepsilon>0\) 成立。

证. 记 \[ I_{\nu}=\int_{0}^{1}|T(\alpha)|^{2^{\nu}}\,d\alpha. \] 我们对 \(\nu\) 作归纳，证明 \begin{equation}\tag{3.4} I_{\nu}\ll P^{2^{\nu}-\nu+\varepsilon},\qquad \nu=1,\ldots,k, \end{equation} 其中 \(\nu=k\) 的情形即为引理所断言的结果。

对 \(\nu=1\)，该估计是显然的。我们有 \[ I_{1}=\int_{0}^{1}\sum_{x_{1}}e(\alpha x_{1}^{k})\sum_{x_{2}}e(-\alpha x_{2}^{k})\,d\alpha=P, \] 因为当 \(x_{1}=x_{2}\) 时对 \(\alpha\) 的积分为 1，否则为 0。

现在假设 (3.4) 对某个特定的整数 \(\nu\le k-1\) 成立；我们要推出把 \(\nu\) 换成 \(\nu+1\) 时相应的结果。我们回顾前一证明中的不等式 (3.2)；将其中的 \(S_{k}(f)\) 换成 \(T(\alpha)\)，它表明 \[ |T(\alpha)|^{2^{\nu}}\ll P^{2^{\nu}-1}+P^{2^{\nu}-\nu-1}\Re\sum_{y_{1}=1}^{P}\cdots\sum_{y_{\nu}=1}^{P}S_{k-\nu}, \] 其中 \[ S_{k-\nu}=\sum_{x}e(\alpha\Delta_{y_{1},\ldots,y_{\nu}}(x^{k})). \] 注意，对 \(x\) 的求和范围依赖于 \(y_{1},\ldots,y_{\nu},P\) 的取值，但包含于 \([1,P]\)。

把不等式两边都乘以 \(|T(\alpha)|^{2^{\nu}}\)，并从 0 积到 1，我们得到 \[ I_{\nu+1}\ll P^{2^{\nu}-1}I_{\nu}+P^{2^{\nu}-\nu-1}\sum_{y_{1},\ldots,y_{\nu}}\Re\int_{0}^{1}S_{k-\nu}|T|^{2^{\nu}}\,d\alpha. \] 最后这个积分为 \[ \int_{0}^{1}\sum_{x}e\left(\alpha\Delta_{y_{1},\ldots,y_{\nu}}(x^{k})\right)\sum_{\substack{u_{1},\ldots,u_{2^{\nu-1}}\\ v_{1},\ldots,v_{2^{\nu-1}}}}e(\alpha u_{1}^{k}+\cdots)e(-\alpha v_{1}^{k}-\cdots)\,d\alpha, \] 其中 \(u_{i}\) 与 \(v_{i}\) 从 1 取到 \(P\)。该积分等于 \begin{equation}\tag{3.5} \Delta_{y_{1},\ldots,y_{\nu}}(x^{k})+u_{1}^{k}+\cdots-v_{1}^{k}-\cdots=0 \end{equation} 的解的个数。对 \(y_{1},\ldots,y_{\nu}\) 求和，便给出在所有变量上的解的总数。因此 \begin{equation}\tag{3.6} I_{\nu+1}\ll P^{2^{\nu}-1}I_{\nu}+P^{2^{\nu}-\nu-1}N, \end{equation} 其中 \(N\) 表示 (3.5) 在所有变量上的解的个数，这些变量现在都是 \([1,P]\) 中的整数。

现在重要的是要注意到：由于 \(y_{1},\ldots,y_{\nu}\) 与 \(x\) 都是正的，我们有 \[ \Delta_{y_{1},\ldots,y_{\nu}}(x^{k})>0. \] 此外，这个数能被 \(y_{1},\ldots,y_{\nu}\) 中的每一个整除。因此，若我们给定 \(u_{1},\ldots,u_{2^{\nu-1}}\) 与 \(v_{1},\ldots,v_{2^{\nu-1}}\) 任意值，则由 (3.3)，\(y_{1},\ldots,y_{\nu}\) 中每一个的可能取法数为 \(\ll P^{\varepsilon}\)。于是 \(x\) 至多有一种可能取法，因为 \(\Delta_{y_{1},\ldots,y_{\nu}}(x^{k})\) 是 \(x\) 的严格递增函数（注意 \(\nu\le k-1\)）。\(u_{i}\) 与 \(v_{i}\) 的可能取法数为 \(\ll P^{2^{\nu}}\)，由此可知 \[ N\ll P^{2^{\nu}+\nu\varepsilon}. \]

代入 (3.6) 并利用归纳假设，我们得到 \[ I_{\nu+1}\ll P^{2^{\nu}-1}P^{2^{\nu}-\nu+\varepsilon}+P^{2^{\nu}-\nu-1}P^{2^{\nu}+\nu\varepsilon}\ll P^{2^{\nu+1}-(\nu+1)+\nu\varepsilon}. \] 这正是把 \(\nu\) 换成 \(\nu+1\) 后的 (3.4)，只是 \(\varepsilon\) 有所改变，而这无关紧要。∎

注. 考察当 \(k=3\) 时引理 3.2 所给出的信息是颇有意思的。令 \(\lambda(m)\) 记使得 \[ \int_{0}^{1}|T(\alpha)|^{2m}\,d\alpha\ll P^{\lambda} \] 成立的指数 \(\lambda\) 的下确界。由 Cauchy 不等式可知 \[ \lambda\!\left(\frac{m_{1}+m_{2}}{2}\right)\le\frac{1}{2}(\lambda(m_{1})+\lambda(m_{2})), \] 因此 \(\lambda(m)\) 作为 \(m\) 的函数是凸的。引理 3.2 告诉我们 \[ \lambda(1)\le 1,\qquad \lambda(2)\le 2,\qquad \lambda(4)\le 5, \] 并且可以证明这三处实际上都取等号。于是该图像落在连接 \((1,1),(2,2),(4,5)\) 的两条线段之上或之下。看来当 \(2\lt m\lt 4\) 时该图像很可能严格地位于线段之下，但这一点从未被证明。如果能证明它，便能够建立八个立方数（而非九个立方数，\(9=2^{k}+1\)）的渐近公式。例如，只要能证明 \[ \int_{0}^{1}|T(\alpha)|^{6}\,d\alpha\ll P^{7/2-\delta} \] 对某个正数 \(\delta\) 成立就够了。这等价于断言： \[ x_{1}^{3}+x_{2}^{3}+x_{3}^{3}=y_{1}^{3}+y_{2}^{3}+y_{3}^{3} \] （所有变量介于 0 与 \(P\) 之间）的解的总数为 \(\ll P^{7/2-\delta}\)。

我们使用 Vinogradov 记号 \(\ll\) 来表示一个带有未指定“常数”因子的不等式。在当前情形中，所出现的因子实际上与 \(k\) 无关，但我们无需了解这一点。↩