引言

稍微花了亿点点的时间,Halberstam的第一章终究还是看完了!

虽然已经在二潘的『哥德巴赫猜想』一书中简单看了Selberg筛法,自以为已经对筛法的思想有所入门.但是在看了Halberstam的第一章后,才发现我有很多忽略掉的细节和动机.而这些内容,也都是作者有意提及,让我突然意识到,竟然还有这种考量!

不愧是『筛法圣经』,收获颇丰!更让我想要把整本书都看完了,虽然现在只看完了1/10(会看完的).而第二章的内容则更是充实,这一章便已经又占去了整本书的1/6更多.可能是组合筛法并没有和后续内容有很多的配合,所以关于组合筛法要说的东西都浓缩在这一章中.

而张益唐关于素数间隙的工作主要便用到了组合筛法以及加权的想法,而细节方面,我后续还会仔细阅读原始论文的.这又是一个大工程了,应该还要翻译与之相关的一篇文献出来,但是以我的英语水平,我争取翻译出完整的句子来😇.

更新这一篇章应该也要一段时间了,虽然说目前还是以介绍符号为主,但是值得学习的内容还真不少.废话少说,直接开冲🤠!

前置(但不简单)的一些知识点

放在最前面的前面,是关于常数的一些默认的规定:

是与无关的常数

Bi,CiB_i,C_i则会是与Ai,κ,αA_i,\kappa,\alpha(后续会知道的,因为我现在也不知道)相关的常数

筛法筛法,当然得有一个被筛集合,以及一个筛子,和描述筛子大小的一个量.因此我们有以下符号来进行描述(数学符号定义属性大爆发):

被筛集合是关于整数的有限集合,即Sifted Sequence,记作A\mathscr{A};

筛集合是关于素数的无限集合,即Sifting Set,记作P\mathfrak{P};

筛子的大小由zz来决定,并且定义P(z):=p<z pPp\displaystyle{P(z):=\prod_{\substack{p<z \ p\in \mathfrak{P}}} p};

给出上面的符号后,便可以定义出筛选后元素的个数:

S(A;P,z):={a:aA,(a,P(z))=1}S(\mathscr{A};\mathfrak{P},z):=|\{ a:a\in\mathscr{A},(a,P(z))=1 \}|

可以发现的是,筛函数给出的只是筛选后元素的个数,一个数又能说明什么呢?但实际上,我们如果能知道筛函数的上界和正的下界,那么很多问题将会有极大的突破,而在最后一节,利用Eratosthenes-Legendre筛法能得到素数分布的一个粗略的上界估计,其中函数π(x)\pi(x)表示小于xx的素数个数,考虑x2x\ge 2:

π(x)xloglogx\pi(x) \ll \dfrac{x}{\log\log x}

当然,从初等数论的方法还能得到π(x)\pi(x)的更精确的上下界,而这个我也会提上日程的(应该很快,大概吧):

(log23)xlogx<π(x)<(6log2)xlogx\displaystyle{\left(\frac{\log 2}{3}\right)\frac{x}{\log x} < \pi(x) < \left(6\log 2\right)\frac{x}{\log x}}

以及Legendre本人提出了一个渐近公式:

π(x)xlogx1.08366\displaystyle{\pi(x) \sim \frac{x}{\log x-1.08366}}

这个1.08366很明显是凑出来的,但是Gauss给出了另一个更简单,更精细的渐近公式:

π(x)li(x)=0xdtlogt\displaystyle{\pi(x) \sim \textrm{li}(x)=\int_0^x \frac{\textrm{d}t}{\log t}}

需要注意的是Li(x)=2xdtlogt\displaystyle{\textrm{Li}(x)=\int_2^x \dfrac{\textrm{d}t}{\log t}},和li(x)\textrm{li}(x)还是有所差别的,而我就经常没有注意到大小写的不同😭.

Gauss的这个渐近公式,在本书中直接作为定理使用(虽然这个本来就已经被称为素数定理了).当然还被直接拿来使用的大定理,还有Dirichlet定理.而这里才给出Dirichlet定理的两个更强结论(也是在第一章的Notes里出现的,我之前也完全不知道😫):

假设(l,k)=1(l,k)=1,可知{al+k}\{al+k\}中包含有无数的素数,并且有以下定量的描述:

p<xpl mod k1p=1φ(k)loglogx+Ok(1)\displaystyle{\sum_{\substack{p<x \\ p \equiv l\ \textrm{mod}\ k}} \frac{1}{p} = \frac{1}{\varphi(k)}\log\log x + O_k(1)}

并且还有以下一个更强的陈述:

π(x;k,l)li(x)φ(k)+O(xeclogx)\displaystyle{\pi(x;k,l) \sim \frac{\textrm{li}(x)}{\varphi(k)} + O(x\textrm{e}^{-c\sqrt{\log x}})}

Sifted Sequence

想法与符号

接下来就正式进入筛法的内容了(没想到吧,扯了这么久才入题呢😋)!首先便是从被筛集合Sifted Sequence开始,但是很快就会发现,这可以说是本章最难的一块(没想到吧,我也没想到,一个Sifting Sequence是本章的重点笔墨😭).

此处再重新强调一下Sifted Sequence是什么:

Sifted Sequence指的是一个有限的整数序列(不需要是正数和非异的):

A={a:}\mathscr{A} = \{ a: \cdots \}

以及在后续中会发现,我们常常需要处理对A\mathscr{A}dd的情况:

Ad={a:aA, a0 mod d}\mathscr{A}_d = \{ a: a\in\mathscr{A},\ a\equiv 0\ \textrm{mod}\ d \}

前面我们已经知道,我们更关注的是集合中元素的个数,但是基本上我们遇到的情况,具体的元素个数是无法显式表达的(否则也就没有什么事了),因此我们不得不寻找另外的方式去尽可能的接近Ad|\mathscr{A}_d|,其中A=A1|\mathscr{A}|=|\mathscr{A}_1|.此处我们已经窥见得:Ad\mathscr{A}_d似乎是更具有一般性的.

而我们最主要的想法就是:

去接近

而对于Ad|\mathscr{A}_d|,我们利用积性函数ω0(d)\color{red}\omega_0(d)去接近

具体而言就是Ad|\mathscr{A}_d|差不多为w0(d)dX\dfrac{w_0(d)}{d}X,此时便需要有μ(d)0\color{red}\mu(d)\neq 0

再记误差为rd:=Adw0(d)dX, if μ(d)0r_d:=|\mathscr{A}_d|-\dfrac{w_0(d)}{d}X,\ if\ \mu(d)\neq 0,因此rdr_d越小,说明拟合程度也就越好

ω0(p)\omega_0(p)需要是积性函数的原因可能有很多,以下是我个人的一些理解,也不一定准确嗷:

\quad 1.只有是积性函数我们才能用更少的精力去拟合筛函数,因为数论函数大多处理的也是积性的,这样才能利用上算术基本定理(即使这样也逃不掉复杂的计算,麻😫).

\quad 2.在后面可以发现的是,我们总可以选取合适的XXω0(p)\omega_0(p)使得误差控制在一个暂且可以接受的范围(但如何缩小误差也是筛法的一个重点与难点😫).

因此我们也需要dd是没有平方因子的(squarefree),即μ(d)0\mu(d)\neq 0,后续差不多都是考虑这种情况,但我还是尽量都加上这个条件.

一些『简单』的例子
例子1

假设:

A={n:xy<nx}\mathscr{A}=\{ n:x-y<n\le x \}

则可得到的是:

X=y, ω0(p)=1 for every pX=y,\ \omega_0(p)=1\ for\ every\ p

rd1  if μ(d)0|r_d|\le 1\ \ if\ \mu(d)\neq 0

简略推导如下:

\quad 因为有:

Ad={m:xyd<mxd}=yd+θ,  θ1\displaystyle{|\mathscr{A}_d|=\left|\left\{m:\frac{x-y}{d}<m\le \frac{x}{d}\right\}\right|=\frac{y}{d}+\theta},\ \ |\theta|\le 1

\quad 于是便可得到X, ω0(d)X,\ \omega_0(d)以及rdr_d.

\quad 与此同时,为了保证X>1X>1,我们需要有1<yx1<y\le x. \square

其中需要注意的是,后续中(例子5以及例子6)会有一个符号ϑ\vartheta,其和θ\theta有一些区别,主要为:

0ϑ1, 1θ10 \le \vartheta \le 1,\ -1 \le \theta \le 1

例子2

假设:

A={n:xy<nx, nl mod k}\mathscr{A}=\{n:x-y < n \le x,\ n \equiv l\ \textrm{mod}\ k\}

则可得到的是:

X=yk, ω0(p)=1 for pkX = \dfrac{y}{k},\ \omega_0(p) = 1\ for\ p \nmid k

rdw0(d)  if μ(d)0r_d \le w_0(d)\ \ if\ \mu(d)\neq 0

简略推导如下:

\quad 因为有:

Ad={m:xyd<mxd, dml mod k}\displaystyle{ |\mathscr{A}_d| = \left| \left\{ m: \frac{x-y}{d} < m \le \frac{x}{d},\ dm \equiv l\ \textrm{mod}\ k \right\} \right| }

\quad 其中可知,dml mod kdm \equiv l\ \textrm{mod}\ k有解当且仅当(d,k)l(d,k)|l,并且此时同余式在Z/kZ\mathbb{Z}/k\mathbb{Z}中恰有(d,k)(d,k)个解.

\quad 因此可得:

Ad=ω0(d)(ydk+θ), θ1\displaystyle{ |\mathscr{A}_d| = \omega_0(d)\left( \frac{y}{dk} + \theta \right) },\ |\theta| \le 1

\quad 于是得出:

ω0(d)={0if (d,k)l(d,k)if (d,k)l\omega_0(d) = \left\{ \begin{matrix} 0 & if\ (d,k) \nmid l \\ (d,k) & if\ (d,k) | l \end{matrix} \right.

\quad 与此同时,为了保证X>1X>1,我们需要有1k<yx1 \le k < y \le x. \square

至此仍然是牛刀小试,下面开始才是真正的考验.

例子3

假设FF是一个gg次的整系数多项式:

A={F(n):xy<nx}\mathscr{A}=\{ F(n):x-y<n\le x \}

ρ(d)=ρF(d)\rho(d)=\rho_F(d)F0 mod dF \equiv 0\ \textrm{mod}\ d的解数(由初等数论的知识可知其为积性函数).

则可得到的是:

X=y, ω0(d)=ρ(d) if μ(d)0X = y,\ \omega_0(d) = \rho(d)\ if\ \mu(d) \neq 0

rdω0(d)  if μ(d)0|r_d| \le \omega_0(d)\ \ if\ \mu(d)\neq 0

简略推导如下:

\quad 将讨论F(n)F(n)的数量转换为对nn数量的讨论,于是有:

Ad={n:xy<nx, F(n)0 mod d}=ρ(d)(yd+θ), θ1\displaystyle{ |\mathscr{A}_d| = \left| \left\{ n:x-y < n \le x,\ F(n) \equiv 0\ \textrm{mod}\ d \right\} \right| = \rho(d) \left( \frac{y}{d} + \theta \right) },\ |\theta| \le 1

\quad 与此同时,为了保证X>1X>1,我们需要有1<yx1 < y \le x. \square

值得注意的是,根据Lagrange定理,ρ(p)=p\rho(p)=p或者ρ(p)g\rho(p) \le g,也即:

ρ(p)g, ifρ(p)<p\rho(p) \le g,\ if \rho(p) < p

此外还有一些比较奇妙的性质:

p<xρ(p)kxlogx\sum_{p < x} \rho(p) \sim k\dfrac{x}{\log x}

以及:

p<xρ(p)plogp=klogx+OF(1)\sum_{p < x}\dfrac{\rho(p)}{p}\log p = k\log x+O_F(1)

例子4

该例子是例子3的一个特殊情况,即考虑F0F_0作为无重根的分裂多项式,具体如下:

F0(n):=i=1g(ain+bi), (ai,bi)=1F_0(n) := \prod_{i=1}^{g} (a_i n + b_i),\ (a_i, b_i) = 1

其中(ai,bi)=1(a_i, b_i)=1使得F0F_0没有fixed divisor,而无重根则还可以用判别式来更严格地说明:

E:=i=1gai1r<sg(arbsasbr)0E := \prod_{i=1}^{g}a_i \prod_{1 \le r < s \le g}(a_r b_s - a_s b_r) \neq 0

实际上,在后边马上就能看到,利用判别式EE这一概念其实不仅仅是为了说明无重根的(直接说无重根不是更省事吗),而是可以更加方便地讨论筛除后的元素个数的情况.

假设:

A={F0(n):xy<nx}\mathscr{A}=\{ F_0(n):x-y<n\le x \}

则根据例3便可直接得到:

X=y, ω0(d)=ρ(d) if μ(d)0X = y,\ \omega_0(d) = \rho(d)\ if\ \mu(d) \neq 0

rdω0(d)  if μ(d)0|r_d| \le \omega_0(d)\ \ if\ \mu(d)\neq 0

但是和例3不同的是,在此处我们能有更强的结论:

几乎对于所有的而言,
更具体而言就是,在满足以及的条件下,

其中,υ(d)\upsilon(d)表示dd的素因子的个数(由于μ(d)0\mu(d)\neq 0,因此不可能有重数).

简略推导如下:

\quad 在此处中,我们来解释为什么几乎对所有的素数而言,都有ρ(p)=g\rho(p)=g.

\quad 由于没有fixed divisor,因此在p>gp > g的情况下,总有:ρ(p)g\rho(p) \le g.

\quad 与此同时,单看{n:ain+bi0 mod p}\{ n : a_i n + b_i \equiv 0\ \textrm{mod}\ p\}可知,在paip \nmid a_i的情况下有唯一解.

\quad 因此当pa1a2ag{\color{red} p \nmid a_1a_2\cdots a_g }时,可以得到的是F0(n)0 mod qF_0(n) \equiv 0\ \textrm{mod}\ qgg个的根(计入重数).

\quad 而要求pE\color{red}{p \nmid E},则可以保证有gg个各不相同的根,并且几乎所有的素数都是满足这个条件的(这也是为什么引入判别式EE,而不是仅仅声明无重根的原因).

\quad 详细写出我们便得到有:

ρ(p){=g(p,E)=1<g(p,E)>1\rho(p) \left\{ \begin{matrix} = g & (p,E) = 1 \\ < g & (p,E)>1 \end{matrix} \right.

\quad 利用积性便可以得到ρ(d) μ(d)0\rho(d)\ \mu(d) \neq 0的情况:

ρ(d){=gυ(d)(d,E)=1<gυ(d)(d,E)>1\rho(d) \left\{ \begin{matrix} = g^{\upsilon(d)} & (d,E)=1 \\ < g^{\upsilon(d)} & (d,E)>1 \end{matrix} \right.

\quadrdr_d就是例3中所给. \square

例3和例4已经开始让人汗流浃背了,但是接下来才是重头戏.

例子5

假设:

A={ap+b:px,pl mod k}\mathscr{A}=\{ ap+b : p \le x, p \equiv l\ \textrm{mod}\ k \}

其中还需要满足:

(l,k)=1, ab0, (a,b)=1, 2ab(l,k) = 1,\ ab \neq 0,\ (a,b)=1,\ 2 \mid ab

则可以得到的是:

X=li(x)φ(k)X = \dfrac{\textrm{li}(x)}{\varphi(k)}

ω0(d)={0(ab,d)>1 or (d,k)al+bdφ(d)φ((d,k))(ab,d)=1 and (d,k)al+b\displaystyle{\omega_0(d) = \left\{ \begin{matrix} 0 & (ab,d) > 1\ or\ (d,k) \nmid al+b \\ \frac{d}{\varphi(d)}\varphi((d,k)) & (ab,d)=1\ and\ (d,k) \mid al+b \end{matrix} \right.}

rd=Adω0(d)dX{υ(d)(ab,d)>1 or (d,k)al+b=π(x;[d,k],l)1φ[d,k]li(x)(ab,d)=1 and (d,k)al+b\displaystyle{r_d = |\mathscr{A}_d| - \frac{\omega_0(d)}{d}X \left\{ \begin{matrix} \le \upsilon(d) & (ab,d) > 1\ or\ (d,k) \nmid al+b \\ = \pi(x;[d,k],l') - \frac{1}{\varphi{[d,k]}}\textrm{li}(x) & (ab,d)=1\ and\ (d,k) \mid al+b \end{matrix} \right.}

其中ll'将在推导中给出具体含义.

简略推导如下:

\quadμ(d)=1\mu(d) = 1,则有:

Ad={p:px,pl mod k,ap+b0 mod d}\displaystyle{ |\mathscr{A}_d| = \{ p : p \le x, p \equiv l\ \textrm{mod}\ k, ap+b \equiv 0\ \textrm{mod}\ d \} }

\quad 因此此时需要对两个同余式进行考虑,那么我们就需要尝试使用CRT来处理,但在此之前,我们得需要考虑条件.

Step 1(简单情况):

\quad 首先对ap+b0 mod dap+b \equiv 0\ \textrm{mod}\ d进行处理,其有解的必要条件是(a,d)b(a,d) \mid b.此处不是充要条件,因为解要求是素数.

\quad 但是还有条件(a,b)=1(a,b)=1.因此可知:

\qquad 1. 若(a,d)>1(a,d) > 1,则此时(a,d)b(a, d) \nmid b,因此ap+b0 mod dap+b \equiv 0\ \textrm{mod}\ d也必然没有解.

\qquad 2. 若(a,d)=1(a,d) = 1,则此时ap+b0 mod dap+b \equiv 0\ \textrm{mod}\ d也可以表示为:

p=a1b mod d (3.2.5.1)\color{red}{p = -a^{-1}b\ \textbf{mod}\ d} \ (3.2.5.1)

于是(b,d)q(b, d) \mid q.因此当(b,d)>1(b, d) > 1时,那么此时pp也就至多υ(d)\upsilon(d)个(更精细地,应该是至多一个).

\quad 因此我们得到了以下两种简单情况下Ad|\mathscr{A}_d|的估计:

Ad={ϑυ(b)(a,d)=1 and (b,d)>10(a,d)>1 (3.2.5.2\displaystyle{ |\mathscr{A}_d| = \left\{ \begin{matrix} \vartheta\upsilon(b) & (a,d) = 1\ and\ (b,d) > 1 \\ 0 & (a,d) > 1 \end{matrix} \right. } \ (3.2.5.2

\quad 其中0ϑ10 \le \vartheta \le 1.

Step 2(重头戏):

\quad 接着便是处理上述讨论中跳过的(a,d)=1(a,d)=1(b,d)=1(b,d)=1,也就是(ab,d)=1{(ab,d)=1}的情况.

\quad 通过将ap+b0 mod dap+b \equiv 0\ \textrm{mod}\ d化为(5.1),这下我们就可以心安理得地使用CRT了.

\quad 而CRT便告诉我们,ql mod k, qa1b mod dq \equiv l\ \textrm{mod}\ k,\ q \equiv -a^{-1}b\ \textrm{mod}\ d有解 (d,k)l+a1b\Leftrightarrow (d,k) \mid l + a^{-1}b,即(d,k)al+b(d,k) \mid al+b.

\quad 因此在(ab,d)=1, (d,k)al+b\color{red}(ab,d)=1,\ (d,k) \mid al+b的情况下,可以得到:

Ad={p:px,pl mod [d,k]}=π(x,[d,k],l)1[d,k]li(x)\displaystyle{ |\mathscr{A}_d| = |\{ p : p \le x, p \equiv l'\ \textrm{mod}\ [d,k] \}| = \pi(x, [d,k], l') \sim \frac{1}{[d,k]}\textrm{li}(x) }

Ad={p:px,pl mod [d,k]}=π(x,[d,k],l)1φ([d,k])li(x)=1ddφ(d)φ((d,k))li(x)φ(k)(3.2.5.3)\displaystyle{ \begin{align*} |\mathscr{A}_d| & = |\{ p : p \le x, p \equiv l'\ \textrm{mod}\ [d,k] \}| \\ & = \pi(x, [d,k], l') \\ & \sim \frac{1}{\varphi([d,k])}\textrm{li}(x) \\ & = \frac{1}{d} \frac{d}{\varphi(d)} \varphi((d,k)) \frac{\textrm{li}(x)}{\varphi(k)} \quad (3.2.5.3) \end{align*} }

Step 3(总结):

\quad 此时根据(3.2.5.1)和(3.2.5.3)和定义,便可以给出X, ω0(d)X,\ \omega_0(d)以及rdr_d的表达式.并且,要让X>1X > 1,那么对xx的要求为:φ(k)<li(x)\varphi(k) < \textrm{li}(x). \square

但是现在还没有结束!我们还可以考虑一下例5的特殊情况,也就是(abk,d)=1(abk, d) = 1的情况.此时有:

ω0(d)=dφ(d)\omega_0(d) = \frac{d}{\varphi(d)}

rd=π(x;dk,l)1dkli(x)r_d = \pi(x; dk, l') - \frac{1}{dk}\textrm{li}(x)

前面也说过,只有rdr_d尽可能的小,那么我们的筛法才算有效.那么对于上面选取出来的XXω0(d)\omega_0(d),我们的筛法是不是有效的呢?

现在定义一个误差上界:

定义:

E(x,q)=max2yx max1lq(l,q)=1π(y;q,l)1φ(q)li(y)(3.2.5.4)E(x,q) = \mathop{\textrm{max}}\limits_{\substack{2 \le y \le x}}\ \mathop{\textrm{max}}\limits_{\substack{1 \le l' \le q \\ (l', q)=1}} \left| \pi(y; q, l') - \frac{1}{\varphi(q)}\textrm{li}(y) \right| \quad (3.2.5.4)

这东西到底特殊在哪呢,竟然能独享尊号(3.2.5.4)?原因在于:

rdE(x,dk)|r_d| \le E(x, dk)

并且在第三章中,引理3.3便会告诉我们:E(x,q)E(x,q)相对于qq而言,就是很小的.这个就告诉了我们以上的筛法是有效的,这可就太重要了!

例子6

接下来再对例5进行推广!将A\mathscr{A}中的ap+bap+b换成F(p)F(p)(开始窒息).

其中FF是次数为gg的整系数多项式,ρ(d)\color{red}\rho(d)的定义也与例3一致,即:

ρ(d)={m:F(m)0 mod d}(3.2.6.1)\rho(d) = |\{m : F(m) \equiv 0\ \textrm{mod}\ d\}| \quad (3.2.6.1)

但在推导过程中,会出现两个与ρ\rho相关的函数,为了推导过程的简洁,先将定义摆放至此,进一步的性质将放在推导结束后的部分.

如果要求(3.2.6.1)中的解还必须和dd互素,这样就得到了ρ1(d)\color{red}\rho_1(d),即:

ρ1(d)={m:F(m)0 mod d,(m,d)=1}(3.2.6.2)\rho_1(d) = |\{m : F(m) \equiv 0\ \textrm{mod}\ d, (m,d) = 1\}| \quad (3.2.6.2)

接着,再要求(3.2.6.2)中的解还要像A\mathscr{A}有类似的结构,即模(d,k)(d,k)下与ll同余(当然,此处的kkll是根据A\mathscr{A}已经提前给定了),那么这样就得到了ρ1(d)\color{red}\rho_1^*(d),即:

ρ1(d)={m:F(m)0 mod d,ml mod (d,k),(m,d)=1}(3.2.6.3)\rho_1^*(d) = |\{m : F(m) \equiv 0\ \textrm{mod}\ d, m \equiv l\ \textrm{mod}\ (d,k), (m,d) = 1\}| \quad (3.2.6.3)

假设:

A={F(p):px,pl mod k} where (l,k)=1\mathscr{A}=\{ F(p) : p \le x, p \equiv l\ \textrm{mod}\ k \}\ where\ (l,k) = 1

则可得到的是:

X=li(x)φ(k)X = \frac{\textrm{li}(x)}{\varphi(k)}

ω0(d)=ρ1(d)φ((d,k))dφ(d)\omega_0(d) = \rho_1^*(d) \varphi((d,k)) \frac{d}{\varphi(d)}

rdρ(d){E(x,[d,k])+1}|r_d| \le \rho(d)\{ E(x,[d,k]) + 1 \}

简略推导如下:

\quad 仍然设μ(d)0\mu(d) \neq 0,则有:

Ad={p:px,pl mod k,F(p)0 mod d}=m=1F(m)0 mod dd{p:px,pl mod k,pm mod d}\begin{align*} |\mathscr{A}_d| & = |\{ p : p \le x, p \equiv l\ \textrm{mod}\ k, F(p) \equiv 0\ \textrm{mod}\ d \}| \\ & = \sum_{\substack{m = 1 \\ F(m) \equiv 0\ \textrm{mod}\ d}}^d |\{ p : p \le x, p \equiv l\ \textrm{mod}\ k, p \equiv m\ \textrm{mod}\ d \}| \end{align*}

\quad 接下来就是对这ρ(d)\rho(d)项进行分析,将摸鱼的项给剔除掉.这里和例5中的讨论方式差不多:

\qquad 1. 考虑同余式pm mod dp \equiv m\ \textrm{mod}\ d,有(m,d)p(m,d) \mid p.

因此在(m,d)>1(m,d) > 1时,此时对应的项则至多为11.鉴定为:摸鱼项!

\qquad 2. 其次仍然是CRT的使用,它告诉我们的是,{p:px,pl mod k,pm mod d}\{ p : p \le x, p \equiv l\ \textrm{mod}\ k, p \equiv m\ \textrm{mod}\ d \}有解 (d,k)ml\Leftrightarrow (d,k) \mid m-l,即ml mod (d,k)m \equiv l\ \textrm{mod}\ (d,k).

因此若ml mod (d,k)m \nmid l\ \textrm{mod}\ (d,k),则其对应的项为00.鉴定为:拉去小孩那桌!

\quad 因此我们可以得到:

Ad=m=1(m,d)=1F(m)0 mod dml mod (d,k)dπ(x;[d,k],h)+ϑρ(d)|\mathscr{A}_d| = \sum_{\substack{m = 1 \\ (m,d) = 1 \\ F(m) \equiv 0\ \textrm{mod}\ d \\ m \equiv l\ \textrm{mod}\ (d,k)}}^{d} \pi(x; [d,k], h) + \vartheta \rho(d)

\quad 其中0ϑ10 \le \vartheta \le 1,并且hh是利用CRT得到的,类似与例5中的ll'.

\quad 因此利用积性函数ρ1(d)\rho_1^*(d)便可以得到一个简便的形式:

Adρ1(d)φ([d,k])li(x)|\mathscr{A}_d| \approx \frac{\rho_1^*(d)}{\varphi([d,k])} \textrm{li}(x)

\quad 于是便可以得到XXω0(d)\omega_0(d)的表达式.同时再利用(3.2.5.4)以及ρ1(d)\rho_1^*(d)ρ(d)\rho(d)的关系,便可以得到rd|r_d|的估计式,而这个估计式也说明了我们的筛法是有效的. \square

可以发现的是,例6的推导过程看着虽然唬人,但其本质还是例5的推导思路.接下来该说的就是推导过程中ρ1(d)\rho_1^*(d)ρ(d)\rho(d)的关系了.

简而言之(其实都还比较好验证的,可能是经历例5例6磨练后的结果吧):

ρ1(p)\rho_1(p)进行考虑便得到:

ρ1(p)={ρ(p)pF(0)ρ(p)1pF(0)\rho_1(p) = \left\{ \begin{matrix} \rho(p) & p \nmid F(0) \\ \rho(p)-1 & p \mid F(0) \end{matrix}\right.

对于μ(d)0\mu(d) \neq 0dd,利用ρ1(d)\rho_1(d)的积性便可以得到了.并且还可以得到下面的关系:

ρ1(d)=ρ1(d(d,k))\rho_1^*(d) = \rho_1\left(\frac{d}{(d,k)}\right)

模仿在例4中的操作,在μ(d)0\mu(d) \neq 0ρ(p)<p\rho(p) < p的条件下,可得到:

ρ1(d)ρ(d)gυ(d)\rho_1(d) \le \rho(d) \le g^{\upsilon(d)}

终于!要开始进入新的一节了!其实熬过了这一节那六个『简单』的例子,接下来的内容可以说是相当友好的了.主要就是根据实际情况,我们需要对前面的符号进行一点点的调整,具体就是:ω0(d)ω(d)\omega_0(d) \to \omega(d),以及rdRdr_d \to R_d.但是在调整之前,对Sifting Set也还有几句话需要提及.

Sifting Set & Sifting Function

在筛法中,最重要的就是要减少无效计算,提高筛法的效率,而以下很多处理乍一感觉是『多此一举』,『徒增难度』的,但是从实际操作上来说,我们为了更准确的结果,而不得不舍弃一些易操作性.

那么,下面正式进入新的一节的内容!(终于不用处理一堆一堆的同余式了!!!🥳)

关于Sifting Set的一些补充

在筛法中,常常会给出一个足够大的正整数KK,那么Sifting set P\mathfrak{P}往往不会选择全体素数,而一般会取:

P=PK:={p:pK}\mathfrak{P} = \mathfrak{P}_K := \{ p : p \nmid K \}

而全体素数的集合往往记作P1\mathfrak{P}_1,而为了简便,定义Sifting set在全体素数中的补集为P\overline{\mathfrak{P}},即:

P=P1P\overline{\mathfrak{P}} = \mathfrak{P}_1 \setminus \mathfrak{P}

接下来,对于任意实数z2z \ge 2,我们定义:

P(z):=p<zpPpP(z) := \prod_{\substack{p < z \\ p \in \mathfrak{P}}} p

P(z)P(z)的重要性在于,对于aAa \in \mathscr{A},如果(a,P(z))>1(a, P(z)) > 1,那么aa就将被筛掉;但如果(a,P(z))=1(a, P(z)) = 1,那么aa就在尺度为zz的筛法下存活了下来.这个在开头便有提到,同时看二潘『哥德巴赫猜想』引言中的例子就有了更深的了解,因此不再展开了.

对于特殊的问题,Sifting set也会有点特殊.比如考虑素因子都是4k+14k+1形的数,则可令P={p:p=4k+3}\mathfrak{P}' = \{ p : p = 4k+3 \}.

对Sifting Function的一些修改
Sifting Function再出现!

其实Sifting function在很前边就已经出镜过了,即:

S(A;P,z):={a:aA,(a,P(z))=1}(4.2.1.1)S(\mathscr{A}; \mathfrak{P}, z) := \{ a : a \in \mathscr{A}, (a, P(z)) = 1 \} \quad (4.2.1.1)

同时,在第三节中,已经能够看到Ad\mathscr{A}_d的重要性了(有时A|\mathscr{A}|还得通过Ad\mathscr{A}_d来获取信息),因此还有:

S(Ad;P,z):={a:aAd,(a,P(z))=1}(4.2.1.2)S(\mathscr{A}_d; \mathfrak{P}, z) := \{ a : a \in \mathscr{A}_d, (a, P(z)) = 1 \} \quad (4.2.1.2)

这里将(4.2.2)单独写一行,是为了强调其条件,那就是:

μ(d)0,(d,P(z))=1,(d,P)=1\mu(d) \neq 0, (d, P(z)) = 1, (d, \overline{\mathfrak{P}}) = 1

根据问题修改Sifting Function

对某些问题而言,我们可能得对Sifting function做一些修改,使得我们能够得到更精细的结论.例如以与孪生素数猜想相近的一个例子:

S({n(n+2):nx};P1,z):={n(n+2):nx,(n(n+2),p<zp)=1}S(\{ n(n+2) : n \le x \}; \mathfrak{P}_1, z) := \left|\left\{ n(n+2) : n \le x, \left(n(n+2), \prod_{p < z}p\right) = 1 \right\}\right|

利用这个Sifting function,实际上也只能得到类似于『a+b5a + b \le 5』的这样的结论.但是,如果将它的表达形式稍作修改:

S({p+2:px};P1,z):={p:z2px,p+2=p}S(\{ p + 2 : p \le x \}; \mathfrak{P}_1, z) := \left|\left\{ p : z-2 \le p \le x, p + 2 = p' \right\}\right|

那么这样我们就能进一步得到更精细的结果,类似于『1+31 + 3』这样的结论,这无疑是很重要的成果.

Sifting Function新符号的引入

以及在引入S(Ad;P,z)S(\mathscr{A}_d; \mathfrak{P}, z)后,我们也需要进一步对ω0(d)\omega_0(d)rdr_d做一定的调整了,修改后记作ω(d)\omega(d)RdR_d,其中对ω0(d)\omega_0(d)的修改是比较容易的:

ω(p)={ω0(p)pP0pP\omega(p) = \left\{ \begin{matrix} \omega_0(p) & p \in \mathfrak{P} \\ 0 & p \in \overline{\mathfrak{P}} \end{matrix} \right.

并且令ω(1)=1\omega(1) = 1,于是对于μ(d)0\mu(d) \neq 0而言,得到:

ω(d)=pdω(d)\omega(d) = \prod_{p \mid d}\omega(d)

那么rdr_d也得跟着改变,在μ(d)0\mu(d) \neq 0的情况下,其定义仍然是:

Rd:=Adω(d)dXR_d := |\mathscr{A}_d| - \frac{\omega(d)}{d} X

因此可知发现的是,在(d,P)>1(d, \overline{\mathfrak{P}}) > 1的情况下,RdR_d并不代表余项,此时其值就是Ad|\mathscr{A}_d|.但是在筛法的过程中,这个往往并不会纳入考虑的范畴,因此对实际操作而言,反而还会提高效率.因为引入ω(d)\omega(d)后就不需要注意(d,P)=1(d, \overline{\mathfrak{P}}) = 1的这个条件了.

一些很重要的条件

现在我们还需要对ω(d)\omega(d)RdR_d提一定的要求,而这些条件在后续会不断出现!

首先是对于某个合适的常数A1A_1有以下这个很基本的条件:

假设:

变形后就是更常见的形式:

条件(Ω1)(\Omega_1)的作用便是控制ω(d)\omega(d)的构造,限制余项的增长.当然这个条件一般也只要求对足够大的素数都成立即可.

在Legendre对π(x)\pi(x)的估计式中,还有以下两个很强的条件:

假设:

以及在μ(d)0\mu(d) \neq 0,并且(d,P)=1(d,\overline{\mathfrak{P}}) = 1的情况下,假设:

容易知道的是,(Ω0)(\Omega_0)是比(Ω1)(\Omega_1)更强的条件.并且条件®实际上也是对余项进行了控制.

在满足(R)(R)(Ω1)(\Omega_1)的情况下:

RdA0υ(d)|R_d| \le A_0^{\upsilon(d)}

从而可以得到的是:

dP(z)RddP(z)A0υ(d)=pP(z)(1+A0)(1+A0)π(z)(1+A0)z(4.2.4.1)\begin{align*} \sum_{d \mid P(z)} |R_d| & \le \sum_{d \mid P(z)} A_0^{\upsilon(d)} \\ & = \prod_{p \mid P(z)}(1 + A_0) \\ & \le (1 + A_0)^{\pi(z)} \\ & \le (1 + A_0)^z \end{align*} \quad (4.2.4.1)

而这个估计式在最后一节中就会用到,这也就是为什么Erathosthenes筛法基本无效的原因了.

定义一些常用的结构式

本节的最后一块内容,也是一个铺垫性的工作,那就是对后续将会频繁出现的式子,我们索性给它们一个固定的符号,其实也是为了后面表述的简单而不得不做的事了(数学符号定义属性大爆发第二集):

定义W(z)W(z):

W(z):=p<z(1ω(p)p)(4.2.5.1)W(z) := \prod_{p < z}\left( 1 - \frac{\omega(p)}{p} \right) \quad (4.2.5.1)

同样的在μ(d)0\mu(d) \neq 0时,定义g(d)g(d):

g(d):=ω(d)dpd(1(ω(p)/p))(4.2.5.2)g(d) := \frac{\omega(d)}{d \prod\limits_{p \mid d}(1 - (\omega(p) / p))} \quad (4.2.5.2)

很明显,W(z)W(z)以及g(d)g(d)将会和(Ω1)(\Omega_1)等条件息息相关.因此g(d)g(d)也会频频出现,因此也还有一些关于g(d)g(d)的式子常常出现.

定义G(z)G(z):

G(z):=d<zμ2(d)g(d)(4.2.5.3)G(z) := \sum_{d < z} \mu^2(d) g(d) \quad (4.2.5.3)

定义G(x,z)G(x,z):

G(x,z):=d<xdP(z)g(d)(4.2.5.4)G(x,z) := \sum_{\substack{d < x \\ d | P(z)}} g(d) \quad (4.2.5.4)

容易知道,在zxz \ge x时,G(x,z)=G(x)G(x,z) = G(x).因此更特殊地有:G(z,z)=G(z)G(z,z) = G(z).

最后还有一个关于素数的重要乘积式:

定义V(z)V(z):

V(z):=p<z(11p)(4.2.5.5)V(z) := \prod_{p < z}\left( 1-\frac{1}{p} \right) \quad (4.2.5.5)

Sieve of Erathosthenes-Legendre

接下来也是Halberstam第一章的最后一节内容了!!!(当然,得去掉NOTES部分)

在这一节中,最重要的就是定理1了,后面就是对定理1的一个最简单直接的应用:Legendre对π(x)\pi(x)的一个上界估计.

假设μ(q)0,(q,P(z))=1\mu(q) \neq 0,(q, P(z))=1.利用Mobius函数,我们能对Sifting function有以下的操作:

S(Aq;P,z)=aAq dadP(z)μ(d)=dP(z)μ(d)aAa0 mod qd1=dP(z)μ(d)Aqd=dP(z)μ(d){ω(qd)qdX+Rqd}\begin{align*} S(\mathscr{A}_q; \mathfrak{P}, z) & = \sum_{a \in \mathscr{A}_q}\ \sum_{\substack{d \mid a \\ d \mid P(z)}} \mu(d) \\ & = \sum_{d \mid P(z)} \mu(d) \sum_{\substack{a \in \mathscr{A} \\ a \equiv 0\ \textrm{mod}\ qd}} 1 \\ & = \sum_{d \mid P(z)} \mu(d) |\mathscr{A}_{qd}| \\ & = \sum_{d \mid P(z)} \mu(d) \left\{ \frac{\omega(qd)}{qd} X + R_{qd} \right\} \end{align*}

再利用ω(d)\omega(d)是一个积性函数,并且有:

dP(z)μ(d)ω(d)d=p<zpP(1ω(p)p)=p<z(1ω(p)p)\sum_{d \mid P(z)} \mu(d) \frac{\omega(d)}{d} = \prod_{\substack{p < z \\ p \in \mathfrak{P}}} \left( 1 - \frac{\omega(p)}{p} \right) = \prod_{\substack{p < z}} \left( 1 - \frac{\omega(p)}{p} \right)

因此结合上面两个式子便可以得到:

定理1.1:

S(Aq;P,z)=ω(q)qXW(z)+θdP(z)RqdS(\mathscr{A}_q; \mathfrak{P}, z) = \frac{\omega(q)}{q} X W(z) + \theta \sum_{d \mid P(z)} |R_{qd}|

\quad 如果还满足条件(R)(R)(Ω0)(\Omega_0)的话,利用(4.2.4.1)(4.2.4.1)即有:

S(A;P,z)=XW(z)+θ(1+A0)zS(\mathscr{A}; \mathfrak{P}, z) = X W(z) + \theta (1 + A_0)^z

\quad 其中θ1|\theta| \le 1.

因此从上面便可以看到,只有在zz很小的情况下,余项(1+A0)z(1+A_0)^z才能被控制在可接受的范围内.

实际上,当z>logXlog2loglogXz > \dfrac{\log X}{\log 2} \log\log X时,我们已经不能得到有效的结果了.

接下来我们来看定理1.1的应用,即Legendre对π(x)\pi(x)的上界估计:

\quadA={n:nx}\mathscr{A} = \{ n : n \le x\},以及Sifting set为P1\mathfrak{P}_1,于是:

S({n:nx};P1,z)={n:nx,(n,p<zp)=1}xp<z(11p)+2z=xV(z)+2z\begin{align*} S(\{ n : n \le x\}; \mathfrak{P}_1, z) & = \left| \left\{ n : n \le x,\left( n, \prod_{p < z} p \right) = 1 \right\} \right| \\ & \le x \prod_{p < z} \left( 1 - \frac{1}{p} \right) + 2^z \\ & = x V(z) + 2^z \end{align*}

\quad 与此同时,容易得知:V(z)1logzV(z) \ll \dfrac{1}{\log z},因此有:

π(x)S({n:nx};P1,z)+zxlogz+2z\pi(x) \le S(\{ n : n \le x\}; \mathfrak{P}_1, z) + z \ll \frac{x}{\log z} + 2^z

\quad 最后取z=logxz = \log x便可以得到:

π(x)xloglogx\pi(x) \ll \frac{x}{\log\log x}

\quad 从而得到了Legendre的结果. \square

总结

至此,Halberstam的第一章内容顺利结束!起飞!!!

只能说本次工程巨大,代码达到了700行,用时也特别特别久(虽然中间休整了一周).😥

但是接下来的任务也还不少.比如说Halberstam的第二章也该开始了;以及接下来要看孪生素数猜想方面的三篇重要论文;以及期末考试.😫😫😫

接下来应该也要多线作战了.GPY这篇论文的翻译应该可以提上日程了,毕竟也看了差不多1/4了.以及Halberstam的书确实写得好,想继续学习.其中初等数论可能确实得加以训练才行了.

总之,冲就完了!!!

参考资料

[1] Halberstam, Richert. Sieve Methods[M]. Dover Publications, 2011. P12-P36.

[2] 潘承洞, 潘承彪. 哥德巴赫猜想, 第二版[M]. 科学出版社, 2011. P15-P23.

[3] 柯召, 孙琦. 数论讲义, 上册, 第二版[M]. 高等教育出版社, 2001.

[4] 潘承洞, 潘承彪. 初等数论, 第三版[M]. 北京大学出版社, 2013.

[5] [英]Hardy, [英]Wright. 哈代代数[M]. 张明尧, 张凡. 人民邮电出版社, 2021.