引言

决定了,还是先花最少的时间,先把Halberstam的第二章速速解决掉.毕竟已经是上个月就已经学习完的内容,并且经过上一篇文章的洗礼,我觉得我对Brun筛法又有了一些新的认识了.这次尽量还是压缩一些篇幅,以记录下一些关键要点为主吧规划一下内容后感觉已经是奢望了.😰

其中对于Brun定理的推论–也就是所有孪生素数的倒数之和是收敛的–这个我已经在围绕Brun定理展开的素数指标求和估计式中已经解释完了,而本章最主要的目的便是,为什么对于π2(x)\pi_2(x)的估计是正确的?即根据Brun’s pure sieve来证明

π2(x)xlog2x(loglogx)2.\pi_2(x) \ll \frac{x}{\log^2 x} (\log\log x)^2.

其中π2(x)\pi_2(x)的定义就在前面的博客首段就有介绍,以及在筛法的顶峰之一 – 陈景润定理开头提到的,用Brun’s sieve来证明命题"7+7"和"1+7".

当然最重要的还是组合筛法的概念和要点,以及一些重要的条件–其实说的就是你,Ω2(κ)\Omega_2(\kappa).

在此过程中,我也会参考Terence Tao博客上的一些内容.因此可能会有一些符号上对应不上的情况.

那么我们就正式开始组合筛法的旅途了!!!

一般的筛法

Terence Tao的表述方式

以下内容几乎都来自于Terence Tao的博客[2]^{[2]}.以下就描述一下最一般的筛法问题(对应于Tao博客中的Problem 3,以下只是一个翻译).

问题1(一般筛法问题):

\quadPP是无平方因子的数,D={d:dP}D = \{ d: d | P\}.而对于PP的任意一个素因子pp,设EpE_p是一些整数的集合,并且对于dDd \in D,定义Ed:=pdEpE_d := \bigcap_{p | d} E_p,并规定E1=ZE_1 = \mathbb{Z}.

\quad 再令(an)nZ(a_n)_{n \in \mathbb{Z}}是一系列未知,非负,有限支撑(finitely supported)的实数,但dD\forall d \in D,Xd:=nEdanX_d := \sum_{n \in E_d} a_n已知的.

\quad 那么筛法问题便是估计

nZan1n∉pPEp(2.1.1)\sum_{n \in \mathbb{Z}} a_n \mathbf{1}_{n \not\in \bigcup_{p | P} E_p} \quad (2.1.1)

\quad 的最优的上下界.

其中,XdX_d有另一种更常用的表示形式,而这与Halberstam书上的形式更为接近:

Xd=nEdan=g(d)X+rd,X_d = \sum_{n \in E_d} a_n = g(d)X + r_d,

其中XX是独立于dd的一个数,而0g(d)10 \le g(d) \le 1.

而在Tao的博客中,所有的筛法都是几乎奔着孪生素数猜想去的,因此此时问题1中的EpE_p取的是所有模pp002-2的数的集合.而我们也可以按照需求,对EpE_p进行修改.且对于很多问题的描述而言,往往有an=1nAa_n = \mathbf{1}_{n \in A},而AA就是被筛集(在Halberstam中就是A\mathscr{A}),但是这对于上下界的估计而言往往又是十分困难的,因此我们会对(an)(a_n)进行一些处理.于是Tao又介绍了问题1的对偶形式(对应于Tao博客中的Theorem 5).

问题2(对偶筛法问题):

\quad 在问题1可行,也就是(an)nZ(a_n)_{n \in \mathbb{Z}}存在的情况下,我们定义一个上界筛为

ν+=dDλd+1Ed,\nu^{+} = \sum_{d \in D} \lambda_d^{+} \mathbf{1}_{E_d},

\quad 其中λd+R\lambda_d^{+} \in \mathbb{R},并且满足

ν+1n∉pPEp(n), nZ.(2.1.2)\nu^{+} \ge \mathbf{1}_{n \not\in \bigcup_{p | P} E_p} (n),\ \forall n \in \mathbb{Z}.\quad (2.1.2)

\quad 类似的,我们也可以定义下界筛为

ν=dDλd1Ed,\nu^{-} = \sum_{d \in D} \lambda_d^{-} \mathbf{1}_{E_d},

\quad 其中λdR\lambda_d^{-} \in \mathbb{R}(λd\lambda_d^{-}可以取到负数),并且满足

ν1n∉pPEp(n), nZ.(2.1.3)\nu^{-} \le \mathbf{1}_{n \not\in \bigcup_{p | P} E_p} (n),\ \forall n \in \mathbb{Z}.\quad (2.1.3)

\quad 于是我们问题1中求(2.1.1)的最优上下界问题转化为求dDλd+Xd\sum_{d \in D} \lambda_d^{+} X_d的下确界与dDλdXd\sum_{d \in D} \lambda_d^{-} X_d的上确界问题.

当问题1可行的情况下,问题2中的λd±\lambda_d^{\pm}是必然存在的,因为有最平凡的情况,也就是λd+(n)=1\lambda_d^{+}(n) = 1以及λd(n)=0\lambda_d^{-}(n) = 0.而我们很多的筛法工具,实际上就是对λd±\lambda_d^{\pm}有一个不同的选取,而组合筛法,就是λd±\lambda_d^{\pm}只取{1,0,1}\{ -1, 0, 1 \}情况下对应的筛法理论.

Halberstam的表述方式

接下来我就按照Halberstam书上的内容,其对(an)nZ=1A(a_n)_{n \in \mathbb{Z}} = \mathbf{1}_{\mathscr{A}}的情况进行更加细致的讨论,而这部分的一些符号与结论可以参考前面的筛法读书笔记,最后我再回过头来尝试与Tao的观点统一起来.

筛法读书笔记(Sieve Methods by Halberstam) – 筛函数与一些经典筛法例子的最后,我们证明了[定理1.1],其中使用到了

σ0(n):=dnμ(d),\sigma_0(n) := \sum_{d | n} \mu(d),

最终我们得到了

S(A;P,z)=dP(z)μ(d)Ad.(2.2.1)S(\mathscr{A}; \mathfrak{P}, z) = \sum_{d | P(z)} \mu(d) |\mathscr{A}_d|.\quad (2.2.1)

而我们现在将对其进行一定程度的推广,而我们的方法是,对σ0(n)\sigma_0(n)进行一定程度的弱化,更方便于我们的估计.于是,我们定义

σ(n):=dnμ(d)χ(d), σ(1)=χ(1)=1,(2.2.2)\sigma(n) := \sum_{d | n} \mu(d) \chi(d),\ \sigma(1) = \chi(1) = 1,\quad (2.2.2)

其中χ(n)\chi(n)是积性函数,于是由Mobius反演,我们有

μ(d)χ(d)=δdμ(dδ)σ(δ),(2.2.3)\mu(d) \chi(d) = \sum_{\delta | d} \mu\left( \frac{d}{\delta} \right) \sigma(\delta),\quad (2.2.3)

并且对于任意pnp | n,我们可以得到有

σ(n)=ln/pμ(l)(χ(l)χ(pl)).(2.2.4)\sigma(n) = \sum_{l | n/p} \mu(l) (\chi(l) - \chi(pl)).\quad (2.2.4)

而(2.2.4)将为我们组合筛法中χ(n)\chi(n)的结构提出一些至关重要的要求.

而我们此处利用(2.2.3)计算dP(z)μ(d)χ(d)Ad\sum_{d | P(z)} \mu(d) \chi(d) |\mathscr{A}_d|,将其与(2.2.1)对比,我们便得到有

S(A;P,z)=dP(z)μ(d)χ(d)Ad1<dP(z)σ(d)S(Ad;P(d),z),(2.2.5)S(\mathscr{A}; \mathfrak{P}, z) = \sum_{d | P(z)} \mu(d) \chi(d) |\mathscr{A}_d| - \sum_{1 < d | P(z)} \sigma(d) S(\mathscr{A_d}; \mathfrak{P}^{(d)}, z),\quad (2.2.5)

其中P(d)={p:pP,pd}\mathfrak{P}^{(d)} = \{ p : p \in \mathfrak{P}, p \nmid d \}.

接下来再介绍几个定义.我们定义q(d)q(d)dd最小的素因子,并且规定q(1)=q(1) = \infty,其次定义

Pz1,z=pPz1p<zp=P(z)P(z1), 2z1z,P_{z_1, z} = \prod_{\substack{p \in \mathfrak{P} \\ z_1 \le p < z}} p = \frac{P(z)}{P(z_1)},\ 2 \le z_1 \le z,

接着讲(2.2.4)代入到(2.2.5)中,我们最终可以得到以下一些很重要的结论:

命题3:

\quad 符号含义如上所述,我们可以得到有

\quad 特别地,我们取χ(1)=1, χ(d)=0 d>1\chi(1) = 1,\ \chi(d) = 0\ \forall d > 1,可以得到

S(A;P,z)=Ap<zpPS(Ap;P,p).(2.2.7)S(\mathscr{A}; \mathfrak{P}, z) = |\mathscr{A}| - \sum_{\substack{p < z \\ p \in \mathfrak{P}}} S(\mathscr{A}_p; \mathfrak{P}, p).\quad (2.2.7)

\quad 而在后边的内容中(不在本章),我们基于(2.2.7)还会证明以下更强的结论:

S(A;P,z)=S(A;P,z1)z1p<zpPS(Ap;P,p), 2z1z.S(\mathscr{A}; \mathfrak{P}, z) = S(\mathscr{A}; \mathfrak{P}, z_1) - \sum_{\substack{z_1 \le p < z \\ p \in \mathfrak{P}}} S(\mathscr{A}_p; \mathfrak{P}, p),\ 2 \le z_1 \le z.

可以发现的是,命题3中的三个结论都是将一个大小为zz的筛变成有限个大小为pp的筛,筛的大小一下子降了下来,在某种程度上对于余项的控制也更加有利了.并且其还有另外一个很重要的作用,那就是我们能够由S(Ap;P,p)S(\mathscr{A}_p; \mathfrak{P}, p)的上界筛得到S(A;P,z)S(\mathscr{A}; \mathfrak{P}, z)的下界筛,而这种方法也是极为一种有效并且简便的方法了.

但是在这里,我们还可以通过一些稍微复杂亿点点的小手段同时得到上下界的估计.而这就是对σ(n)\sigma(n)进行一些限制与要求,现在我们引入满足(2.2.2)的σ1\sigma_1σ2\sigma_2,以下简记为σv, v=1,2\sigma_v,\ v = 1, 2,使得其满足

σ2(d)σ0(d)σ1(d), dP(z),\sigma_2(d) \le \sigma_0(d) \le \sigma_1(d),\ \forall d | P(z),

实际上也就是

(1)v1σv(d)0, d1, dP(z),(-1)^{v-1}\sigma_v(d) \le 0,\ \forall d \ge 1,\ d | P(z),

可以发现,上面的式子实际上与Tao中的(2.1.2)和(2.1.3)说的也是一回事.

紧接着,代入(2.2.6),我们得到了

(1)v1μ(d)(χv(d)χv(pd))0,(2.2.8)(-1)^{v-1} \mu(d) (\chi_v(d) - \chi_v(pd)) \ge 0,\quad (2.2.8)

其中pdP(z), p<q(d)pd | P(z),\ p < q(d),再由上一篇读书笔记中的假设

Ad=ω(d)dX+Rd,|\mathscr{A}_d| = \frac{\omega(d)}{d} X + |R_d|,

代入后我们便可以得到筛函数的一个上下界估计:

命题4:

\quad 我们可以得到筛函数的一个上下界为

XpP(z)μ(d)χ2(d)ω(d)ddP(z)χ2(d)RdS(A;P,z)XpP(z)μ(d)χ1(d)ω(d)d+dP(z)χ1(d)Rd.(2.2.9)\begin{split}\displaystyle X \sum_{p | P(z)} \mu(d) \chi_2(d) \frac{\omega(d)}{d} - \sum_{d | P(z)} |\chi_2(d)||R_d| \le S(\mathscr{A}; \mathfrak{P}, z) \\ \\ \le X \sum_{p | P(z)} \mu(d) \chi_1(d) \frac{\omega(d)}{d} + \sum_{d | P(z)} |\chi_1(d)||R_d|. \quad (2.2.9) \end{split}

\quad 而在Ω1\Omega_1条件下,我们可以得到

dPμ(d)χv(d)ω(d)d=W(z)(1+1<δP(z)σv(δ)g(δ)),(2.2.10)\sum_{d | P} \mu(d) \chi_v(d) \frac{\omega(d)}{d} = W(z) \left( 1 + \sum_{1 < \delta | P(z)} \sigma_v(\delta) g(\delta) \right),\quad (2.2.10)

\quad 而其中W(z)W(z)g(z)g(z)的表达式在之前的读书笔记中可以找到.

\quad 于是我们现在的目的就是让

dP(z)χv(d)Rd(2.2.11)\sum_{d | P(z)} |\chi_v(d)| |R_d| \quad (2.2.11)

\quad 充分小的同时,使得

1<δP(z)σv(σ)g(σ)(2.2.12)\left|\sum_{1 < \delta | P(z)} \sigma_v(\sigma) g(\sigma) \right| \quad (2.2.12)

\quad 也足够小.

\quad 而且为了得到一个正的下界,我们再要求

1+1<δP(z)σ2(δ)g(δ)>0.(2.2.13)1 + \sum_{1 < \delta | P(z)} \sigma_2(\delta) g(\delta) > 0. \quad (2.2.13)

而要满足(2.2.11)-(2.2.13),尤其是(2.2.13),是一个相当困难的问题,我们还需要对χv\chi_v提出更多的要求.而当χv(n)\chi_v(n)只能取{0,1}\{0, 1\}时,这种情况下的筛法理论便称之为组合筛法.Tao中的λd±\lambda_d^{\pm}差不多就是μ(d)χv(d)\mu(d) \chi_v(d),因此这两者本质上的内涵与想法是一致的.

组合筛法的一些细节要点

现在我们来完善一下组合筛法中χv\chi_v还需要满足的一些条件.首先,我们定义

Dv={d:dP(z),d<yv},\mathscr{D}_v = \{ d : d | P(z), d < y_v \},

其中yvy_v是未知的.实际上,对于Brun纯筛法而言,我们需要Dv\mathscr{D}_v是thin的,用现代筛法的观点来看,我们需要对Eratosthenes-Legendre筛法的权函数–也就是dZμ(d)\sum_{d \in \mathbb{Z}} \mu(d),进行截断(这只是我目前的一点认识,可能不对).此外,χv\chi_v取值为11的数应该得落在Dv\mathscr{D}_v,但不要求是整个集合.

此外,若有pdP(z), p<q(d)pd | P(z),\ p < q(d),那么χv(qd)\chi_v(qd)χv(d)\chi_v(d)的取值之间还需要满足(2.2.8)的要求.我们将这些条件总结如下:

定义5:

\quad 满足以下条件的χv\chi_v能引导出一个组合筛法:

χv(1)=1,(2.3.1)\chi_v(1) = 1, \quad (2.3.1)

χv(d)=1 or 0, if dP(z),(2.3.2)\chi_v(d) = 1 \text{ or } 0, \text{ if } d | P(z), \quad (2.3.2)

χv(d)=1χv(t)=1, td,dP(z),(2.3.3)\chi_v(d) = 1 \Rightarrow \chi_v(t) = 1,\ \forall t | d, d | P(z), \quad (2.3.3)

χv(d)=1, μ(d)=(1)vχv(pt)=1, ptP(z),p<q(d).(2.3.4)\chi_v(d) = 1,\ \mu(d) = (-1)^{v} \Rightarrow \chi_v(pt) = 1,\ \forall pt | P(z), p < q(d). \quad (2.3.4)

\quad 并且容易验证的是,(2.3.1)-(2.3.4)可以浓缩为以下一个条件式:

χv(t)χv(pt)=(1)v1μ(t)χv(t)(1χv(pt)). ptP(z),p<q(d).(2.3.5)\chi_v(t) - \chi_v(pt) = (-1)^{v-1} \mu(t) \chi_v(t) (1 - \chi_v(pt)).\ \forall pt | P(z), p < q(d). \quad (2.3.5)

我们再定义p+p^+p在P\mathfrak{P}中的下一个素数,然后我们便可以证得比(2.2.10)更精细的结果,即在Ω1\Omega_1的条件下,我们有

dPμ(d)χv(d)ω(d)d=W(z)+(1)v1p<zω(p)W(p)ptPp+,zχv(t)(1χv(pt))tω(t). (2.3.6)\begin{split} & \sum_{d | P} \mu(d) \chi_v(d) \frac{\omega(d)}{d} = W(z) + (-1)^{v-1} \sum_{p < z} \frac{\omega(p) W(p)}{p} \sum_{t | P_{p^+, z}} \frac{\chi_v(t)(1 - \chi_v(pt))}{t} \omega(t).\ (2.3.6) \end{split}

现在,我们对(2.3.6)中的第二部分至少有一个可以研究的手段了.

Brun纯筛法

前面也说了,Brun纯筛法中的λd±\lambda_d^{\pm}是在对dZμ(d)\sum_{d \in \mathbb{Z}} \mu(d)做截断,更具体地,对于dDd \in D,我们定义

λd:=1ν(d)kμ(d),\lambda_d := \mathbf{1}_{\nu(d) \le k} \mu(d),

则可以知道的是,当kk为偶数的时候上述定义给出了一个上界筛系数,而在kk为奇数时给出了一个下界筛系数.而ν(d)k\nu(d) \le k就是一种截断,它可以在一定程度上让余项的大小不会太大.而这也能说明,为什么Brun筛法是对Eratosthenes筛法最简单最直接的改进了.

而我们用Halberstam的语言来说,我们也就是定义

D(r):={d:dP(z),ν(d)r1},(3.1)\mathscr{D}^{(r)} := \{ d : d | P(z), \nu(d) \le r - 1 \},\quad (3.1)

χ(r)\chi^{(r)}D(r)\mathscr{D}^{(r)}上的示性函数.并且令χv=χ(2s+v)\chi_v = \chi^{(2s + v)},可以验证其确实满足组合筛法中(2.3.5)的条件,于是我们可以得到

dP(z)ν(d)2s+1μ(d)AdS(A;P,z)dP(z)ν(d)2sμ(d)Ad,(3.2)\sum_{\substack{ d | P(z) \\ \nu(d) \le 2s + 1 }} \mu(d) |\mathscr{A}_d| \le S(\mathscr{A}; \mathfrak{P}, z) \le \sum_{\substack{ d | P(z) \\ \nu(d) \le 2s }} \mu(d) |\mathscr{A}_d|, \quad (3.2)

或者可以表示为

S(A;P,z)=dP(z)ν(d)r1μ(d)Ad+θdP(z)ν(d)=rAd, θ1.(3.3)S(\mathscr{A}; \mathfrak{P}, z) = \sum_{\substack{ d | P(z) \\ \nu(d) \le r - 1 }} \mu(d) |\mathscr{A}_d| + \theta \sum_{\substack{ d | P(z) \\ \nu(d) = r }} |\mathscr{A}_d|,\ |\theta| \le 1.\quad (3.3)

而我们现在需要就(2.2.9),(2.2.10)以及(2.3.6)的形式,对我们选取的χv\chi_v进行进一步的计算.首先就是极具组合风格的

σ(k):=dnν(d)k1μ(d)=(1)k1(v1k1),\sigma^{(k)} := \sum_{\substack{ d | n \\ \nu(d) \le k - 1}} \mu(d) = (-1)^{k - 1} \binom{v-1}{k-1},

于是得到有

σ(r)(n)(ν(n)r), n>1,|\sigma^{(r)}(n)| \le \binom{\nu(n)}{r},\ \forall n > 1,

再利用收敛级数和,暴力放缩,大胆估计等一些简单的计算,我们最终得到

命题6:

\quadΩ0,Ω1\Omega_0,\Omega_1RR的条件下,我们有

S(A;P,z)=XW(z)(1+θ(λe1+λ)(A0A1/λ)(loglogz+1))+θz(A0A1/λ)(loglogz+1),(3.4)\begin{split}S(\mathscr{A}; \mathfrak{P}, z) = X W(z) & \left(1 + \theta(\lambda \text{e}^{1+\lambda})^{(A_0A_1/\lambda) \cdot (\log\log z + 1)} \right) \\ \\ & + \theta' z^{(A_0A_1/\lambda) \cdot (\log\log z + 1)}, \quad (3.4)\end{split}

\quad 其中A0, A1A_0,\ A_1是绝对常数,θ|\theta|,θ1|\theta'| \le 1,且

0<λe1+λ1.0 < \lambda \text{e}^{1 + \lambda} \le 1.

\quad 特别地,当我们取logzlogX\log z \le \sqrt{\log X},以及取

1λ=12A0A1logXlogz(loglogz+1),\frac{1}{\lambda} = \frac{1}{2A_0A_1} \frac{\log X}{\log z (\log\log z + 1)},

\quad 此时(3.4)可以写成

S(A;P,z)=XW(z)(1+θelogX)+θX12.(3.5)S(\mathscr{A}; \mathfrak{P}, z) = X W(z) \left( 1 + \theta \text{e}^{- \sqrt{\log X}} \right) + \theta' X^{\frac{1}{2}}.\quad (3.5)

回顾我们之前的Eratosthenes-Legendre筛法,在那里我们的zz只能取loglogX\log\log X阶,而我们仅仅只做了一次简单的截断(虽然计算的过程有点煎熬),我们此时的zz已经可以取到logX\log X的任意幂次了,虽然仍然是XX的小量,不足以解决任何一个Landau问题(事实上目前也没有解决任何一个),但已经是一个足够大的突破了.

在本节的最后,我们正式将理论投入使用,那就是Brun如何用他的纯筛法击落(并非击落)孪生素数猜想.

注意到(这个Anon应该也没问题):

π2(x)S({n(n+2):nx};P1,z)+z,|\pi_2(x)| \le S(\{ n(n+2) : n \le x \}; \mathfrak{P}_1, z) + z,

而根据筛法读书笔记(Sieve Methods by Halberstam) – 筛函数与一些经典筛法例子的例子4可得到我们此处筛函数的基本结构,于是我们可以有

定理7(Brun定理):

\quad 对于孪生素数问题,我们可以得到

π2(x)x2<p<z(12p)+z24(loglogz+1).\pi_2(x) \ll x \prod_{2 < p < z} \left( 1 - \frac{2}{p} \right) + z^{24(\log\log z + 1)}.

\quad 当我们取

logz=125logxloglogx,\log z = \frac{1}{25} \frac{\log x}{\log\log x},

\quad 我们有

π2(x)xlog2x(loglogx)2.\pi_2(x) \ll \frac{x}{\log^2 x} (\log\log x)^2.

\quad 并由此可以推出所有孪生素数的倒数之和是收敛的.这个推论更详细的证明过程见围绕Brun定理展开的素数指标求和估计式.

Brun筛法

Brun筛法与Brun纯筛法虽然只有一字之差,但是前者作为后者的拓展,作用要更大,并且由此能导出筛法基本引理(能加上基本两字的定理都不是什么等闲之辈).但是在此之前,我们需要对一些条件进行一些稍稍地推广.

条件的推广

首先我们便先引入一个十分重要的条件,其可以反映筛法的某种均匀性(an “average” kind,我也不太清楚该怎么更好的表达):

定义8:

\quad 我们定义条件Ω2(κ)\Omega_2(\kappa)

\quad 其中κ\kappa为一个正的常数,而A2A_2为一个不小于11的绝对常数.

而我们先前定义的Ω0\Omega_0是要比Ω2(κ)\Omega_2(\kappa)更强的条件.而在κ=1\kappa = 1时,我们称此时的筛法为线性筛法,此时有一些另外的方法可以更高效地得到我们想要的结果.以下我们就来介绍条件ω2(κ)\omega_2(\kappa)的作用.

\quadω(p)\omega(p)满足Ω2(κ)\Omega_2(\kappa)时,我们可以得到

p<zω(p)(κ+A2)liz+2A2log2A(2liz+3),(4.1.1)\sum_{p < z} \omega(p) \le (\kappa + A_2) \text{li} z + \frac{2A_2}{\log 2} \le A(2\text{li} z + 3),\quad (4.1.1)

\quad 其中A=maxκ,A2A = \max{\kappa, A_2}.而当ω(p)\omega(p)同时Ω1\Omega_1Ω2(κ)\Omega_2(\kappa)时,我们还有以下的估计:

wpzg(p)κloglogzlogw+O(1logw),(4.1.2)\sum_{w \le p \le z}g(p) \le \kappa \log \frac{\log z}{\log w} + O\left( \frac{1}{\log w} \right),\quad (4.1.2)

\quad 从而由上式可以得到的是:

W(w)W(z)=O(logκzlogκw),(4.1.3)\frac{W(w)}{W(z)} = O\left( \frac{\log^{\kappa} z}{\log^{\kappa} w} \right),\quad (4.1.3)

\quad 特别地,我们有

1W(z)=O(logκz).(4.1.4)\frac{1}{W(z)} = O(\log^{\kappa} z).\quad (4.1.4)

而上述(4.1.1)-(4.1.4)这几个估计式的证明,都需要用到分部求和公式(这个又要回归到我们之前的博客中去了),g(p)g(p)ω(p)p\frac{\omega(p)}{p}之间的关系等手段,此处就直接省去阐述了.总的来说,我们将条件Ω0\Omega_0弱化为Ω2(κ)\Omega_2(\kappa)后,我们的对于筛函数的估计并没有受到太大的影响,例如,我们仍然有以下与(3.4)及其相似的结果成立:

命题9:

\quadΩ1,Ω2(κ)\Omega_1,\Omega_2(\kappa)RR的条件下,我们有

S(A;P,z)=XW(z)(1+θ(λe1+λ)(κloglogz+c0)/λ)+θz(κloglogz+c0)/λ,(4.1.5)\begin{split}S(\mathscr{A}; \mathfrak{P}, z) = X W(z) & \left(1 + \theta(\lambda \text{e}^{1+\lambda})^{ (\kappa \log\log z + c_0)/\lambda } \right) \\ \\ & + \theta' z^{ (\kappa \log\log z + c_0)/\lambda }, \quad (4.1.5)\end{split}

\quad 其中c0c_0是与A0, A1, κA_0,\ A_1,\ \kappa有关的常数,θ|\theta|,θ1|\theta'| \le 1,且

0<λe1+λ1.0 < \lambda \text{e}^{1 + \lambda} \le 1.

接下来,在对余项的条件RR进行一定程度的推广.首先是我们可以将条件RR稍微放宽至

RdLω(p),|R_d| \le L\omega(p),

对我们所有的结论均没有影响,换句话说,上面的条件和RR是一样强的.因此我们需要将RR再放弱一些,而我们确实有

定义10:

\quad 我们定义条件R0R_0

\quad 其中LL是不小于11的常数数,而A0A_0'也是不小于11的绝对常数.

\quad 我们还定义条件R1(κ,α)R_1(\kappa, \alpha)

\quad 其中UU是不小于11的常数,而C0C_0也是正的常数.

Brun筛法以及主结论

Brun纯筛法是对Eratosthenes-Legendre筛法最简单的改进,但是其作用却是巨大的,因此我们考虑将Brun纯筛法做一些推广.而在Brun纯筛法中,最关键的部分在于(3.1)处对Dv\mathscr{D}_v的选取,而(3.1)这样的选取是即为简单的情况,因此在此处是很容易做一些推广的,而推广的这种筛法便称作Brun筛法.

\quad 注:也还有另外的一种很自然的推广方式,也就是从截断的观点来看,在Brun纯筛法中是对dZμ(d)\sum_{d \in \mathbb{Z}} \mu(d)做截断,变成了

dZν(d)rμ(d),\sum_{\substack{d \in \mathbb{Z} \\ \nu(d) \le r}} \mu(d),

\quad 因此我们可以考虑对其进行加权,也就是变为

dZν(d)rμ(d)αd,\sum_{\substack{d \in \mathbb{Z} \\ \nu(d) \le r}} \mu(d) \alpha_d,

\quadαd\alpha_d可能不是{1,0,1}\{ -1, 0, 1\},于是就不在组合筛法的讨论范畴之内了.

回到我们的Brun筛法,这些在Tao博客中的Proposition 14给出了一种更一般的介绍.由于这个命题实在太长,我也就不进行摘录了(虽然文章的篇幅已经压不住了,但是现在也还是稍微挣扎一下/(ㄒoㄒ)/~~),但是我们可以观察到的是,其最重要的一部分也就是类似于(3.2)的结构.

而我们再回到Halberstam的具体构造中,我们引入一列从22zz实数(不需要是整数,除了zrz_r)

2=zr<zr1<<z1<z0=z,(4.2.1)2 = z_r < z_{r-1} < \cdots < z_1 < z_0 = z,\quad (4.2.1)

给定正整数bb,对于所有的n=1,,rn = 1, \cdots, r,我们定义χv(r)\chi_v^{(r)}为以下集合的示性函数:

Dv(r)={d:dP(z),ν(d)2bv+2n1},(4.2.2)\mathscr{D}_v^{(r)} = \{ d : d | P(z), \nu(d) \le 2b - v + 2n - 1 \},\quad (4.2.2)

很容易检验,我们上述定义的χv(r)\chi_v^{(r)}是满足(2.3.5),因此可以导出一个类似于命题6中(3.4)这样的筛函数估计式.这里我们省略掉大量计算的细节(都参考Halberstam的教材),需要注意的是我们选取一族特定的(zn)(z_n):

zr=2, logzn=enΓlogz for n=1,,r1,(4.2.3)z_r = 2,\ \log z_n = \text{e}^{-n \Gamma} \log z\ \text{for } n = 1, \cdots, r-1,\quad (4.2.3)

其中Γ\Gamma是一个合适的正数(也就是要使得z1<z0=zz_{1} < z_0 = z),最后常数λ\lambda也是和Γ\Gamma有关的一个常数,最后我们得到了

定理11/定理2.1(Brun筛法主结论):

\quadΩ1,Ω2(κ)\Omega_1, \Omega_2(\kappa)RR条件下,令bb是一个正整数,以及λ\lambda是满足

0<λe1+λ<10 < \lambda \text{e}^{1 + \lambda} < 1

\quad 的实数,那么我们有以下筛函数的上下界估计式:

\quad 以及

\quad 其中常数c1c_1的表达式为

c1=A22(1+A1(κ+A2log2)).c_1 = \frac{A_2}{2} \left( 1 + A_1 \left( \kappa + \frac{A_2}{\log 2} \right) \right).

注:本文中对上述定理称作定理11,但是在其余文章中会称之为定理2.1,主要是为了翻书会更方便,后文也是同理.

在Halberstam书中,P57-P62都是在证明这个定理,并且Brun筛法的概念与要点也都掺杂在这个定理的证明之中,理解这段我之前还花了不少功夫来着的😭.而这个定理的作用也十分强,我们可以用这个来证明(7,7),而这个就留在下一节去讲.

但是定理11太复杂了,怎么办?没关系,我们有简化版!

定理12/定理2.2:

\quadΩ1,Ω2(κ)\Omega_1, \Omega_2(\kappa)RR条件下,对于任意实数A>0A > 0,我们有

S(A;P,z)B5Xp<z(1ω(p)p), if zXA,(4.2.6)S(\mathscr{A}; \mathfrak{P}, z) \le B_5 X \prod_{ \color{red} p < z } \left( 1 - \frac{\omega(p)}{p} \right), \text{ if } z \le X^A, \quad (4.2.6)

\quad 以及

S(A;P,z)B5Xp<X(1ω(p)p), if zX1A,(4.2.7)S(\mathscr{A}; \mathfrak{P}, z) \le B_5 X \prod_{ \color{red} p < X } \left( 1 - \frac{\omega(p)}{p} \right), \text{ if } z \ge X^{\frac{1}{A}}, \quad (4.2.7)

而将条件RR弱化为R0R_0R1(κ,α)R_1(\kappa, \alpha)后,其并不会改变定理11中主项的估计式,而余项我们也能够给出它的阶,于是我们便能有能力去考虑命题(1,7)了,这无疑是一个巨大的突破.我们将定理称述至于此处:

定理13/定理2.1’:

\quadΩ1,Ω2(κ),R0,R1(κ,α)\Omega_1, \Omega_2(\kappa), R_0, R_1(\kappa, \alpha)的条件下,以及b,λ,c1b,\lambda,c_1均与定理11中定义一致,并且记

u=logXlogz,u = \frac{\log X}{\log z},

\quad 而我们有

\quad 以及

\quad 其中常数L,C0,UL, C_0, U见条件R0R_0R1(κ,α)R_1(\kappa, \alpha).

孪生素数问题的突破

上面我们花了不少功夫(也包括我敲公式和调整hexo格式等大量时间😡)称述了定理11和定理13,如果它没有什么用的话那就未免太伤人心了,但好在这两个定理实实在在能对孪生素数猜想做出巨大的突破.如果我们稍微了解一下Goldbach猜想以及孪生素数猜想的历史突破的话,我们会更加惊讶于Brun筛法的强大作用.

首先我们就考虑筛选

A={n(n+2):nx},\mathscr{A} = \{ n(n+2) : n \le x\},

而关于这个集合的筛函数的基本信息在之前也已经了解过了(扎扎实实学过来后才知道当初吃苦确实是有用的了😭),并且很容易验证其满足条件Ω0,Ω1,R\Omega_0, \Omega_1, R,于是我们使用定理11并令b=1b = 1,于是有

S(A;P1,z)122<p<z(12p){12λ2e2λ1λ2e2+2λexp(4c1λlogz)+O(log2zz1+2.01/(eλ1)x)}.(4.3.1)\begin{split} S(\mathscr{A}; \mathfrak{P}_1, z) \ge \frac{1}{2} \prod_{2 < p < z} \left( 1 - \frac{2}{p} \right) \Big\{ 1 - \frac{2\lambda^2 \text{e}^{2\lambda}}{1 - \lambda^2 \text{e}^{2 + 2\lambda}} \text{exp}\left( \frac{4c_1}{\lambda \log z} \right) \\ \\ + O\left( \frac{\log^2 z \cdot z^{1 + 2.01/(\text{e}^{\lambda} - 1)}}{x} \right)\Big\}.\quad (4.3.1) \end{split}

而在(4.3.1)中,我们可以选取合适的λ\lambda,比如可取log(1.288)=0.2531\log(1.288) = 0.2531,使得

12λ2e2λ1λ2e2+2λ>0,(4.3.2)1 - \frac{2\lambda^2 \text{e}^{2\lambda}}{1 - \lambda^2 \text{e}^{2 + 2\lambda}} > 0,\quad (4.3.2)

再假设z=X1/uz = X^{1/u},其实这个式子在定理13中出现了,那么我们要让uu尽可能小,并且还要使得余项的阶不能超过主项,于是我们可以取到

1+2.01eλ1=7.9792<u<8,(4.3.3)1 + \frac{2.01}{\text{e}^{\lambda} - 1} = 7.9792 < u < 8,\quad (4.3.3)

再结合S(A;P1,X1/8)S(\mathscr{A}; \mathfrak{P}_1, X^{1/8})的含义,我们便有

命题14(7,7):

\quad 存在无穷多个nn,使得nnn+2n+2至多表示为77的素数的乘积.

而当我们考虑筛选

A={p+2:px},\mathscr{A} = \{ p+2 : p \le x \},

并且使用筛集合

P=P2={p:p>2},\mathfrak{P} = \mathfrak{P}_2 = \{ p : p > 2 \},

我们可以验证(但并不简单)该筛函数的ω(p)\omega(p)RdR_d满足Ω1,Ω2(1),R0,R1(1,1/2)\Omega_1, \Omega_2(1), R_0, R_1(1, 1/2),其中R1(1,1/2)R_1(1, 1/2)需要由Bombieri-Vinogradov定理得出,但是当我们先承认这些后,并且使用定理13可以得到

S(A;P2,z)(lix)2<p<z(11p1){12λ2e2λ1λ2e2+2λexp(8λlogz)+O(z12u+1+2.01/(eλ1)uU+14logU+15z)+O(u1logUx)},(4.3.4)\begin{split} S(\mathscr{A}; \mathfrak{P}_2, z) \ge (\text{li} x) \prod_{2 < p < z} \left( 1 - \frac{1}{p - 1} \right) \Big\{ 1 - \frac{2\lambda^2 \text{e}^{2\lambda}}{1 - \lambda^2 \text{e}^{2 + 2\lambda}} \text{exp}\left( \frac{8}{\lambda \log z} \right) \\ \\ + O(z^{-\frac{1}{2} u + 1 + 2.01/(\text{e}^{\lambda}-1)} u^{U + 14} \log^{U + 15}z ) + O(u^{-1} \log^{-U} x) \Big\},\quad (4.3.4) \end{split}

接下来的工作就好办了,那就是继续按照(4.3.2)-(4.3.3)的想法与过程走一轮.于是就是要在0<λeλ<10 < \lambda \text{e}^{\lambda} < 1的同时还要有

12λ2e2λ1λ2e2+2λ>0,(4.3.5)1 - \frac{2\lambda^2 \text{e}^{2\lambda}}{1 - \lambda^2 \text{e}^{2 + 2\lambda}} > 0,\quad (4.3.5)

由计算机可得0<λ<0.25330 < \lambda < 0.2533,于是在这种情况下,z=X1/uz = X^{1/u},能得到有

2+4.02e2λ1=8.0942<u<9,(4.3.6)2 + \frac{4.02}{\text{e}^{2\lambda} - 1} = 8.0942 < u < 9,\quad (4.3.6)

因此我们证得

命题15(1,8):

\quad 存在无穷多个素数pp,使得n+2n+2至多表示为88的素数的乘积.

但是观察(4.3.6)也太可惜了,只要左侧比88小一点点,我们就能证明(1,7)了,而我们要证明这一命题的话,那么就得针对我们当前选取的A\mathscr{A}对定理13的主项进行一点点的改进,事实上,我们可以优化主项系数为

12λ2e2λ(1+1632λ2e2λ1λ2e2+2λ),(4.3.7)1 - 2\lambda^2 \text{e}^{2\lambda} \left( 1 + \frac{16}{3} \frac{2\lambda^2 \text{e}^{2\lambda}}{1 - \lambda^2 \text{e}^{2 + 2\lambda}} \right),\quad (4.3.7)

最后,我们便拼尽全力(真要燃尽了)证明得到

命题16(1,7):

\quad 存在无穷多个素数pp,使得n+2n+2至多表示为77的素数的乘积.

基本引理

在本文的最后一节中,我们从定理11和定理13出发,来引出筛法的基本引理.在Halberstam书中给出的基本引理,可以视作是对(3.5)的推广,也可以视作对定理12的一个可观的改良,而这个引理事实上就是从定理11得到,并且优化掉定理11中的常数λ\lambda.

定理17/定理2.5(筛法基本引理):

\quadΩ1,Ω2(κ),R\Omega_1, \Omega_2(\kappa), R的条件下,令

u=logXlogz>1,u = \frac{\log X}{\log z} > 1,

\quad 我们有

S(A;P,z)=XW(z)(1+O(exp(u(loguloglog3ulogκ2)))+O(exp(logX))).(5.1)\begin{split}S(\mathscr{A}; \mathfrak{P}, z) = XW(z)\Big( 1 & + O(\text{exp}(-u(\log u - \log\log 3u - \log \kappa - 2))) \\ \\& + O(\text{exp}(-\sqrt{\log X}))\Big). \quad (5.1)\end{split}

而在使用定理11时,我们选取的是

b=u2u2logu, λ=eκloguu,b = \left\lfloor \frac{u}{2} - \frac{u}{2\log u} \right\rfloor,\ \lambda = \frac{\text{e}\kappa \log u}{u},

而如果在定理13中选取

b=α2uα2ulogu, λ=eκαloguu,b = \left\lfloor \frac{\alpha}{2} u - \frac{\alpha}{2} \frac{u}{\log u} \right\rfloor,\ \lambda = \frac{\text{e}\kappa}{\alpha} \frac{\log u}{u},

我们便能得到弱化条件版本下的筛法基本引理

定理18/定理2.5’(弱余项的筛法基本引理):

\quadΩ1,Ω2(κ),R0,R1(κ,α)\Omega_1, \Omega_2(\kappa), R_0, R_1(\kappa, \alpha)的条件下,令

u=logXlogz>1,u = \frac{\log X}{\log z} > 1,

\quad 我们有

S(A;P,z)=XW(z)(1+O(exp(αu(loguloglog3ulog(κ/α)2)))+OU(LlogUX)).(5.2)\begin{split}S(\mathscr{A}; \mathfrak{P}, z) = XW(z)\Big( 1 & + O(\text{exp}(- \alpha u (\log u - \log\log 3u - \log (\kappa / \alpha) - 2))) \\ \\& + O_U( L\log^{-U} X ) \Big). \quad (5.2)\end{split}

在Tao的博客上,也给出了另一种表述下的筛法基本引理(Lemma 17),符号参考本文第二节第一部分.

定理19(Tao版本的筛法基本引理):

\quadκ>0,z=X1/s\kappa > 0, z = X^{1/s},对于任意积性函数gg满足

0g(p)<1, p is prime,0 \le g(p) < 1,\ \forall p \text{ is prime,}

以及满足

V(w)κ(logzlogw)κV(z),(5.3)V(w) \ll_\kappa \left( \frac{\log z}{\log w} \right)^{\kappa} V(z),\quad (5.3)

于是存在在D={dP(z):dX}D = \{ d | P(z) : d \le X \}上紧支撑的上下界系数(λd±)dD(\lambda_d^{\pm})_{d \in D},使得有

dDλd±=V(z)(1+Oκ(es)).(5.4)\sum_{d \in D} \lambda_d^{\pm} = V(z)(1 + O_\kappa(\text{e}^{-s})).\quad (5.4)

我们令q=q(x,u)q = q(x, u)没有小的素因子,我们称其为拟素数(quasi-primes),严格表述即

(q,P(x1/u))=1, logqlogx1,(q, P(x^{1/u})) = 1,\ \frac{\log q}{\log x} \ll 1,

利用定理17,我们可以得到以下的结果.

定理20(拟素数定理):

\quadqq为我们如上定义的拟素数,那么我们有以下渐近式结果

{q:qX}(ueγlogXlogx)π(X),|\{ q : q \le X \}| \sim \left( u \text{e}^{-\gamma} \frac{\log X}{\log x} \right) \pi(X),

\quad 其中γ\gamma为Euler常数.

上述结果中给出的是一个渐近式,这也体现出了筛法基本引理在处理拟素数方面的巨大作用了.而基本引理也常常作为初步筛选的方法,用于去除一些较小的素数,为更复杂的筛法处理中等大小的素数做准备[2]^{[2]},这就是为什么它能称之为筛法基本引理的原因了吧.

总结

回到引言,“这次尽量还是压缩一些篇幅,以记录下一些关键要点为主吧”,那么有没有缩短呢?

我只能说,如缩.写这篇文章最终还是达到2.4w左右的字符,以及接近600行的代码.但是我又确实是跳过了非常非常多的证明过程与细节;以及我还跳过了定理2.1和定理2.1’在更多素数问题中的应用,包括第6节,第7节以及第8节后半的应用;除此之外,在看完了Tao的博客后,Rosser-Iwaniec筛法可能相当重要,其甚至可以绕过奇偶性检验,因此目前也就跳过了.

很可怕吗?是的很可怕.

但是,关于组合筛法的要点,以及Brun纯筛法与Brun筛法的构造与应用也还是有记录下来,以及Tao博客中更高的观点也尝试与之结合(虽然结合的很生硬就是了),因此在关键要点方面还是差不多做到了.

最后从筛法理论整体来看,我应该还需要再记录一点点Selberg筛法的构造,只需要构造就行了,真的只要一点点了,不会冲到600行代码了(应该吧( ̄▽ ̄)").以及如果能在记录完Maynard-Tao筛法就更完整了(Ploymath还是pass一下吧,这个得先把Tao的博客先研究研究再说).

弄完筛法部分的内容后,我还有好一些内容可以更新,也有好一些东西需要猛猛学,到时候再慢慢规划了.

参考资料

[1] Halberstam, Richert. Sieve Methods[M]. Dover Publications, 2011. P37-P96.

[2] T. Tao. 254A, Notes 4: Some sieve theory[Z]. https://terrytao.wordpress.com/2015/01/21/254a-notes-4-some-sieve-theory/.

[3] Ege Erdil. Brun’s theorem and sieve theory[Z]. https://www.lesswrong.com/posts/aSYvbztFDdG7LBeRz/brun-s-theorem-and-sieve-theory#The_sieve_of_Eratosthenes.

[4] Motohashi Y. An Overview of the Sieve Method and its History[J]. arXiv preprint math/0505521, 2005.