伯努利大数定律

发布时间：2023-06-09 作者：admin 来源：文学

伯努利大数定律

2023年2月27日发(作者：段落格式怎么设置)

2020年2月

第37卷第2期

Feb.2020

Vol.37

No.2

湖北第二师范学院学报

JournalofHubeiUniversityofEducation

关于大数定律的简单注解

陈傲星，武靖

（华中师范大学数学与统计学院，武汉430079）

摘要:本文从“抛硬币实验”出发，激发对频率和概率关系的思考，得出随着试验次数的增加

频率逐渐趋于概率的结论。这个结论被数学家伯努利用与抛硬币相类似的缶子模型所证明，

后称为伯努利弱大数定律。而伯努利时代遗留下来的问题，试验次数无限时概率值可否用频

率值替代，直到20世纪初才得以解决。波莱尔证明了其正确性，结论更强的大数定律由此诞

生。随后，本文就更一般的强弱大数定律分别从直观意义和测度意义上展开了讨论。最后，基

于经验分布函数给出了伯努利场合下强大数定律的应用

。

关键词:抛硬币实验;弱大数定律;强大数定律;经验分布函数的应用

中图分类号：0211文献标识码:A文章编号：1674-344X（2020）2£016£4

1引言

抛一枚质地均匀且无损坏的硬币，正面朝上

的概率是多少？50%,这是毫无争议的，

也称为之

先验概率①

。

如果抛这枚硬币两次

，所得结果一

定是一正一反吗？显然不是，

两次为正或者两次

为反的结果在生活中屡见不鲜。增加抛掷次数是

否一定能得到一半正面一半反面的结果？历史上

多位数学家通过试验给出答案。

表1数学家的试验结果

试验者

抛硬币

正面朝上反面朝上抛硬帀:

数的一半

蒲丰4020

摩根4046

费勒10000

49795021

5000

皮尔逊24812000

罗曼诺夫斯基80640

396994094140320

从结果看，虽然每一次试验中正面（反面）朝

上的频数和抛硬币次数的一半不等，但是相差不

大,并且随着抛掷次数的增加,前者在数值上稳定

于后者。因此，投掷次数越多越有利于随机事件

A统计规律的稳定表达。一般地，如果在n次相

同的试验中，事件A发生的次数为k,当n很大,

则k/n将接近于事件A的真实概率p。确定概率

要比确定频率的难度大得多，因为概率可以看成

随机事件的属性，频率是这一属性的表达结果;且

绝大多数情况下,事件发生的概率难以通过逻辑

分析或者历史经验获取，从而拿所掌握的频率信

息推测概率不失为良策。频率是否等于概率？本

质上不，但是大数定律告诉我们，当试验次数无

限，即n趋近于无穷时，频率和概率是无限接近

的。特别地，伯努利大数定律提供了用频率来确

定概率的理论依据

，由此我们可以用重复试验中

某事件A出现的频率作为P的估计值。

2伯努利弱大数定律

当人们发现抛硬币次数越多，“正面朝上”的

频率越稳定的时候,某种规律呼之欲出。历史上

第一个证明这个规律的人是伯努利。他在《推测

术》中以“缶中抽球”②的例子来证明的。当然，抛

硬币与缶中抽球本质上是一致的,为了不再引入

新案例,我们仍选择引言中的事例。

记N次抛掷中，事件A“正面朝上”的次数为

X。伯努利企图证明的是:用普估计P可以达到

收稿日期=2020-01-15

作者简介：武靖（1995-）,女，硕士研究生，研究方向为网络模型、网络数据分析。

•16

•

事实上的确定性——他称为“道德确定性”(moral

certainty)®o其含义很明显，即用估计p,犯错误

的概率不超过另外一个极小正数O。他证明了：

对任给c>0,只要N足够大，可使

若换上式为

就是现今常见的弱大数定律的表达形式了。

当然伯努利证明大数定律的年代还没有方差

这一概念,他在证明此定律的时候,先将犯错误大

小£限定为3+b)-1,®必要时才按倍数缩小，此

外他所使用的缶子模型也只能使得被估计的P值

为有理数,但这并不影响定理的普遍性，可以推得

对任意的£、P都成立。伯努利大数定律的详细推

到过程，有兴趣的可以参见文献⑷。当时,一个更

直截了当的观点是：

lim备=p

NsN

但是这显然不现实，因为“全为正面”的事件

不能被排除。直到1909年，波莱尔证明了此结论

的正确性，即寿以概率1收敛于P,但其定理的困

难度要大得多。

3强大数定律

波莱尔是法国数学家，他引进近代实变函数

理论、测度论等，他所取得的成果,如波莱尔覆盖

定理、波莱尔测度等,对现代数学的许多分支都产

生了极其深远的影响。20世纪初，当波莱尔完成

了对伯努利时代遗留下来的看似为真理的结论的

证明时,强大数定律渐渐浮出水面⑤。而这些又要

从两个有意思的引理说起。

波莱尔-坎泰利(Borel-Cantelli)第一

引理：

设为某个概率空间的一个事件序列，若所有

的事件发生的概率和是有限的，

£p(A”)<8

n=1

那么它们之中有无限多个事件同时发生的概

率为零，

P(liml7)=0

n—>oo

波莱尔-坎泰利(Borel-Cantelli)第二

引理：

设为某个概率空间中相互独立的一个事件序

列，若所有的事件发生的概率和是无限的，

£巩化)=8

71=1

那么它们之中有无限多个事件同时发生的概

率为1,

P(lim可)=1

“一>8

该引理的证明很简单，结合上极限的定义和

集合论的知识即可⑥。直观上，若所有事件发生概

率之和小于无穷，其同时发生的概率为零;当事件

为独立事件时，反之亦正确。

运用上述引理到抛硬币实验。设S”是前"次

试验的正面朝上的次数⑦，自然地:对于每个£>

0,在事件呂_£>£中,只有有限个发生的概

率为1.至此，我们从理论方面正式说明，强大数

定律为何允许有限个事件,其频率不出现在概率

的固定极小邻域里。波莱尔在最开始先证明了

Plim=p]=1在P=斗时成立，随后推广至

Lm8nJ/

全体伯努利试验,后称为波莱尔强大数定律;在波

莱尔之后，柯尔莫哥洛夫取消了“随机变量服从

伯努利分布”的条件，即随着试验次数"的增大,

随机变量的平均观察值以概率1收敛于期望，后

称为柯尔莫哥洛夫强大数定律。

4强大数定律与弱大数定律的区别与联系

相信我们已经对伯努利弱大数定律和波莱尔

强大数定律有了一个初步认识，抛开特定条件的

大数定律，普遍意义上的强大数定律和弱大数定

律有什么关系呢？

首先更一般地，大数定律分析的是一定条件

下某随机变量序列的算数平均值收敛于某常数或

常数列。为叙述上的方便，设^

，…，煮为一随

机变量序列,E为常数或常数列。

从上文不难推测，强大数定律在相同的条件

下较弱大数定律得出了更强的结论。直观上讲，前

者认为这种不收敛现象只能偶尔出现，即有限的；

后者允许无限次不收敛。

强大数定律和弱大数定律的区别从测度上

讲，前者是"几乎确定收敛(almostsurely

convergence)"或者"以概率1收敛"、"几乎处处

收敛”，后者是"依概率收敛(convergencein

•17•

probability)”。若把不收敛于概率值的"坏点"放

在一个集合D中，前者只允许D为零测集⑧，后者

可以接受D的测度极小。一般地,两者前提条件相

同，得出的结论不同。顾名思义，前者的结论更强o

为了更进一步探究,我们引入如下概念。

定义1.以概率1收敛

设$和怙”｝为定义在概率空间(2F,P)上

的随机变量序列。若存在Q

UF,Pg=0,且

对任意M,有

g”(")—8

则称g”以概率1收敛于记作s.)

定义2.依概率收敛

设g和(鳥)为定义在概率空间(Q,F,P)上

的随机变量序列。若对任意的£＞0,有

limP｛丨g”-g丨3：g｝=0

n—oo

则称序列怙”｝依概率收敛于记作爲亠$

定义3.强大数定律

设g和廿”｝为定义在概率空间(Q,F,P)上

的随机变量序列，且Eg”存在，若肛＞0,有

叩巴+U=吩丫：/)｝=1

则称佥服从强大数定律。

定义4.弱大数定律

设$和怙”｝为定义在概率空间(O,F,P)上

的随机变量序列，且Eg”存在。若肛＞0,有

limP

则称怙”｝服从弱大数定律。

由定义出发，结合测度论的知识，不难发现以

概率1收敛等价于几乎处处收敛,依概率收敛等

价于依测度收敛，而几乎处处收敛蕴含依测度收

敛，依测度收敛一般情况下不包含几乎处处收敛,

因此依测度收敛是较弱收敛(见文献[2]),从而

得出:基于依概率收敛的弱大数定律较弱于依托

于以概率1收敛的强大数定律。

事实上,若随机变

量序列服从强大数定律，则其一定也服从弱大数

定律,反之不成立。

5经验分布函数与强大数定律

通过上述部分的介绍，大数定律从理论上肯

定了“用频率估计概率”的合理性，同时也是“矩

估计”的基础。事实上，它证明了随机变量的算术

平均值以概率1收敛于数学期望,奠定了参数估

计的一个重要法则。

但是大数定律的适用性是广泛的。这里再举

一个漂亮的例子一经验分布函数的合理性。

经验分布函数是连接实际数据与理论分布函

数的桥梁，是在n个数据点中的每一个上都跳跃

1/«的阶梯函数。当样本量足够大的时候,其以概

率1收敛于总体分布函数⑨。

定义5：设乙忑，…,/.为来自于总体X的容

量为"的简单随机样本,X(“，X⑵

，…,X(”)为其顺

序统计量內严2，…，叫为其样本取值，样本取值

确定时，样本顺序统计量随之确定。对任意实

数％,

0,%W兀⑴

=■号,

%(◎V兀w兀仏+1)(%=1,2,…，71-1)

，1,光＞%㈤

为经验分布函数，

更一般地提法是F；(%)=

为兀1，光2，…，叫中小于兀的个数。

由于随机变量是独立同分布的，其共同的分

布函数用F&)表示。不妨将事件｛F；(%)=吕

｝

看成衍X”中小于％的个数为饥这又等价

于n重伯努利试验中事件｛X＜%｝恰好发生k次

(见文献[4])。运用概率论的知识，

P｛F：(X)=吕｝=C：(F(%)*(1-%)""

F：仏)为"重伯努利试验中事件(X＜%)发

生的频率,F&)为事件(X＜力)发生的概率，当

试验次数“无限时,就回到了我们熟悉的波莱尔

强大数定律，即P)limF；(x)=F(x)!=1.

n—8

后来，格列纹科在此基础上又给出了更强的

结论，他证明了经验分布函数与理论分布函数偏

移量的最大值以概率1收敛于0,进一步肯定了经

验分布函数的合理性，同时也说明还存在比强大

数定律结论强度更大的规律。大数定律支撑下的

经验分布函数应用广泛，比如最大爛模型中用作

约束条件、金融资产对数价格中潜在现货方差的

分布形式等,更有研究者以此提出了确定样本量

的新方法(见文献[6])。

6结论

大数定律从理论上赋予了频率更大的意义,

•18•

使其不仅仅是某一次试验属性的象征，更是概率

的良好估计。条件相同，结论也可能不同。强大数

定律和弱大数定律正是基于结论性质的强度划

分,前者是以概率1收敛,后者是依概率(测度)

收敛。强大数定律和弱大数定律下有许多不同的

提法

，比如强大数定律下的波莱尔大数定律、柯尔

莫哥洛夫大数定律;弱大数定律下的伯努利大数

定律、切比雪夫大数定律、马尔科夫大数定律、辛

钦大数定律……这些定理的条件有差别,结论各

异，共同构成了大数据时代绚烂的光彩。

注释：

①先验概率，是指根据以往经验和分析得到的概率。文中

抛硬币一次,其正面朝上的概率为1/2是通过分析计算

而来.

②缶中抽球,即缶子模型:缶中有。白球,b黑球,有放回

地从缶中抽球N次,记录抽白球的次数为X.

③伯努利引进了“道德确定性”的概念，若某事件有极大

的可能性以至几乎不会不发生

，则存在道德确定性

。这一

概念现在也叫"事实上的确定性"(practicalcertainty).

④伯努利的证明基于缶子模型,5b是既定量,详见注2.

⑤强大数定律和弱大数定律是后来人们为了区分不同结

论的大数定律根据其结论的强弱程度划分的，本文为了

方便起见直接引用现在的名字.

⑥这里给出第一引理的简单证明U：=A；

故P(ClU九)=P(limULA>=

»mP(U：=»d

”)W

k-ln-k>ook

—

Jim£"F(A„)=

0WpmY"F(A„)=0.

$—>8n-k>8n-k

⑦当n趋于无穷时，可视S”S2,…为一个无穷的伯努利

试验序列，其中每一事件只依赖于有限次试验。又由于

抛掷行为是独立的，满足第二引理中要求的独立性.

⑧这里的零测集，根据实际意义更可以排除其为零测集

中无限集的情况，或根据波莱尔-坎泰利第一引理证明

其为零测集中的有限集.

⑨总体分布函数，即理论分布函数:F(x)=PX^x，

是

随机变量X小于某常数x的概率.

参考文献：

[1]陈希孺.数理统计学简史[M].长沙:湖南教育出版

社,2000.

[2]于忠义.JamesBernoulli与《推测术》[J].统计研究，

2003(5)

[3]江泽坚.实变函数论[M].北京：高等教育出版

社,1994.

[4]陈应保.数理统计[M].武汉

：华中师范大学出版

社,2004.

[5]邹新提.柯尔莫哥洛夫强大数定律的推广[J].武汉大

学学报,1983(3).

[6]范超.基于格列纹科定理的确定样本量新方法[J].调

研世界,2016(1).

DiscussionontheLawofLargeNumbers

CHENAo-xing,WUJing

(SchoolofMathematicsandStatistics,ChinaCentralNormalUniversity,Wuhan430079,China)

Abstract:Inthispaper,therelationbetweenfrequencyandprobabilityisdiscussedbyusingthe“coin

clusiondrawn

isthatthevalueoffrequencyapproachestheprobability

asthenumberof

sprovedbyJames

Bernoulli

usingamodelsimilartothe"coinexperimentand

knownasBernoulli's

r,therewasaproblemleft：whether

frequencyandprobability

otuntilthe1900*sthattheproblem

uendy,StrongLawofNumbersandWeakLawofNumbersarecomparedina

ally,applicationoftheStrongLawof

NumbersinBernoullicaseisgivenbasedontheempiricaldistributionfunction.

Keywords:coinexperiment；StrongLawofNumbers；WeakLawofNumbers；applicationinthe

empirical

distributionfunction

・19・

👁️ 阅读量：0

🔖 本文标签：

🔥 最新发布文章