
正态分布的性质
-IPSAN
2023年2月15日发(作者:反义词两个字)-1-
正态分布浅谈
摘要正态分布在概率论与数理统计中占有很重要的地位,是许多概率形成的
理论基础,它是不以人的主观思想而转移的。正态分布有统一的表达式,通过表
达式我们可以发现正态分布是一个怎样的分布。在自然界和人类活动的范畴里,
大量的随机变量都服从正态分布,如测量误差、产品的各类质量指标、人的身高、
某一区域的成绩、计算机大量的数据处理和内部的算法运行等等都趴在了正态分
布的曲线图上,可以说,服从正态分布的随机变量应用已经是自然的规律,所以
多年来科学家对正态分布的探究是非常值得的。本文通过对正态分布的基础入
手,阐述正态分布在各行业所起的作用,如机械设计、医疗统计、水平测试等。
关键词正态分布;表达式;应用
1、正态分布的由来和发展
正态分布是最重要的一种概率分布。正态分布概念是由德国的数学家和天文
学家(棣莫佛)于1733年首次提出的,但由于德国数学家Gauss率先将其应用
于天文学家研究,故正态分布又叫高斯分布。
高斯这项工作对后世的影响极大,他使正态分布同时有了“高斯分布”的名称,
后世之所以多将最小二乘法的发明权归之于他,也是出于这一工作。高斯是一个
伟大的数学家,重要的贡献不胜枚举。但现今德国10马克的印有高斯头像的钞
票,其上还印有正态分布的密度曲线。这传达了一种想法:在高斯的一切科学贡
献中,其对人类文明影响最大者,就是这一项。
在高斯刚作出这个发现之初,也许人们还只能从其理论的简化上来评价其优
越性,其全部影响还不能充分看出来。这要到20世纪正态小样本理论充分发展
起来以后。
拉普拉斯很快得知高斯的工作,并马上将其与他发现的中心极限定理联系起
来,为此,他在即将发表的一篇文章(发表于1810年)上加上了一点补充,指出
-2-
如若误差可看成许多量的叠加,根据他的中心极限定理,误差理应有高斯分布。
这是历史上第一次提到所谓“元误差学说”——误差是由大量的、由种种原因产生
的元误差叠加而成。后来到1837年,海根在一篇论文中正式提出了这个学说。
其实,他提出的形式有相当大的局限性:海根把误差设想成个数很多的、独立同
分布的“元误差”之和,每只取两值,其概率都是1/2,由此出发,按狄莫佛的
中心极限定理,立即就得出误差(近似地)服从正态分布。
拉普拉斯所指出的这一点有重大的意义,在于他给误差的正态理论一个更自
然合理、更令人信服的解释。因为,高斯的说法有一点循环论证的气味:由于算
术平均是优良的,推出误差必须服从正态分布;反过来,由后一结论又推出算术
平均及最小二乘估计的优良性,故必须认定这二者之一(算术平均的优良性,误
差的正态性)为出发点。但算术平均到底并没有自行成立的理由,以它作为理论
中一个预设的出发点,终觉有其不足之处。拉普拉斯的理把这断裂的一环连接起
来,使之成为一个和谐的整体,实有着极重大的意义。
联系和发展是事物发展变化的基本规律。任何事物都有其产生、发展和灭亡
的历史,如果我们把正态分布看做是任何一个系统或者事物的发展过程的话,我
们明显的看到这个过程经历着从负区到基区再到正区的过程。无论是自然、社会
还是人类的思维都明显的遵循这这样一个过程。准确的把握事物或者事件所处的
历史过程和阶段极大的有助于掌握我们对事物、事件的特征和性质,是我们分析
问题,采取对策和解决问题的重要基础和依据。发展的阶段不同,性质和特征也
不同,分析和解决问题的办法要与此相适应,这就是具体问题具体分析,也是解
放思想、实事求是、与时俱进的精髓。正态发展的特点还启示我们,事物发展大
都是渐进的和累积的,走渐进发展的道路是事物发展的常态。例如,遗传是常态,
变异是非常态。
总之,正态分布论是科学的世界观,也是科学的方法论,是我们认识和改造
世界的最重要和最根本的工具之一,对我们的理论和实践有重要的指导意义。以
正态哲学认识世界,能更好的认识和把握世界的本质和规律,以正态哲学来改造
世界,能更好的在尊重和利用客观规律,更有效的改造世界。
2、正态分布的性质和概念
-3-
2.1性质:
1、一般正态分布表达式:e
x
xf
2
2
2
)(
2
1
)(
标准正态分布表达式:e
x
x2
2
2
1
)(
2、关于直线
x对称,当
x时,
)(xf
达到最大值
2
1
,曲线有拐点
(
,e2
1
2
1
);
3、以x轴为渐近线;
4、若固定,改变
的值,则曲线)(xfy沿x轴平行移动,曲线的几何
形状不变,若固定
,改变的值,越大)(xfy的图形越平坦,越小
)(xfy的图形越陡峭如下图。
注:参数
为算术平均数,一般情况下可认为是众数,满足
;
为标准差,即方差的算术平方根,必须满足0
。
特别地,当
=0,=1时,称X服从标准正态分布,即X~N(0,1),其
-4-
概率密度函数记为
e
x
x2
2
2
1
)(
)(x
0)(x是显然的,又因为
dx
x
dxxe2
2
2
1
)(
记I=
dx
x
e2
2
,则
dy
y
dx
x
x
ee
dx
e22
2
2
2
2
2
2
dxdy
y
x
e2
2
2
令sin,cosryrx,则
drd
r
re2
2
0
2
2
)
2
(2
2
2
0
2r
ed
r
2
所以,2,则
1
2
1
)(2
2
dx
x
dxxe
而0)(xf也是显然的,又
dxdxxfex
2
2
2
)(
2
1
)(
)(
x
u令
1
2
1
2
2
du
u
e
这里不仅证明了x是整个实数范围内的,而且证明了一般正态分布表达式
-5-
e
x
xf
2
2
2
)(
2
1
)(
对x积分的最后结果为1,即1)(
dxxf,这里可
以发现x是全体实数范围的,如果x是在某个范围内的,就可以计算出这个
范围内的出现几率有多大,这就是我们接下来要谈到的正态分布应用。
2.2概念:
1、正态分布曲线是高峰位于中央,两侧逐渐下降,左右对称,永远不与横
轴相交的曲线。
2、正态分布的密度函数:
(1)f(x)为与x对应的正态曲线的纵坐标高度;
(2)
为总体均数;
(3)为总体标准差;
(4)为圆周率,即3.141592654;
(5)e为自然对数,即2.71828.
由一般分布的频数表资料所绘制的直方图,图(1)可以看出,高峰位于中
部,左右两侧大致对称。我们设想,
如果观察例数逐渐增多,组段不断分细,直方图顶端的连线就会逐渐形成一条高
峰位于中央(均数所在处),两侧逐渐降低且左右对称,不与横轴相交的光滑曲
线。这条曲线称为频数曲线或频率曲线,近似于数学上的正态分布(normal
-6-
distribution)。由于频率的总和为100%或1,故该曲线下横轴上的面积为100%
或1。
为了应用方便,常对正态分布变量X作变量变换。
该变换使原来的正态分布转化为标准正态分布(standard
normaldistribution),亦称u分布。u被称为标准正态变量或标准正态离差
(standardnormaldeviate)。实际工作中,常需要了解正态曲线下横轴上某
一区间的面积占总面积的百分数,以便估计该区间的例数占总例数的百分数(频
数分布)或观察值落在该区间的概率。对于正态或近似正态分布的资料,已知均
数和标准差,就可对其频数分布作出概约估计。
3、一般概率分布的正太近似
在自然界与工程实践中,经常会遇到大量随机变量是服从正态分布的,而
在某些条件下,即使原来并不服从正态分布的一些随机变量,它们的和的分布当
随机变量的个数无限增加时也趋于正态分布。
我们就先来说说我们熟知的二项分布,例如:假设按一种制造方法生产一
批垫圈,这些垫圈大约有5%是次品,如果检查了100个垫圈,问次品数小于4
的概率是多少?
令是已发现的垫圈的次品数,则,
)95.0()05.0(100
3
0
100
)4(kk
k
k
要直接计算这一概率是相当困难的,这时我们可以考虑不直接去求,而是
间接的去求。在二项分布的概率计算中,当试验次数增加,而每次试验中某事件
出现的概率很小,即当n很大,p很小,而np大小适中时,可以证明有近似公
式:
)(
!
)1(k
k
e
pp
Ck
knk
k
n
-7-
其中)10(pnp,,...2,1,0k
于是考虑)1()(ppknk
k
n
k
.这一概率以颇为复杂的形式依赖
于n,且当n趋向于无穷大时上式将变成怎样的表达式是不清楚的。这时我们需
要用到司蒂灵(Stirling)公式,当n趋向无穷大时,
2
1
2!
n
nnen
这个近似值的对与否我们不是很清楚,下表可以使我们对这一近似值的准
确性有所了解.
注:虽然n!与近似值之差当n时变得较大,但从下表我们得知它们
的误差率越变越小,就是说差值大并不影响它们近似。
Nn!
2
1
2
n
nne
差值
!
差值
n
110.9220.0780.08
221.9190.0810.04
5120118.0191.9810.02
10610)6288.3(610)5986.3(610)0302.0(
0.008
10015710)3326.9(15710)3249.9(15710)0077.0(
0.0008
对)(k的表示式中所出现的阶乘应用司蒂灵公式,可以证明(经大量
运算后),当n充分大时
)1()1(
)(
pnp
npk
pnp
np
k
dt
t
pnp
npke
)1(
)(
2
2
2
1
由此我们得到下面结果:
-8-
若X为具有参数为n和p的二项分布,且若
)1(pnp
np
Y具有渐进)1,0(分布.这一近似对于n>10,只要接近
2
1
时是有效的.如果
p接近于0或1,则n应稍为大一些以便保证良好的近似.
回到上面的例子,我们想到
E(X)=np=100(0.05)=5
V(X)=np(1-p)=4.75
因此由正态分布表我们写为
)
75.4
53
75.4
5
75.4
50
()3(
X
PX
=168.0)3.2()92.0(
注:在应用二项分布的正态近似时,我们是用一个连续随机变数的分布来近似
一个离散随机变数的分布。因此必须注意所包含区间的端点。
所以对上面的公式加以修正之后得到:
(a)
)
2
1
2
1
()(kXkkX
,
(b)
)
2
1
2
1
()(bXabXa
。
对于上面的例子计算,采用后面的修正,得
)
2
1
3
2
1
()30()3(XXX
239.0)53.2()69.0(
从这里可以看出,当二项分布的频数无限增大时,二项分布就会无限接近
正态分布。许多观察表明,如果大量独立的偶然因素对总和的影响都是均匀的、
微小的、彼此又是独立的,即其中没有哪一项起特别突出的作用,那么就可以断
定描述这些大量独立的偶然因素的总和的随机变量是近似服从正态分布的,像泊
松分布,帕斯卡尓分布和伽玛分布。
-9-
4、正态分布在生活中的应用
正态分布有极其广泛的实际背景,生产与科学实验中很多随机变量的概率
分布都可以近似地用正态分布来描述。例如,在生产条件不变的情况下,产品的
强力、抗压强度、口径、长度等指标;某些医学现象,如人的身高、红细胞数、
血红蛋白量、胆固醇、体重等指标;人类活动的某一指标或水平划分;同一种种
子的重量;测量同一物体的误差;某个地区的年降水量;以及理想气体分子的速
度分量,等等。
4.1零件规格的设计
由自动生产线加工的某种零件的内径X(毫米)服从正态分布N(μ,1),
平均内径μ是待定的,可以通过调整该自动生产线来设定,方差
12反映这条
自动生产线的加工精度。如果加工的零件内径小于10或大于12均为不合格品,
其余为合格品。销售每件合格品获利,销售每件不合格品亏损,已知销售利润L
(单位:元)与销售零件的内径X有如下关系:
问:平均直径μ为何值时,才能使销售一个零件的平均利润最大?
由于L是随机变量,它是X的函数,所以平均利润即为期望利润。由
)1,(NX,那么
)(XPXPXPLE
XPXPXP
)12(55)10()10(20)12(20
5)10(21)12(25
可知,期望利润与平均内径μ有关,是μ的一元函数。
为了求期望利润E(L)的最大值,令
0)12(25)10(21
)(
d
LdE
,其中)(x、)(x分别为标准正态分布的
-10-
分布函数与概率密度函数,则
ee2
)12(
2
)10(22
2
25
2
21
解之,得
9.10
21
25
ln
2
1
11
由此可知,当平均内径μ设定为10.9毫米时,可使销售每个零件的平均利润最
大。
4.2某些医学现象的正态分布统计
某地抽样调查了100名18岁男大学生身高(cm),其均数=172.70cm,标准
差s=4.01cm,①估计该地18岁男大学生身高在168cm以下者占该地18岁男大
学生总数的百分数;②分别求X1s、X1.96s、X2.58s范围内18岁男大学生
占该地18岁男大学生总数的实际百分数,并与理论百分数比较。
本例中,μ、σ未知但样本含量n较大,按式(3.1)用样本均数X和标准差S分
别代替μ和σ,求得u值,u=(168-172.70)/4.01=-1.17。查附表标准正态曲线
下的面积,在表的左侧找到-1.1,表的上方找到0.07,两者相交处为
0.1210=12.10%。该地18岁男大学生身高在168cm以下者,约占总数12.10%。
其它计算结果见下表。
表3100名18岁男大学生身高的实际分布与理论分布
分布
xs
身高范围(cm)
实际分布
人数
实际分布
百分数(%)
理论分布(%)
X1s
168.69~176.71
6767.0068.27
X1.96s
164.84~180.56
9595.0095.00
X2.58s
162.35~183.05
9999.0099.00
制定医学参考值范围:它是指所谓“正常人”的解剖、生理、生化等指标的波
动范围。制定正常值范围时,首先要确定一批样本含量足够大的“正常人”,所谓
“正常人”不是指“健康人”,而是指排除了影响所研究指标的疾病和有关因素的同
质人群;其次需根据研究目的和使用要求选定适当的百分界值,如80%,90%,
95%和99%,常用95%;根据指标的实际用途确定单侧或双侧界值,如白细胞计
-11-
数过高过低皆属不正常须确定双侧界值,又如肝功中转氨酶过高属不正常须确定
单侧上界,肺活量过低属不正常须确定单侧下界。另外,还要根据资料的分布特
点,选用恰当的计算方法。常用方法有:
⑴正态分布法:适用于正态或近似正态分布的资料。
双侧界值:Xu(u)^S单侧上界:X+u(u)^S,或单侧下界:X-u(u)^S
⑵对数正态分布法:适用于对数正态分布资料。
双侧界值:lg-1[X(lgx)u(u)S(lgx)];单侧上界:lg-1[X(lgx)+u(u)S(lgx)],或单
侧下界:lg-1[X(lgx)-u(u)S(lgx)]。
常用u值可根据要求由下表查出。
⑶百分位数法:常用于偏态分布资料以及资料中一端或两端无确切数值的资料。
常用u值表
参考值范围(%)单侧双侧
800.8421.282
901.2821.645
951.6451.960
992.3262.576
4.3人类活动的指标和水平划分的计算
高考后,考生填报志愿时,下列两个问题就显得很重要:(1)高考后(或
前)希望能准确估计自己的标准分和“百分位”(百人中所处的位置);(2)希望从
考生手册中往年高校第一志愿实际录取的最高、最低、平均分三个数据获取更多
更准确的信息。不以人们意志而转移的统计规律——正态分布理论,就可以帮助
我们估计,实现这两个目的。
一个学校在正常情况下,同类考生都有一、二百人以上规模,这已经算大样
本容量了。只要教学和考试秩序正常,某些成绩与全省同类考生的成绩就必然表
现出正态分布的特征。我们还知道影响本届考生成绩的敏感因素还有试卷难易程
度、环境因素、心里能力等因素。个别考生也许会发挥异常,但一个学校一、二
百个以上学生的成绩,会在全省众多同类考生之中.因考试(统计学称为试条件
相同引起的异常波动却是很小的)就是说,一个学校、二百个以上考生成绩在全
-12-
省里面有较高相对稳定性。所以只有把每一个考生考后所估计比较真实的成绩放
在整个学校,以大样本来分析才能保证用总体正态的特征来判断考生成绩所处位
置的科学性。
这里以某年西安电子科大在福建实录第一志愿40名考生为例,当时最低、
最高、平均分分别是634、714、660分,现计算分析如下:
(1)把[634,714]隔10分分为8个段.把分点换算为实际标准分;
0
x=(634—500)/100=1.34.
1
x=1.44„„
8
x=2.14
(2)查标准正态分布表算出大“曲边梯形”面积:
S=Φ(0.24)-Φ(1.23)=0.07394
(3)查标准正态分布表算出8个小“曲边梯形”面积:
S=Φ(1.44)一Φ(1.34)=0.01519
1
S=0.01315,
2
S=0.00128.
3
S=0.00957,
4
S=0.00805„„
8
S=0.00450
(4)算出落在80分数段的录取人数40SS
i
/。要注意的是,根据标准正态分
布的特征.8个数据40SS
i
/。均应采用去尾法.所得整数作为所估实录人
数,但考虑到最高分数段录取人数往往手步一人.所以如果最高分数段录
取人数出现0<40
a
S 8 S=1;次高分数段也类似处理;最低分 数段以外的各段录取人数之和去减录取总人数所得的差就作为最低分数段 录取人数。 在计算机方面我们也可以发现正态分布的应用。设若我们知道某校某年级某 次测验的成绩,我们需要的是把这些成绩放到网络上方便传阅,为了给计算机的 执行时间和占用的存储空间都比较理想,我们需要编制一个程序,这个程序的算 法用到哈夫曼树,哈夫曼树的特点是执行时间比一般算法的执行时间短,而且存 储的空间比较小,但唯一需要知道的是,我们学生分数段是如何分排的,在一个 学校的正常情况下,学生们的成绩一般都服从正态分布,例如要编制一个将学生 百分成绩按分数段分级的程序,其中90分以上为A,80至89分为B,70至79 分为C,60至69分为D,0至59分为E。假设这次测验的成绩服从正态分布 -13- )10,75(~2NX ,知道了是以75分为μ的正态分布,在编程时就以70至79分为 根节点,其他分数段为分支构造哈夫曼树,这样写出来的程序既执行时间短,而 且存储空间少,为学校所管理下的计算机省下不少资源。 5、结论 概率和正态分布在生活中是紧密相连的,统计是不可忽视的重要工具。要善于 利用这个工具,这能使我们更加的接近自然,并且了解它。有了这些基础理论, 人们在未来的发展道路更上一个台阶。 -14- 参考文献 [1]常柏林,李效羽,卢静芳,钱能生编.概率与数理统计[M].第二版.北京:高等教育出版 社2012. [2]孙洪祥,柳金甫主编.概率论与数理统计(二)[M].北京:辽宁大学出版社2012. [3]田长生主编,徐庆和副主编.概率统计也微积分[M].北京:科学出版社2006. [4]著,潘孝瑞,邓集贤,杨维权,许刘俊等译.概率引论及统计应用[M].北京: 高等教育出版社1986. [5]罗扎.塞克斯著,罗永泰,史道济译.应用统计手册[M].河北:天津科技翻译出版公司 1988.