
正态分布的概率密度函数
天涯医院论坛-青岛银行网上银行登录
2023年3月16日发(作者:阿牙克库木湖).
Word资料
正态分布
3.1正态分布
对于连续型随机变量而言,正态分布(normaldistribution)是最重要的一种概率分布。
经验表明:对于依赖于众多微小因素;且每一因素均产生微小的或正或负影响的连续型
随机变量来说,正态分布是一个相当好的描述模型。
如人的体重,因为遗传、骨骼结构、饮食、锻炼、等都对人的体重有影响,但又没有一
种因素起到压到一切的主导作用。与此相类似,人的身高、考试分数等都近似地服从正态分
布。
通常用:
X~N(u,2)(3-1)
表示随机变量X服从正态分布。N表示正态分布,括号内的参数u,
2称为正态分布的
总体均值(或期望)和方差。
3.1.1正态分布的性质
(1)正态分布曲线以均值u为中心,对称分布。
(2)正态分布的概率密度函数呈中间高、两边低,在均值u处达到最高,向两边逐渐降
低,即随机变量在远离均值处取值的概率逐渐变小。
.
Word资料
(3)正态曲线下的面积约有68%位于u±两值之间;约有95%的面积位于u±2
2之间;
而约有99.7%的面积位于u±3之间。
★(4)两个(或多个)正态分布随机变量的线性组合仍服从正态分布。
令X和Y相互独立:
X~N(uX,2
x
)
Y~N(uY,
2
y
)
现在考虑两个变量的线性组合:W=aX+bY
则W~N(uW,2
w
)(3-2)
其中,
uW=(auX+buY)(3-3)
2
w
=(
22
x
a+
22
y
b)(3-4)
例3.1
令X表示在下沙高教区一花店每日出售玫瑰花数量,Y表示在下沙镇一花店每日出售玫
瑰花的数量,假定X和Y服从正态分布,且相互独立,并有:
X~N(100,64),Y~N(150,81)
求两天内两花商出售玫瑰花数量的期望及方差?
W=2X+2Y
根据式(3-3)
E(w)=E(2X+2Y)=500,
Var(w)=4var(X)+4var(Y)=580
因此,W服从均值为500,方差为580的正态分布,即W~N(500,580)。
★★3.1.2标准正态分布
两个正态分布可能因为期望或方差的不同,或是期望和方差均不同而相区别。如何比较
各种不同的正态分布呢?
.
Word资料
定义一个新的变量Z:
Xu
Z
如果变量X的均值为u,方差为
2,则根据式(3-4),变量Z的均值为0,方差为1。称之
为标准正态变量(standardnormalvariable)。
即若X~N(u,
2),那么变量Z就是标准正态变量,用符号表示为:
Z~N(0,1)(3-5)
证明:
(1)均值为0
因为有E(aX+b)=aE(X)+b,所以
1
EEX
uXu
()()=0
(2)方差为1
因为有var(aX+b)=a2var(X),所以
2
1
varvarX
uX
()()=1
图3-3a和3-3b分别给出标准正态分布的概率密度函数和累积分布函数。
.
Word资料
例3.2
变量x表示花房每日出售的玫瑰花量,假定它服从均值为70、方差为9的正态分布,即X~
N(70,9),求任给一天,出售玫瑰花数量大于75支的概率。
7570
1.76
3
Z
服从标准正态分布,求P(Z>1.67)。
从附录表可知,Z位于区间(0,1.3)的概率为0.4032,位于(0,2.5)的概率为0.4938。
由正态分布的对称性可知,Z位于区间(-1.3,0)的概率也为0.4032,位于(-2.5,0)的概率为
0.4938。由于这种对称性,在标准正态分布表中一般仅给出Z取正值的情形。也就是说,标
准正态密度函数,在Z=0的左右面积均为0.5,整个面积(或概率)为1。
根据正态分布表得:
P(0≤Z≤1.67)=0.4525
因此,
P(Z>1.67)=0.5000-0.4257=0.0475
即每天出售玫瑰花的数量超过75支的概率为0.0475。(参见图3-3a)
.
Word资料
例3.3
继续例3.2,现假定要求每天出售玫瑰花数量小于或等于75支的概率。
概率为:0.5000+0.4525=0.9525(见图3-3b)。
例3.4
求每天出售玫瑰花数量在在65与75支之间的概率。
6570
1.67
3
Z
7570
1.67
3
Z
查表得,
P(-1.67≤Z≤0)=0.4525
P(0≤Z≤1.67)=0.4525
由正态分布的对称性得到,
P(-1.67≤Z≤1.67)=0.9050
即每天出售面包的数量介于65条与75条之间的概率约为90.5%(见图3-3a)。
上面的例子表明:一旦知道某一正态变量的期望与方差,先将其转化为标准正态变量,
然后根据正态分布表求得相应的概率。
★★3.2样本均值
X
的抽样分布或概率分布
样本均值是总体均值的估计量,但由于样本均值是依据某一给定样本而定,因此其值也
会因随机样本的不同而变化。也就是说,样本均值也是随机变量,并且有其自己的概率分布
函数。
称X1,X2,⋯⋯,Xn构成一个容量为n的独立同分布随机变量(independentlyandidentically
distributedrandomvariables,variables),即所有的X是从同一概率密度(即每个Xi
有相同的概率密度函数)中独立抽取得到的。
如果Xi~N(u,2)且每个Xi独立抽取得到,则称X1,X2,⋯⋯,Xn是i.i.d.随机变量,正
态概率密度函数是其共同的概率密度。
估计量(比如样本均值)的概率密度。
例3.6
正态分布的均值为10,方差为4,即N(10,4)。从这个正态总体中抽取20个随机样本,
每个样本包括20个观察值。对抽取的每一个样本,得到其样本均值X,因而共有20个样本
均值,见表3-3。
.
Word资料
图3-的条线图描绘了样本均值的经验概率分布。
.
Word资料
如果列出更多这样的样本,那么样本均值的概率分布服从正态分布。
若X1,X2,⋯⋯,Xn是来自于均值为u,方差为2的正态总体的一随机样本。则样本均值,X
也服从正态分布,其均值为u,方差为
2
n
,即
2
~(,)u
n
(3-6)
样本均值X(u的估计量)的抽样(或概率)分布,同样服从正态分布。其均值与每一个Xi的
均值相同,但方差等于Xi的方差(2)除以样本容量n。
证明:
因为X=(X1+X2+…+Xn)
n
E(
X
)=[E(X1)+E(X2)+…+E(Xn)]
n
=[u+u+…+u]
n
=u
Var(
X
)=var[(X1+X2+…+Xn)/n]
=var(X1+X2+…+Xn)
n2
=[var(X1)+var(X2)+…+var(Xn)]
n2
(独立变量方差性质)
=(
2+
2+…
2)/n2
=n
2/n2
=
2/n
X~N(u,2
n
)可以转化为标准正态分布
Xu
Z
n
.
Word资料
中心极限定理
从正态总体中抽样,其样本均值同样服从正态分布。但是如果从其他总体中抽样又如何
呢?
中心极限定理(centrallimittheorem,CLT):
如果X1,X2,…,Xn是来自(均值为u方差为
2的)任一总体的随机样本,随着样本容
量无限增大,则其样本均值X趋于正态分布,其均值为u,方差为
2/n。
注意样本方差的公式,分母是n-1,因为要求估计量是无偏的。
证明:
2
2
2
22
22
222
22
()
[]
1
1
=[()]
1
1
=[()2(()]
1
1
[()2()()()]
1
()2(),
1
[()2()()]
1
21
1
()()
11
1
XX
ESE
n
EXuXu
n
EXuXuXuXu
n
EXuXuXuXu
n
XunXu
EXunXuXu
n
n
EXuEXuE
nn
n
因为所以
())
2
222
22
2
2
2
2
()]
2
1
()()()
11
1
1
=()()
1
1
1
=
11
(1)
=
1
=
Xu
nn
EXuEXuEXu
nn
n
n
EXuEXu
n
n
n
n
nn
n
n
n
(注:如果X为样本均值
X
,则
X
为X)
.
Word资料
3.3
2分布
如果随机变量X服从均值为u,方差为
2的正态分布,即X~N(u,
2),则随机变量
Z=(X-u)/是标准正态变量,即Z~N(0,1)。
标准正态变量的平方服从自由度(degreesoffreedom,d.f.)为1的
2
分布,即是一种特殊
的
2
分布,用符号表示为,
Z2=
2
(1)
(3-7)
其中
2的下标(1)表示自由度(d.f.)为1,这里定义自由度是平方和中独立观察值的个
数。
令Z1,Z2,⋯⋯,ZK为K个独立的标准正态变量(即每一个变量均是均值为0,方差为1的正
态变量),对所有的变量Z平方,它们的平方和服从自由度为K的
2
分布,即
22222
12()ikk
ZZZZZ
:(3-8)
这里的自由度为k,因为在式(3-8)的平方和中,有K个独立的观察值。
.
Word资料
2分布的性质
(1)如图3-8示,与正态分布不同,
2分布只取正值(它是平方和的分布)且取值范围
从0到无限大。
(2)与正态分布不同,
2分布是斜分布,其偏度取决于自由度的大小,自由度越小,
越向右偏,但随着自由度的增大,逐渐呈对称,接近正态分布。
(3)
2分布的期望为k,方差为2k。
(4)若E1、E2分别为自由度为k1,k2的两个相互独立的
2变量,则其和(Z1+Z2)也是一
个
2变量,其自由度为(k1+k2)。
★★3.4t分布
运用最广泛的另一个概率分布是t分布,t分布又称为学生t分布(Student'stdistribution),
与正态分布也密切相关。
(注:学生是统计学家的笔名,他于1908年发现了这一概率分布。)
若X~N(u,
2
n
)
则变量Z服从标准正态分布:
Xu
Z
n
(3-9)
假定仅知道u及
2的估计量的值
2s,用样本标准差S代替总体标准差,得到一
个新的变量
/
Xu
t
sn
(3-10)
变量t服从自由度为(n-1)的学生t分布。与
2分布类似,t分布也与参数自由度有关,
自由度为n-1。
.
Word资料
t分布的性质
(1)t分布与正态分布类似,具有对称性。
(2)t分布均值,与标准正态分布均值相同为0,但方差为k/(k-2)。
(注:在求t分布的方差时定义自由度必须大于2。)
标准正态分布方差总为1,表明t分布方差总比标准正态分布方差大——t分布比正态分
布略“胖”一些。但是当k增大时,t分布的方差接近于标准正态分布方差值1。
如果自由度k=10,则t分布方差为10/8=1.25;
如果自由度k=30,则其方差为30/28=1.0;
如果自由度k=100,则其方差为100/98=1.02
因此与
2分布类似,随着自由度的逐渐增大时,t分布近似正态分布。
(注:当k为30,t分布的方差已与标准正态分布方差相差不大。)
例3.7
假定真实的出售平均数量为70支,那么15天内出售玫瑰花平均数量为74支的概率是多
少?(样本方差为4)
如果知道真实的标准差,则可通过标准正态分布变量Z来解答。但是,现在仅知道
真实标准差的估计量S,则可以利用式(3-10)来计算t值。
7470
/4/15
Xu
t
sn
3.873
自由度为14时,查表得,t值大于等于2.145的概率为0.025(2.5%),t值大于等于2.624的
概率为0.01(1%),t值大于等于3.787的概率为0.001(0.1%)。
.
Word资料
★★3.5F分布
如果随机样本X1,X2,…,Xm来自均值为uX,方差为
2
X
的正态总体,其样本容量为
m;随机样本Y1,Y2,⋯⋯,Yn为来自均值为uY,方差为
2
Y
的正态总体,其样本容量为n,
且这两个样本相互独立。
如何知道这两个正态总体是否同方差?即
2
X
=
2
Y
由于不能直接观察两个总体的方差,但假定可以知道它们的估计量:
2
()
1
i
X
XX
S
m
2
()
1
i
Y
YY
S
N
现考虑比值:
2
2
X
Y
S
F
S
()/(1)
()/(1)
i
i
XXm
YYn
如果两总体方差真实值确相等,则F值将接近于1,但如果两总体方差真实值不相等,则
F值不等于1;两总体方差相差越大,F值就越大。
如果
2
X
=
2
Y
(即两总体同方差),则比值F值服从分子自由度为(m-1),分母自由
度为(n-1)的F分布。
1,2kkF
双下标表明了分子与分母自由度。(在此例中,k1=(m-1),k2=(n-1)]。
F分布的性质
(1)与
2分布类似,F分布也是斜分布,向右偏,其取值范围也为0到无限大。
.
Word资料
(2)与
2分布类似,当自由度k1,k2逐渐增大时,F分布近似正态分布。
(3)t分布变量的平方服从分子自由度为1,分母自由度为k的F分布,即
2
1,k
k
tF
例3.8
两班做同样的经济计量学测试。其中,一个班级共有100名学生,另一班级共有150名
学生,该老师从第一个班级随机抽取25个学生,从第二个班级随机抽取31个学生,观察得
到两个班级学生考试平均分数的样本方差分别为100和132。假设学生考试平均分数这一随
机变量服从正态分布,那么是否能够认为两班级分数平均值同方差。
因为这两个随机样本来自两个正态总体,并且相互独立,则
132
100
F
1.32
.
Word资料
服从自由度为30、24的F分布。查F分布表得当分子自由度为30、分母自由度为24时,F
值大于等于1.31的概率为25%。