
定距变量
牙膏脸-沉默是金歌词谐音
2023年2月21日发(作者:层积云)统计学期末复习重点
一.单项选择(20X2=40)
单选题所涉及的知识点,不用死记概念,要理解其内涵,灵活应用!
第一章.绪论
统计的定义:统计是人们认识客观世界总体数量变动关系和变动规律的活动的总
称,是认识客观世界的有力工具。
统计学的定义:统计学是关于数据的科学,研究如何收集(如调查与试验)、分
析(回归分析)、表述数据(图与表),并通过数据得出基本结论。
统计的研究对象的特点:①数量性。统计数据是客观事物量的反映。②总体性。
统计的数量研究是对现象总体中各单位普遍存在的事实进行大量观察和综合分
析。③变异性。总体各单位的特征表现存在着差异,而且这些差异并不是事先可
以预知的。
统计的分类:统计可分为描述统计,推断统计、核算统计、理论统计、应用统计
描述统计:汇总的表、图和数值。包括搜集数据、整理数据、展示数据
推断统计:用样本数据对总体性质进行估计,检验
核算统计:对国家或地区经济运行过程及各类总量进行描述和分析
总体:根据一定目的确定的所要研究的事物的全体。它是由客观存在的、具有某
种共同性质的许多个别事物构成的整体。
总体单位(简称单位):是组成总体的各个个体。根据研究目的的不同,单位可
以是人、物、机构等实物单位,也可以是一种现象或活动等非实物单位。
样本:由总体的部分单位组成的集合。样本容量:样本所包含的总体单位数
标志(变量):总体各单位普遍具有的属性或特征。
标志的分类:①品质标志:单位属性方面的特征。品质标志的表现只能用文字、
语言来描述。②数量标志:单位数量方面的特征。数量标志可以用数值来表现
几种常用的统计软件:SASSPSSMINITABSTATISTICAExcel
思考题:1、在调查某高校学生的学习状况时,总体是(C)
A该校全部学生B该校每个学生
C该校全部学生的学习情况
D被随机抽取进行数据采集的全部学生
2.要了解全国的人口情况,总体单位是(A)。
A.每一个人B.每一户
C.每个省的人口D.全国总人口
第二章.数据
数据:所收集、分析、汇总表述和解释的事实及数字,数据是进行统计分析研究
的基础;是统计学研究对象的特征,是客观事实;不仅仅局限于数字范畴,包括
非数字形式的其他信息。
个体——总体单位:收集数据的实体,也就是数据的承载者
变量(标志):个体的特征或者属性变量值:个体在变量上的具体表现(例如,
固定资产是一个变量,各企业固定资产的具体数值是变量值)
指标(统计指标):是说明总体的综合数量特征的。
标志:总体各单位普遍具有的属性或特征
指标与标志的区别:①标志是说明总体单位特征的,而指标是说明总体特征的。
②指标都能用数值表示,而标志中的品质标志不能用数值表示,是用属性表示的。
连续型变量:变量的取值在数轴上连续不断,无法一一列举,即在一个区间内可
以取任意实数值。(例如,气象上的温度、湿度,零件的尺寸等)
离散型变量:变量的取值是整数值,可以一一列举。(例如,企业数,职工人数)
数据的分类:
品质数据:不能用数字来表述的特征。如人的性别,民族,宗教信仰等
数量数据:用数字能够表述的特征,数值型特征,如人的身高,体重等
二者的区别:数量数据总是以数字形式表现,品质数据可以是数值型,也可以是
非数值型。只有数量数据可以进行数学运算
数据的计量尺度:可分为定类尺度、定序尺度、定距尺度、定比尺度
定类变量:“名义型变量”,值只能用文字表述,说明事物是属于这一类还是属
于那一类,不同类别间地位相等,没有高低优劣之分,如性别,民族,党派。
定序变量:“顺序型”变量,变量值只能用文字表述。与定类变量不同的是,定
序变量的值有高低、大小、多少、优劣、强弱等方面的区分,即变量的值有顺序
性。如考试成绩用优秀,良好,及格,不及格来显示,用文盲、半文盲、小学、
初中、高中、大学、研究生来标记每个人的文化程度。
定距变量:变量值为数值型,对事物的准确测度,比定序尺度精确,没有绝对零
点,变量值只能进行加减计算而不能进行乘除计算,如温度,公元纪年等极少数
现象属于定距变量
定比变量:数据表现为“数值”对事物的准确测度,与定距尺度处于同一层次,
有绝对零点,具有或的数学特性,可以进行任何形式的计算
截面数据:相同或近似相同的时间点上收集的数据,某个时间点或某瞬间事物或
现象的特征情况,静态数据
时间序列数据:在几个时期或时点收集到,反映同一主体同一特征情况的数据,
动态数据
统计调查方式:统计调查方式有普查、抽样调查、典型调查、重点调查
普查:为特定目的专门组织的非经常性全面调查,通常是一次性或周期性的;一
般需要规定统一的标准调查时间,应用范围比较狭窄,如人口普查,工业普查
抽样调查:从总体中随机抽取一部分单位(样本)进行调查,分重复抽样和不重复
抽样,目的是推断总体的未知数字特征,遵循随机性原则,存在调查误差,并且可
以加以控制,具有经济性、时效性强、适应面广、准确性高等特点
典型调查:从调查对象的全部单位中选择少数典型单位进行调查,目的是描述和
揭示事物的本质特征和规律,调查结果不能用于推断总体
重点调查:从调查对象的全部单位中选择少数重点单位进行调查,调查结果不能
用于推断总体,优点在于调查单位少,可以调查较多的项目和指标,了解较详细
的情况。即用较少的人力和时间,取得较好的效果。组织重点调查的关键问题是
确定重点单位。
调查误差:收集的数据资料与真实情况之间的差距,可分为登记性误差和代表性
误差,登记性误差:由于调查者或被调查者的人为因素所造成的误差,理论上讲
可以消除。代表性误差:用样本数据进行推断时所产生的误差,通常无法消除,
但事先可以进行控制和计算。
组距分组步骤:①确定组数:组数的确定没有专门的规定,应以能够显示数据的
分布特征和规律为目的。建议组数:5-20组
②组限:变量值区间两端的值,上限和下限,其中上限为一个组的最大值,下
限是一个组的最小值
③确定各组组距:组距是一个组的上限与下限之差,可根据全部数据的最大值和
最小值及所分的组数来确定
注意:开口组只有一个组限,无法计算组距,开口组以相邻一组的组距作为其组
距
④根据分组整理成频数分布表
组距:上限与下限之差组距=(最大值-最小值)÷组数
组中值:下限与上限之间的中点值组中值=(下限值+上限值)/2
第三章.单变量描述统计
频数——次数:对总体经过分组后形成各组单位数在各组间的分布。也就是各类
别中的数据个数。
频数分布——次数分布,分布数列:总体中的各个类别及其相应的频数全部展示
出来的数据集汇总表
累计频数(P62表3-3)
向上累计:将各组次数和比率,由变量值低的组向变量值高的组逐组累计。
向下累计:将各组次数和比率,由变量值高的组向变量值低的组逐组累计。
众数:出现次数最多的变量值。
对单项式分组数列确定众数:出现次数最多的标准值就是众数(书P63例3.2)
对组距数列确定众数:出现次数最多的组作为众数所在组
中位数:排序后处于中间位置上的值。
中位数位置的确定:(看书P65例3.4)
未分组数据:
组距分组数据:(根据向上/下累计法确定中位数)
未分组数据的中位数的计算公式:
四分位数:把数据分为4部分,处在分位点的数值
四分位数位置的确定:
未分组数据:下四分位数位置=(N+1)/4
上四分位数位置=3*(N+1)/4
组距分组数据:下四分位数位置=N/4
2
1
N
中位数位置
2
1
N
中位数位置
2
1
f
中位数位置
2
1
f
中位数位置
NN
N
e
1
22
2
1
为偶数时当
为奇数时当
NXX
NX
M
NN
N
e
1
22
2
1
2
1
上四分位数位置=3N/4
均值(P69例3.10)
简单均值的计算公式为
权均值的计算公式为
第四章.两变量描述统计
相对指标:两个有联系的指标数值对比得到的综合指标
相对指标的表现形式:无名数和有名数无名数:抽象掉分子和分母的计量单位。
表现为百分数,千分数,倍数,系数有名数:保留分子和分母的计量单位。
表现:密度
相对指标的具体形式(6种):(具体参考第四章的ppt弄懂)
结构相对数=(各部分比重和为1)
比例相对数=(三个或三个以上的连比)
比较相对数=(横向比较,静态)
动态相对数=(随时间发展的变化,动态)
强度相对数=(两个性质不同
但有一定联系的总量指标之比,有名数)
计划完成程度相对数=(计划完成的程度)
协方差:度量两个具有联合概率分布P(X,Y)的随机变量之间线性关系的指标
样本:含有n个个体,每个个体含有两个数据值(x1,y1),(x2,y2)
样本协方差公式:
总体协方差:变量离差乘积的数学期望
N
i
i
N121
N
X
N
XXX
X
N
i
i
N
121
K
i
i
K
i
ii
N
NN
1
1
21
2211
K
i
i
K
i
ii
N
NN
F
FX
FFF
FXFXFX
X
1
1
21
2211
%100*
总体全部数值
总体部分数值
总体中另一部分数值
总体中某部分数值
另一范围的该指标数值
某一范围指标数值
%100*
基期指标数值
报告期指标数值
总体的指标数值另一有联系而性质不同
某一总体的指标数值
%100*
计划数
实际完成数
1
))((
n
yyxx
sii
xy
总体协方差公式:
总体相关系数:(总体相关系数记为)
样本相关系数:(样本相关系数记为r)
r的取值范围是[-1,1]
|r|=1,为完全相关r=1,为完全正相关
r=-1,为完全负正相关r=0,不存在线性相关关系
-1r<0,为负相关0 |r|的数值愈接近于1,x与y直线相关程度愈高 |r|的数值愈接近于0,x与y直线相关程度愈低 相关程度评价标准: |r|<0.3称为微弱相关 0.3≤|r|<0.5称为低度相关 0.5≤|r|<0.8称为显著相关 0.8≤|r|<1称为高度相关或强相关。 第五章.概率与概率分布 正态分布的概率密度函数: f(x)=随机变量X的频数=总体方差=3.14159;e=2.71828 x=随机变量的取值(- 正态分布函数的性质: ①概率密度函数在x轴的上方,即f(x)>0 ②正态曲线的最高点在均值,它也是分布的中位数和众数 ③正态分布是一个分布族,每一特定正态分布通过均值的标准差来区分。 决定曲线的高度,同时决定曲线的平缓程度,即宽度 ④曲线f(x)相对于均值对称,尾端向两个方向无限延伸,且理论上永远不会 与横轴相交 ⑤正态曲线下的总面积等于1 正态分布的概率: P(a≤x≤b)=∫a bf(x)dx 标准正态分布函数: 22 )( 22)()( ))(( yyxx yyxx r N YYXX ii xy ))(( yx xy N YYXX ii xy ))(( x2 22 1 xxf x ,e 2 1 )( 2 22 1 任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布 标准正态分布的概率密度函数: 标准正态分布的分布函数: 标准正态分布表的使用: 将一个一般的转换为标准正态分布,计算概率时,查标准正态概率分布表 对于负的x,可由(-x)x得到 对于标准正态分布,即X~N(0,1),有 P(aXb)ba P(|X|a)2a1 对于一般正态分布,即X~N(,),有 例1:设X~N(0,1),求以下概率: (1)P(X2); (3)P(-1 解:(1)P(X<1.5)=(1.5)=1-0.0668=0.9332 (2)P(X>2)=1-P(X2)=1-0.9973=0.0228 (3)P(-1 =(3)-(-1)=(3)–[1-(1)] =0.9987-(1-0.8413)=0.8354 (4)P(|X|2)=P(-2X|2)=(2)-(-2) =(2)-[1-(2)]=2(2)-1=0.9544 例2:设X~N(5,32)),求以下概率 (1)P(X10);(2)P(2 解:(1) )1,0(~N X Z x t xttxfxde 2 1 d)()(2 - 2 x2 2xxf x2 2e π2 1 )( a ab bXaP)( 9525.0 9525.0)67.1(67.1 3 5 3 510 3 5 )10( X P X PXP 另外,第五章第二节:大数定律与中心极限定理大家了解即可,不是重点内容, 不放心的可自行参考第五章的ppt内容 第九章.抽样调查 抽样调查的意义:一般所讲的抽样调查,即指狭义的抽样调查(随机抽样), 按照随机原则从总体中抽取一部分单位进行观察,并运用数理统计的原理,以被 抽取的那部分单位的数量特征为代表,对总体作出数量上的推断分析。 总体:由被调查对象的全部单位所构成的集合体,总体单位数用N表示。 抽样总体:抽取出来调查观察的单位,抽样总体的单位数用n表示。n≥30大 样本n<30小样本 抽样估计:在抽样调查的基础上,利用样本的数据资料计算样本指标,以样本特 征值对总体特征值做出具有一定可靠程度的估计和判断。 总体和样本的方差和标准差:分有偏(n>30)和无偏(n≤30) 总体成数:每个总体单位标志值设为0或11:具有某种属性的总体单位标志 值0:不具有某种属性的总体单位标志值总体中具有某种特征的单位占全部 总体单位数的比例称为总体成数,记作P 成数总体方差:P(1-P) 样本成数:从成数总体中抽取样本容量为n的样本,样本中具有此种特征的单位 占全部样本单位数的比例称为样本成数,记作pp=n1/n 成数是一种特殊的平均数,是总体中具有某个属性的单位占全体单位的比重 样本成数p是总体成数P的无偏、一致、有效估计量 样本成数的无偏方差是成数总体方差的无偏估计量 第十章和第十一章以计算题考核为主,选择题不再细分知识点! 二、简答题(7+8=15,四题中任选两题,必须牢记!) 1、抽样平均误差受哪些因素影响? 抽样平均误差不仅是测定样本指标对总体指标代表性高低的一个重要尺度, 也是根据样本指标对总体指标进行推断的重要依据,他的大小与总体标志变异度 (即总体的标准差大小)成正比,与样本容量成反比,而且与抽样调查的组织形 式和抽样方法有关。 2、什么是简单随机抽样?具体做法是什么? 简单随机抽样是从总体单位中不加任何分组、排队,完全随机地抽取调查单位。 具体做法: (1)直接抽选法:总体单位不编号,不编制抽样框 (2) 7938.0)1()67.1( 67.1 3 5 1 3 510 3 5 3 52 )102( X P X PXP (2)抽签法:对总体所有单位进行编号,且签需外形一致 (3)随机数表法:总体所有单位编号,使用随机数表抽样 (4)计算机模拟法:将随机数字编程 3、什么是时期指标、时点指标,两者之间有什么区别? (1)时期指标:指反映某种社会经济现象在一段时间内发展变化结果的总 量指标,它所反映的是一段时间连续发生的变化过程。例如,社会生产总值,国 内生产总值,利润总额,税收总额等。 (2)时点指标:时点指标是反映社会经济现象总体在某一时刻(瞬间)的 数量状况,例如,全国总人口数、商品库存数、乡镇企业个数等。 区别:①时期指标的指标值具有连续性,而时点指标的指标值不具有连续性。 ②时期指标的指标值可以累计相加,而时点指标的指标值不能累计相加。 ③时期指标指标值的大小与所包括的时期长短有直接的关系,而时点指标 指标值的大小与时间间隔长短无直接关系。 4、举例说明总体、样本、参数、统计量的概念、区别和联系 区别:总体是具有某种共同性质的多个个体组成的集合;样本是从总体中抽取的 一部分个体构成的集合;参数是用来描述总体特征的概括性数字的度量;统计量 是用来描述样本特征的概括性数字度量。 联系:样本是从总体中抽取的一部分个体组成的集合;参数是用来描述总体的特 征的,统计量是用来描述样本的特征的。 举例:如果研究的对象是100人,这100人就是总体。从中抽取10人做研究,那就 是样本。参数是反映总体统计特征的数字,如这100人的平均身高,方差等等。 统计量就是反应样本的某些特性的量,如10人的身高。 或者河南省的所有工业企业构成一个总体,从中抽取100个企业就构成一个样本, 对这100个企业构成的样本计算的企业平均工资、企业平均产值等就是统计量, 而河南省所有工业企业的平均工资、平均产值则是参数。 (这两个例子中任选一个作答即可) 三、计算题(4大题,总共45分) 1、考试范围:第三章:单变量描述统计 知识点: (1)众数:出现次数最多的变量值 (2)中位数:未分组数据: 2 1 N 中位数位置 组距分组数据: 2 1 f 中位数位置 (3)未分组数据的中位数: 为偶数时当 为奇数时当 NXX NX M NN N e 1 22 2 1 2 1 (4)四分位数:排序后处于25%和75%位置上的值。未分组数据: 下四分位数(Q L )位置= N+1 4 上四分位数(Q U )位置= 3(N+1) 4 组距分组数据 下四分位数(Q L )位置= N 4 上四分位数(Q L )位置= 3N 4 (5)P百分位数:p%的数据项的值小于等于P百分位数;(100-p)%的数据项的值大于等P 百分位数 (6)均值:一组数据的均衡点所在 设一组数据为:X1,X2,…,XN。简单均值的计算公式为: N X N XXX X N i i N 121 设分组后的数据为:X 1 ,X 2 ,…,X K,相应的频数为:F 1 ,F 2 ,…,F K 加权均值的计算公式为 K i i K i ii N NN F FX FFF FXFXFX X 1 1 21 2211 各变量值与均值的离差之和等于零 n i i XX 1 0)( 各变量值与均值的离差平方和最小 n i i XX 1 2min)( (7) 调和平均数 i ii i ii ii MF FX X FX FX H 8 四分位差(定序数据)上四分位数与下四分位数之差:Q D =Q U -Q L (9)极差:未分组数据:R=max(X i )-min(X i ); 组距分组数据R=最高组上限-最低组下限 (10)平均差:未分组数据 N XX M N i i D 1 组距分组数据 K i i K i ii D f fXX M 1 1 (11)异众比率(定类数据) i m i mi rf f f ff V1 标准差系数: %100 X V (12) 偏态:偏态系数=0为对称分布;偏态系数>0为右偏分布;偏态系数<0为左偏分布峰度: 3 1 3 3 N fXX K i ii 峰度系数=3,扁平程度适中,正态分布;扁平分布,偏态系数<3,变量值的次数在众数周 围分布分散;尖峰分布,偏态系数>3,变量值的次数在众数周围分布集中 4 1 4 4 N fXX K i ii 请仔细复习P98第5、6题 2、考试范围:第九章:抽样调查,知识点:抽样估计 (1)样本成数的无偏方差(n<=30) )1( 1 2pp n n s p (2)样本成数的有偏方差(n>30) )1(2 0 pps p (3)样本成数的性质:x1,x2……xn的各标志值中有n1个值为1,有n0个值为0, 所以 p n n x n x n i i 1 1 1 (4)实际抽样推断中采用的公式(*)重复简单随机抽样: n x 2 )( 不重复简单随机 抽样: )1() 1 ()( 22 N n nN nN n x (5)样本成数的抽样平均误差:重复抽样条件下 n PP p )1( )( 不重复抽样条件下: )1( )1( )( N n n PP p 例题: (6)区间估计:设总体参数为,由样本确定的两个统计量,对于给定的,有 1)( 21 P ()总体未知参数落在区间内的概率,表示为(1-,为显著性水平,是总体参数未在 区间内的概率,常用的置信水平值有99%,95%,90%,相应的为,, ()总体均值的置信区间(2已知),假定条件:总体服从正态分布,且总体方差(2) 已知,如果不是正态分布,可以由正态分布来近似(n>=30),使用正态分布统计量Z, )1,0(~N n x Z ,总体均值在1-置信水平下的置信区间为 n Zx n Zx 22 , 请查阅PPT,课后习题P280.5 3、考试范围:第十章:时间序列分析,知识点:序时平均数、时间序列分析指 标 (1)一、根据绝对数时间数列计算的 根据时期数列计算的 根据时点数列计算的①根据连续性时点数列计算的:间隔相等、间隔不等 ②根据间断性时点数列计算的:间隔相等、间隔不等 二、根据相对数时间数列计算的 三、根据平均数时间数列计算的 (2)总量指标时期数列——算术平均,连续时点间隔不相等时——加权算术平 均 间断时点数列的序时平均数;间隔相等时,采用首末折半法计算;间隔不相等时, 采用时间间隔长度加权平均 5、时间序列指标分析法通过时间序列的分析指标来揭示现象的发展变化状况和发展变化 程度。(水平指标,速度指标) 水平指标包括:发展水平,平均发展水平,增长量,平均增长量 速度指标包括:发展速度,平均发展速度,增长速度,平均增长速度 (4)有逐期增长量与累积增长量之分: 逐期增长量,报告期水平与前一期水平之差计算形式为:Δi=Yi-Yi-1(i=1,2,…,n) 累积增长量,报告期水平与某一固定时期水平之差,计算形式为:Δi=Yi-Y0 (i=1,2,…,n) 55.0) 2000 200 1( 200 81.7 )1( 22 N n nx 42 200 8400 f xf x 81.7 200 12200 )(2 f fxx s (5)逐期增长量:11201 ,,, nn yyyyyy (6)累计增长量:00201 ,,,yyyyyy n (7)二者的关系: 011201 yyyyyyyy nnn , niyyyyyy iiii ,,2,1 1010 (8)平均增长量: 1 观察值个数 累积增长量 逐期增长量个数 逐期增长量之和 平均增长量 (9)发展速度:报告期水平与基期水平之比 (10)环比发展速度:报告期水平与前一期水平之比, ),,2,1( 1 ni Y Y R i i i (11)定基发展速度:报告期水平与某一固定时期水平之比, ),,2,1( 0 ni Y Y Ri i (12)环比发展速度与定基发展速度的关系:10 1 0 i iii Y Y Y Y Y Y (13)增长速度: 1 发展速度 基期水平 基期水平报告期水平 基期水平 增长量 增长速度 (14)环比增长速度,报告期水平与前一时期水平之比, ),,2,1(1 11 1ni Y Y Y YY G i i i ii i (15)定基增长速度,报告期水平与某一固定时期水平之比, ),,2,1(1 00 0ni Y Y Y YY Gii i (16)平均发展速度, ),,2,1( 0111 2 0 1niR Y Y Y Y Y Y Y Y Y Y Rn n n n i i n n n (17)速度的分析与应用, 100100 %1 前期水平 环比增长速度 逐期增长量 绝对值=增长 请看PPT相关例题,课后练习题P318第10、11题 4、考试范围:第十一章:统计指数分析,知识点:综合指数 (3)综合指数:反映多个项目变量的综合变动,如多种商品的价格或销售量的综合变动 (4)拉氏综合指数——同度量因素固定在基期;派氏综合指数——同度量因素固定在报告 期;我国:数量指标指数用拉氏形式,质量指标指数用派氏指数形式 (5)拉氏综合指数,质量指数: 00 01 01qp qp p ,数量指数: 00 10 01qp qp q (6)派氏综合指数,质量指数: 10 11 01qp qp p ,数量指数: 01 11 01qp qp q (7)理想指数(费雪公式), 10 11 00 01qp qp qp qp PLF ppp 10 11 00 01pq pq pq pq PLF qqq 以上为计算题知识点的公式,请看PPT例题,以及相关课后 练习题,仅供参考!