
一般线性模型
油罐清洗-瑞文智力测验
2023年3月19日发(作者:gb50028)第三篇SPSS深入分析(第9章相关分析及一般线性模型)
1/31
第三篇SPSS深入分析
本篇说明:
1.本篇讲述的内容都是涉及两个以上变量的,称为多元统计分析,本篇重点说明多元统
计分析方法的应用条件,统计方法的模型和统计方法的SPSS操作实现即结果分析;
2.虽然本篇对各种多元统计分析方法的模型进行了比较详细的介绍,然而本书毕竟是以
SPSS应用为重点,因此不可能对多元统计分析模型面面俱到详细介绍,模型的详细内容
请读者参考专业多元统计分析书籍;
3.请读者在阅读本篇时注意两个问题:一方面要注意各种多元统计分析方法应用的条件,
条件不满足不能轻易使用多元统计分析模型;另一方面要注意归纳各种多元统计方法之间
的区别和联系,书中列出了各方法的主要区别和联系,读者注意理解。同时读者也可能自
己发现方法间新的区别及联系。
4.由于篇幅关系,对于前面的基本SPSS操作和一元统计分析SPSS操作本篇不再详细说
明,只是列出简要操作步骤,请读者注意自行练习,操作验证。
本篇要点导读:
第9章相关分析及广义线性模型
一般相关分析和偏相关分析,偏相关系数计算,以及广义线性模型简单应用;
第10章回归分析
一元线性回归、多元线性回归、非线性回归及Logistic回归的模型和应用;
第11章聚类分析和判别分析
聚类和判别分析的适用条件,聚类分析包括层次聚类和K-均值聚类,判别分析
包括Fisher判别和Bayes判别;
第12章因子分析和对应分析
因子分析的一般模型,因子分析的应用;对应分析的一般模型和应用;
第13章时间序列分析
时间序列的建立,预处理,时间序列中常用的ARIMA模型和季节调整模型。
第三篇SPSS深入分析(第9章相关分析及一般线性模型)
2/31
第9章相关分析及一般线性模型
在前面的第2篇中,我们讲解的统计方法基本都是一元统计方法,只
分析一个变量。这其中有几个例外:多选项分析中涉及多个SPSS变量,
但是经过多选项集定义以后,还是将多选项集当作一个变量在分析;参数
检验和非参数检验中都有配对样本检验,也涉及多个SPSS变量,只是对
于配对变量来说,都是同一性质的变量,分析时也是结合在一起分析的,
因此可以算作分析一个变量;方差分析中涉及多个变量;但是方差分析主
要是分析观测变量,控制变量只是用来对观测变量分类的,因此仍然是分
析一个变量。当然一元统计分析的模型还有很多,本书限于篇幅只是列举
了SPSS中常用的功能,对于其他模型有兴趣的读者可以查阅相关统计专
业书籍。
从本章开始,我们开始介绍多元统计分析的模型和方法,和一元统计
分析对应,多元统计分析方法分析的是多个性质不同的SPSS变量;一元
统计只是分析总体的某个特征,而多元统计分析则是分析总体的多个特
征,分析这些特征各自的情况,并分析这些特征的联系,对这些特征进行
处理的方法等等。因此多元统计的问题比一元统计复杂,处理的方法也更
多。在本篇中将给读者介绍SPSS中常用的多元统计方法:相关分析、回
归分析、聚类和判别、因子及对应分析,以及时间序列分析。
第三篇SPSS深入分析(第9章相关分析及一般线性模型)
3/31
相关分析是比较简单的多元分析方法,但是也是经常使用的多元统计
分析方法,它能快速发现总体特征(变量)之间关系,并检验这些特征的
显著性。这一方面对于简单的统计分析已经可以提供足够的结论,另一方
面也为后续的更加复杂的多元统计分析模型提供条件和依据。因此,相关
分析在多元统计分析中的作用是非常大的。
一般线性模型是方差分析的推广和延伸,其作用是分析一个或多个自
变量对一个或多个应变量的线性关系,其内容非常丰富,包含方差分析、
重复测量方差分析、多元线性回归等等,在第8章我们已经接触过它的强
大功能了,掌握一般线性模型对于我们提高自身的统计分析能力有很大帮
助。我们就从这两个简单而又重要的方法开始学习多元统计分析的模型。
9.1相关分析
现代自然科学研究、经济检验、企业管理等活动中普遍存在的相互影
响、相互依存的关系可以概括为两大类:函数关系和相关关系,函数关系
是一种严格的确定对应关系,而相关关系是一种不要求确定对应,具有一
定随机性的关系,实际中,并且相关关系更具有一般性。相关分析是处理
变量之间相关关系的一种统计方法。通过相关分析,可以了解两个或两个
以上的变量之间是否有相关关系,相关关系的方向、形式以及相关密切程
度。下面我们就为读者简单介绍相关分析。
9.1.1引例,相关分析概述
相关分析是用来研究变量间相关关系的,因此读者必须对相关关系有
第三篇SPSS深入分析(第9章相关分析及一般线性模型)
4/31
一个比较清楚的概念。在现实生产生活中,各种事物特征、各种现象之间
相互联系、相互制约、相互依存,某些现象发生变化时,另一现象也会随
之变化,例如,居民收入的高低会影响银行储蓄额的增减,商品价格的变
化会影响商品销售量的变化等等。这些影响依存的关系又可分为函数关系
和相关关系两大类。
1.相关关系的定义
函数关系是指现象、变量之间一种严格的确定性关系。在这种关系中,
当一个变量数值确定时,根据函数关系,另一变量的取值也就唯一确定了,
例如:恒速运动的物体运动位移和时间的关系就是函数关系。相关关系是
指客观变量之间确实存在的,但数量上不是严格对应的依存关系。在这种
关系中,对于其中一个变量的确定取值,另一个变量取值并不是确定的,
而是有多个不同的值及之对应。例如投资和GDP增长有密切关系,一般说
来投资加大会促进GDP增长,但是固定的投资值及之对应的GDP增长值却
不固定,这是因为GDP增长还会受到消费、经济环境、国家政策等诸多因
素影响,会围绕一个平均数上下波动。
函数关系和相关关系并没有严格的界限,在实际中,相关关系更具一
般性,因为即使是函数关系,也会因为测量误差,偶然因素的影响使得结
果并不是严格确定的,因此函数关系就变成了相关关系;而相关关系很多
场合也要借助函数关系的模型和公式来表达,只是加上随机因素的扰动,
如果能够完全消除扰动,那么相关关系就转化为函数关系了。
2.相关关系的种类
第三篇SPSS深入分析(第9章相关分析及一般线性模型)
5/31
弄清楚两种关系的联系后,我们来看相关关系的分类:
相关关系按照涉及的变量个数,可以分为单相关和复相关。单相关是
指研究一个变量和另一个变量之间的相关关系,复相关是指研究一个变量
和另一组变量之间的相关关系,当然还有研究一组变量和另一组变量之间
的多对多的相关关系,我们称之为典型相关,因为SPSS没有提供典型相
关的菜单,因此本书不介绍典型相关。
相关关系按照表现形式不同,分为直线相关和曲线相关,直线相关又
称线性相关,是指一个变量变化时,其变化量及另一个变量的变化量有大
致按比例变化,两个变量的散点图近似落在一条直线附近。曲线相关又称
非线性相关,是指两个变量的变化不是直线变化,散点图也不是落在直线
附近,而是呈现比较复杂的变化情况。
相关关系按照相关方向不同,分为正相关和负相关,如果两个变量变
化方向相同,即同增同减,则两个变量正相关;相反,如果两个变量一增
一减,则是负相关。
另外相关关系按照相关程度,还可以将相关关系分为不相关、低度相
关、显著相关、高度相关和完全相关,我们将结合相关关系的测定对相关
关系的程度进行解释。
3.相关关系的测定
要判断两个变量有没有相关关系,主要从两方面:一是定性分析,二
是定量分析。在定量分析之前需进行定性分析,定性分析主要是根据理论
第三篇SPSS深入分析(第9章相关分析及一般线性模型)
6/31
知识、专业知识和实践经验,对变量之间是否有相关关系进行判断,即回
答相关关系的合理性和科学性问题,例如:GDP的增长和儿童体重的增加
在理论上并没有相关关系,因为儿童体重始终会增加,如果一段时间内
GDP也增长,数据上可能表现出一定的相关性,但是这种相关性没有科学
依据,如果这段时间GDP停止增长,那么这种相关性就没有了,因此这只
是一段时间内巧合。同样的道理,大树下蚂蚁窝的数量和经济增长率之间
也呈现数据上的相关性,但是依然没有科学依据,是一种偶然。许多读者
进行相关分析时是不管变量是什么,直接就分析数据的相关性了,这显然
是不可取的。一定要首先确定变量之间缺失存在理论上的相关可能,在定
性分析的基础上才能进行定量的分析,判断相关的方向、形式及密切程度,
确定相关关系,否则,就会闹蚂蚁窝和经济增长高度相关的笑话。
相关分析的工具主要有相关表、相关图和线性相关系数等,下面我们
通过一个简单的例子来看看这些工具:
例9-1某企业1992-2001年某种产品的产量及单位成本资料如表9-1所
示:请分析该企业产量及单位成本是否存在相关关系,相关关系方向、形
式和相关程度如何?
表9-1某企业产品产量及单位成本数据
年份
产量(万件)689920
单位成本(元)52544342
第三篇SPSS深入分析(第9章相关分析及一般线性模型)
7/31
本例中,要求判断是否存在相关关系,分析相关的方向、形式和程度,
在进行定量分析之前要进行定性分析,产品的产量和单位成本之间是可能
存在相关关系的,因为随着产量增加形成规模效应以后,可以降低产品的
单位成本,因此可以进行定量分析。此时要充分利用相关分析的三种主要
工具。
相关表是一种统计表,它是直接观察原始资料,将一变量按照升序或
降序排列,观察对应的另一变量的值,如果另一变量取值也有相应的增加
或减小趋势,则可以判断存在相关关系,如果另一变量取值大小随机,则
无相关关系。同时可以判断相关关系的方向,如果同增同减则是正相关,
反之为负相关。
从本例中看表9-1中产量是按照升序排列的,而单位成本明显有减少
的趋势,因此可以判断相关关系存在,且为负相关,但是相关关系的形式、
程度不宜从相关表直接得出,应该利用其他的相关分析工具。
相关图也称散点图,它是用一个变量作为x轴,另一个变量作为y轴,
将两个变量对应取值作为坐标,将所有数据在图中描绘出来,用以表明相
关点分布状况的图形,从相关图可以看出变量的相关关系、相关方向、相
关形式,大致也可以看出相关程度,但是相关程度没有具体数值描述,图
9-1是表9-1数据描绘的散点图。
第三篇SPSS深入分析(第9章相关分析及一般线性模型)
8/31
图9-1产量及单位成本散点图
从图中可以看出,产量和单位成本呈现负相关关系,相关关系的形式
从散点的分布可以出,大致是分布在一条直线附近,因此是线性相关,至
于相关程度主要从散点离直线的远近来判断,如果所有的散点都在直线
上,则是完全相关,如果离直线很近,则相关程度高,离直线都较远,那
么相关程度就较低,本例来看,相关程度较高。
相关图虽然能大致看出相关关系的方向、形式、相关程度,但是这种
判断并不精确,根据图形也无法对相关程度是否显著进行判断,因此我们
还需要将相关程度数值化的相关分析工具,这就是相关系数。
相关系数是用以反映变量之间相关关系密切程度的统计量,依据相关
关系之间的不同特性,相关系数有多种,反映两变量线性相关关系的统计
量称为线性相关系数,反映两变量非线性相关关系的称为非线性相关系
数。本节我们主要讨论线性相关系数,根据线性相关系数计算方法不同,
线性相关系数具体又分为:
第三篇SPSS深入分析(第9章相关分析及一般线性模型)
9/31
Person简单相关系数:这是最简单,也是最常用的相关系数,用于度
量两个间隔尺度变量之间的相关性,其数学定义为:
1
22
11
()()
()()
n
ii
i
nn
ii
ii
xxyy
r
xxyy
式中n为样本数,,
ii
xy代表两个变量的样本观测值,计算出的r称为
样本相关系数,它实质是两变量样本标准化后的乘积再取平均数,因此也
称为积矩相关系数。它有如下特点:
➢x、y对称,x、y变量互换位置,r不变;
➢无量纲数,r是标准化后计算的,因此无量纲;
➢简单相关系数只能刻画线性相关关系,不能对非线性相关很好刻
画。
Spearman等级相关系数:这是利用变量的秩构造的线性相关系数,是
一种非参数的方法,由于只利用变量的秩,顺序尺度变量也可以计算
Spearman等级相关系数,且不易受极端值的影响。其计算公式及Person
简单相关系数类似,只是使用变量的秩(,)
ii
uv而非变量的值(,)
ii
xy进行计
算,公式为:
1
22
11
11
()()
22
11
()()
22
n
ii
i
Sp
nn
ii
ii
nn
uv
r
nn
uv
由于:
第三篇SPSS深入分析(第9章相关分析及一般线性模型)
10/31
22
1111
(1)(1)(21)
,
26
nnnn
iiii
iiii
nnnnn
uvuv
上述公式可以简化为:
2
1
22
6()
6
11
(1)(1)
n
ii
i
Sp
uv
D
r
nnnn
Spearman等级相关系数的特点是:
➢如果两变量正相关性较强,则它们秩变化同步,则D值较小,等级
相关系数趋于1;
➢如果两变量负相关性较强,则它们秩变化相反,则D值较大,等级
相关系数趋于-1;
➢如果两变量相关性较弱,则它们秩变化互不影响,则D值趋于中间
值,等级相关系数趋于0。
Kendall相关系数:这是采用非参数方法度量顺序尺度变量间的线性
相关关系,它利用变量秩数据计算一致对数目(U)和非一致对数目(V)来构
造统计量,例如例9-1中数据的秩为:(1,10)、(2,9)、(3,9)、(4,6)、
(5,7)、(6,5)、(7,4)、(8,3)、(9,2)、(10,1),一致(即秩同时增大)
的对数只有1对(4,6)→(5,7),即U=1;而秩不一致对数为44对,即V=44。
Kendall相关系数定义为:
2()
(1)
UV
nn
显然,Kendall相关系数具有如下性质:
第三篇SPSS深入分析(第9章相关分析及一般线性模型)
11/31
➢如果两变量正相关性强,秩变化同步,U应该较大,V应该较小,
趋于1;
➢如果具有较强负相关关系,秩变化相反,V较大而U较小,趋于
-1;
➢如果相关关系弱,则U、V大致相等,趋于0。
根据计算,在例9-1中,三个相关系数为:
0.987,0.944,0.985
Sp
rr
计算出的数值很接近,从而可以判断出两个变量是负相关的,并且高
度线性相关。
关于相关的程度,一般认为r=0,完全不相关;0<|r|<0.4,低度线性
相关;0.4<|r|<0.7,显著线性相关;0.7<|r|<1,高度线性相关;|r|=1,
完全相关。
9.1.2显著性检验
9.1.1中,我们已经计算出Person简单相关系数,Spearman等级相关
系数和Kendall相关系数的数值,但是我们还需要通过显著性检验来确
认这些相关系数在统计上是否显著不为0。根据相关系数的不同,其统计
检验的统计量也不相同,构建的假设检验也略有差异,下面我们就分别介
绍:
相关系数假设检验:
其检验的原假设是相关系数等于0,即相关系数不显著,检验t统计
第三篇SPSS深入分析(第9章相关分析及一般线性模型)
12/31
量为:
2
2
1
rn
t
r
在原假设为真的条件下,t统计量服从自由度为n-2的t分布。
an相关系数假设检验
检验原假设也是相关系数等于0,在小样本下,Spearman等级相关系
数就是检验统计量,在大样本时,采用正态检验统计量:
1Zrn
当原假设为真时,小样本下统计量服从Spearman分布,大样本下Z
统计量近似服从标准正态分布。
l相关系数假设检验
检验的原假设也是相关系数等于0,在小样本下,Kendall相关系数
就是检验统计量,在大样本时,采用正态统计量:
9(1)
2(25)
nn
Z
nn
当原假设为真是,小样本统计量服从Kendall分布,大样本Z统计量
近似服从标准正态分布。
SPSS会自动根据统计量观测值计算相应的检验概率P值,根据P值和
显著水平比较就能够完成假设检验了。在下面的SPSS操作中将具体介绍
如何进行相关分析和检验。
第三篇SPSS深入分析(第9章相关分析及一般线性模型)
13/31
9.1.3相关分析的SPSS操作
对于例9-1,需要首先建立数据文件,这点留给读者完成,一共建立
三个变量分别代表年份、产量和单位成本,建好的数据文件可见光盘
()
对于相关表的操作,只需按照一个变量,例如产量排序,观察令一个
变量是否有顺序就可以得出两个变量是否相关,相关方向是正相关还是负
相关的结论,排序操作就留给读者自行完成了。
对于相关图,是SPSS中经常用到的一个操作,因此比较重要,我们进
行如下操作:
Step1:选择【Graphs】菜单→【LegacyDialogs】菜单→【Scatter/Dot】
菜单→【SimpleScatter】菜单
在图9-2所示的对话框中,将变量“单位成本(元)(dwcb)”选入YAxis
框中,指定该变量为Y轴变量,将变量“年产量(万件)(cl)”选入XAxis
框中,指定该变量为X轴变量。
第三篇SPSS深入分析(第9章相关分析及一般线性模型)
14/31
图9-2散点图对话框
Step2:进行其他设置
在对话框中,还可以选择标注数值的变量选入SetMarkedby框中,
可以将标准名称的变量选入LabeledCasesby框中,还可以通过右边的
设置散点图标题,通过按钮计算样本统计量和处理缺失数据,
这里由于仅仅是看散点图判断相关性,就不进行其他的操作了,设置完成
以后点击完成操作。
关于相关分析我们也介绍其操作步骤:
Step1:选择【Analysis】菜单→【Correlate】菜单→【Bivariate】
菜单
在图9-3的对话框中,将需要进行相关分析的变量“年产量(万件)”、
“单位成本(元)”选入Variables:对话框中。
图9-3相关分析主对话框
Step2:选择需要计算的相关系数和需要完成的假设检验
在9-3对话框下部“CorrelationCoefficients”复选框组中选择需
相关系数选项
单双侧检验选项
第三篇SPSS深入分析(第9章相关分析及一般线性模型)
15/31
要计算的相关系数种类,选项Person表示Person简单相关系数,适宜两
个变量都是间隔尺度变量的情形;选项Kendalltau-b表示Kendall相
关系数,适宜间隔尺度或顺序尺度变量;选项Spearman表示Spearman
等级相关系数,适宜间隔尺度和顺序尺度变量。由于本例中两个变量都是
间隔尺度变量,因此三个系数我们都选中,要求计算。
在“CorrelationCoefficients”复选框组中的下方的“Testof
Significance”单选框中,选择进行单尾还是双尾检验,此处选择默认双
尾检验。
Step3:完成其他设置
在对话框下方按钮上方还有一个Flagsignificantcorrelations复
选框,选择此复选框后在结果中SPSS会自动在显著的相关系数右上角作
上标记。同时还可以点击,在图9-4所示的子对话框选择计算统计
量和处理缺失数据。设置完成以后点击完成操作。
图9-4Option子对话框
9.1.4相关分析结果分析
下面我们看相关分析的结果:
第三篇SPSS深入分析(第9章相关分析及一般线性模型)
16/31
相关图的结果已经在图9-1中列出了,这里就不再重复列出了。
Person简单相关分析的结果如表9-2所示:从表中结果可以看到,
Person简单相关系数等于-0.987,显然两变量是高度负相关,而相关系
数的假设检验P值接近于0,说明相关系数是显著不为0的,注意到相关
系数右上角有两个“*”,说明相关系数在0.01的显著水平上是显著的,
即检验P值小于0.01,这也说明两个变量的相关关系显著成立。
表9-3显示了Spearman相关系数和Kendall相关系数,两个变量的
Spearman等级相关系数等于-0.944,显示变量高度负相关,相关系数比
Person相关系数略小,可能是采用秩而没有采用值的影响,检验的P值
接近于0,根据相关系数右上角的标记也是在0.01显著水平下显著。
Kendall相关系数等于-0.985,两变量高度负相关,检验P值接近0,
而且根据相关系数标记,在0.01显著水平下显著。
表9-2Correlations
年产量(万
件)
单位成本
(元)
年产量(万
件)
Pearson
Correlation
1-.987**
Sig.(2-tailed).000
N1010
第三篇SPSS深入分析(第9章相关分析及一般线性模型)
17/31
单位成本
(元)
Pearson
Correlation
-.987**1
Sig.(2-tailed).000
N1010
**.Correlationissignificantatthe0.01level(2-tailed).
表9-3Correlations
年产量
(万件)
单位成
本(元)
Kendall's
tau_b
年产量
(万件)
Correlation
Coefficient
1.000-.944**
Sig.
(2-tailed)
..000
N1010
单位成
本(元)
Correlation
Coefficient
-.944**1.000
Sig.
(2-tailed)
.000.
N1010
第三篇SPSS深入分析(第9章相关分析及一般线性模型)
18/31
Spearman'
srho
年产量
(万件)
Correlation
Coefficient
1.000-.985**
Sig.
(2-tailed)
..000
N1010
单位成
本(元)
Correlation
Coefficient
-.985**1.000
Sig.
(2-tailed)
.000.
N1010
**.Correlationissignificantatthe0.01level(2-tailed).
如果想查看具体的P值到底是多少,需要在SPSS输出窗口Viewer中,
双击P值对应的单元格,进入表格编辑状态,就可以看到P值的准确数值,
在其他显示P值的窗口中也可以通过类似操作查看P值。
9.2偏相关分析
相关分析中通过相关系数可以获知变量之间相关关系的方向、强弱。
然而,相关系数有时并不是描述变量间相关关系的最好统计指标,往往会
有夸大和缩小的嫌疑。
在前面对相关分析的定性分析中我们已经遇到这样一类问题:儿童体
重增加和GDP增长呈现数据上的正相关关系,但是我们从理论上否定了这
第三篇SPSS深入分析(第9章相关分析及一般线性模型)
19/31
种相关关系的存在。那又是什么原因导致了数据上体现出相关关系了呢?
这是因为,儿童体重的增加包含了时间的因素,随着时间的往后推移,儿
童体重不断增加,两者成正相关;如果一段时间内GDP持续增长,那么其
中也含有时间的因素,随着时间推移,GDP不断增长。从而,通过“时间”
这一纽带,原来不相关的变量从数据上看就“相关”了,但是,如果扣除
时间的因素,两个变量就没有相关关系了,或者GDP中如果不含有时间因
素(例如GDP保持微幅震荡),那么两个变量也没有相关关系了。在此例
中,可以看到,线性相关系数扩大了两个变量的相关性。
由此可见,线性相关系数可能还有两方面的因素:一是两个变量直接
的相关信息,二是两个变量通过中间相关因素“传递”的相关信息。如果
两种信息相关方向相同,则夸大相关程度,如果两种信息相关方向相反,
则减小相关程度。在这种传递信息特别大的情况下,仅仅利用线性相关系
数来评价变量间的相关性是不准确的,需要在剔除中间相关因素“传递”
的相关信息基础上,计算变量之间直接的相关程度,偏相关分析就是为了
处理这类问题而引入的统计分析方法。
9.2.1偏相关分析概述
偏相关分析也称净相关分析,它在控制其他变量线性影响的条件下,
分析两变量间的线性相关,采用的工具是偏相关系数(净相关系数)。控
制变量个数称为偏相关系数的阶数,如果控制变量是1个,称为1阶偏相
关系数,控制变量是2个称为2阶偏相关系数,没有控制变量时,称为零
第三篇SPSS深入分析(第9章相关分析及一般线性模型)
20/31
阶偏相关系数,即是Person简单相关系数。
进行偏相关分析需要进行两大步骤:
第一、计算样本偏相关系数,用以反映两变量的净相关程度。假设两
相关变量是x和y,控制变量是z,1阶偏相关系数定义为:
22(1)(1)
xyyzxz
yxz
yzxz
rrr
r
rr
式中,
xy
r、
yz
r、
xz
r分别表示变量x和y、y和z、x和z的Person简单相
关系数。偏相关系数的取值也是从-1到1,符号正负代表净相关的方向。
绝对值越大,代表净相关程度越高,这些性质和普通相关系数是相同的。
第二、针对样本观测值,对两变量代表的两总体的净相关显著性进行
假设检验。假设检验的原假设是两总体净相关系数及0无显著差异,假设
检验的样本统计量为:
2
2
1xyz
xyz
nq
tr
r
式中,q为偏相关的阶数,即控制变量的个数。当原假设为真时,统计量
服从自由度为n-q-2的t分布。
SPSS会自动计算偏相关系数的样本观测值并计算相应的概率P值,根
据概率P值就可以完成假设检验了。
9.2.2引例,偏相关分析SPSS操作
本小节我们将对前面的例9-1进行偏相关分析,通过具体分析和操作
的过程,让读者了解偏相关分析的原理和操作过程。
第三篇SPSS深入分析(第9章相关分析及一般线性模型)
21/31
例9-2在前面的例9-1中,因为年销量和单位成本都含有时间因素,年
销量随时间而增加,单位成本随时间而下降,现考虑去除时间的影响而分
析销量和单位成本的净相关关系。同时通过净相关系数和简单相关系数的
比较说明时间因素的作用。
在例9-1中,销量和单位成本是高度负相关,但是这种相关性中含有
时间因素的影响。在本例中,时间和销量是正相关,时间和单位成本是负
相关,扣除时间影响以后,销量和单位成本的相关关系将通过偏相关系数
来描述,而时间就是控制变量,本例中选择年份作为控制变量。计算销量
和单位成本的偏相关系数,进行如下操作:
Step1:选择【Analysis】菜单→【Correlate】菜单→【Partial】菜
单
在图9-5的对话框中,中间的Variables框是进行相关分析的变量框,
而下面的Controlingfor:是控制变量框,我们将变量“年产量(万件)
(cl)”和“单位成本(元)(dwcb)”选入相关分析变量框,将“年份(year)”
选入控制变量框。
Step2:选择需要完成的假设检验和进行其他设置
在图9-5左下方TestofSignificance对话框中,选择进行单尾检验
还是双尾检验,这里选择双尾检验,同时勾选Displayactual
significancelevel复选框,表示要显示检验概率P值。同样可以点击
同时还可以点击,在图9-4所示的子对话框选择计算统计量和处理
第三篇SPSS深入分析(第9章相关分析及一般线性模型)
22/31
缺失数据。设置完成以后点击完成操作。
图9-5偏相关分析主对话框
9.2.3偏相关分析结果分析
下面我们来看偏相关分析的结果:
表9-4Correlations
ControlVariables
年产量(万
件)
单位成本
(元)
年
份
年产量(万
件)
Correlation1.000-.727
Significance
(2-tailed)
..027
df07
单位成本
(元)
Correlation-.7271.000
Significance
(2-tailed)
.027.
df70
控制变量框
第三篇SPSS深入分析(第9章相关分析及一般线性模型)
23/31
表9-4列出偏相关分析的结果,在扣除时间因素的影响后,年产量和
单位成本的偏相关系数为-0.727,比简单相关系数-0.987相关程度降低
了,说明时间因素在两个变量的相关关系中起到了一定的影响。在扣除了
时间因素以后,单位成本和年产量的偏相关系数检验P值为0.027,如果
假定显著水平是0.05,则应拒绝原假设,认为偏相关系数显著不为0,说
明扣除了时间因素影响以外,年产量和单位成本仍然是显著的负相关关
系,净相关程度比简单相关系数小,说明时间因素放大了两个变量的相关
关系。
5.19.3一般线性模型
在第8章多因素方差分析时,我们已经利用了一般线性模型中
Univatiate菜单的强大功能,但是一般线性模型并不仅仅是用来进行多
因素方差分析,还可以完成许多工作,例如实验设计。另外一般线性模型
的Mulvariate过程还可以进行多元方差分析,限于专业知识的复杂,我
们在这一节将简要介绍这些方法。
9.3.1方差分析的补充
由于现实世界的复杂多变,人们往往用实验来帮助我们了解世界,获
取知识和信息,统计学在实验设计中发挥了越来越大的作用。试想,一个
设计混乱,控制糟糕的实验,所获取的信息不仅不能帮助我们了解事物的
真实情况,反而会起到反作用,将真实的信息淹没甚至扭曲,让我们得不
第三篇SPSS深入分析(第9章相关分析及一般线性模型)
24/31
到有用的信息或者得到错误的信息。因此,周详和有序的实验设计是非常
重要的。现在许多实验设计方法都被提出并获得了不同程度的发展。本小
节将介绍一些常用的实验设计方法,介绍其基本原理。
1.完全随机设计(CompletelyRandomDesign)
完全随机设计也就是我们第8章研究过的单因素方差分析的推广。该
设计只能处理一个因素,将实验对象随机的分配到该因素各水平决定的不
同组中,观察实验效应。各组样本数可以相等,也可以不等。然后再通过
单因素方差分析考察总体在控制因素各水平上是否有显著差异。该设计的
优点是简单容易实行,缺点是每次只能实验一个因素,效率较低。
2.配伍设计(RandomizedBlockDesign)
配伍设计也叫随机区组设计,或称双因素无重复实验设计,可以分为
两种情况:第一、对同一个实验对象在同一控制因素不同水平间的比较;
第二、将几个实验对象按一定条件划分成配伍组,再将每一配伍组的实验
对象随机分配到各个处理组去。所谓配伍是指两个因素的水平进行配对,
假如第一因素有m个水平,第二个因素有n个水平,那么共有mn个配伍。
将配伍组的实验对象随机分配到处理组中,得到的结果就是配伍设计的数
据,配伍设计一般用两因素方差分析来设计,只分析其主效应就可以了。
3.交叉设计(Cross-overDesign)
交叉设计是一种特殊的自身对照设计,即根据自身的处理方法按照不
同顺序进行排列以获取处理数据,以平衡的两阶段交叉设计为例,假设有
第三篇SPSS深入分析(第9章相关分析及一般线性模型)
25/31
A、B两种处理方法,我们可以将实验对象分成两组,分别采用AB和BA
的顺序进行处理,即一组先用A方法处理,经过一段时间,再用B方法处
理,间隔一段时间是保证两种方法效果是独立的;另一组先用B方法处理,
经过一段时间,再用A方法处理。交叉设计的数据可以用方差分析法来进
行统计,所观察到的数据变异有如下几个因素影响:处理效应、阶段效应、
顺序效应和个体随机差异。其中处理效应是我们关心的,而顺序效应是在
统计分析中应该被忽略的,否则交叉设计就不能进行,当然,消除顺序效
应的方法就是选择较长的间隔时间以保证两个处理独立。
4.析因设计(FactorialDesign)
在经济学研究中,往往涉及很多因素,这些因素都是互相联系,互相
制约的。一个因素的变化很可能引起其他相关因素的变化。当因素之间存
在相关关系时,析因设计是一种理想的设计方案。我们以最简单的两因素
析因分析来说,不仅可以检验因素各水平是否有显著差异,而且还能检验
交互作用。在析因分析中,当交互作用各水平上差异显著时,当主要分析
交互作用,对于主效应的分析意义就不大了。
5.正交设计(OrthoganalDesign)
当实验设计的因素超过三个以上,因素之间又存在交互作用时,可以
使用正交设计。他利用统计学家专门设计的一套规格化正交表将各试验因
素、各水平之间的组合进行均匀调整,从而可以用较少的、有代表性的处
理组合数,提供充分的信息。及普通多因素实验设计相比,它仍然可以分
析主效应和交互作用,同时大大介绍样本量,是一种高效、快速多变的多
第三篇SPSS深入分析(第9章相关分析及一般线性模型)
26/31
因素实验设计方法。
另外,对于实验设计还有拉丁方实验设计、星点实验设计等,此处就
不再介绍了,下面我们来看配伍实验的一个例子。
9.3.2引例,实验设计随机效应模型
例9-3某地区关心某项刺激中小型企业的政策落实情况及效果,抽取了
10家中小型企业,分别在记录企业在政策实施之前,实施之中和实施之
后的年销售额(万元),数据见表9-5,试问中小企业在三个不同时期的
营业额有无显著差异?
本例中,显然数据的特点和配对数据特别像,但是这里有三组数据,
不太适合用配对样本t检验的完成,否则会增大犯第一类错误的概率。当
然,读者可以考虑用非参数检验的Friedman检验来完成,这不失为一条
解决途径,有兴趣的读者可以自行验证,但是使用非参数方法的样本量不
能太小,这里10个样本量显然太少。因此,本例采用配伍实验设计来完
成。
首先根据数据的特点,进行配伍,这里有两个因素,一个是三个时期,
二是10家企业,我们按照这两个因素进行配伍,得到30个配伍,此时需
要在数据集文件中建立三个变量:时期、企业、营业额,建好的数据见光
盘()。下面就开始分析,由于每种配伍只有一个数据,因而无法
进行交互作用分析,只能分析主效应。进行如下操作:
Step1:选择【Analysis】菜单→【GeneralLinearModel】菜单→
第三篇SPSS深入分析(第9章相关分析及一般线性模型)
27/31
【Univariate】菜单
表9-5某地区企业政策实施三阶段销售额
企业编
号
实施前销售额(万
元)
实施中销售额(万
元)
实施后销售额(万
元)
190.62142.2587.38
287.46163.4865.27
346.5066.7168.41
4175.80166.33210.54
5101.20145.25194.25
647.31167.2365.27
773.58167.56200.02
8104.32125.45100.01
985.46120.10105.27
1060.3173.6958.95
在图9-6的对话框中,和图8-5类似,将观测变量“营业额”选入控
制变量框,将变量“三个时期”选入固定效应,将变量“企业编号”选入
随机因素,因为我们可以控制时期进行抽样,但是抽到哪个企业是随机的,
企业编号是随机效应。
第三篇SPSS深入分析(第9章相关分析及一般线性模型)
28/31
图9-6配伍实验设计随机效应模型
Step2:进行其他选择操作
在模型选择中只选择主效应,相关操作请参看第8章,选择好水平的比较
方法为Simple。设置完成以后点击完成操作。
9.3.3实验设计随机效应模型结果分析
请看配伍实验设计两因素方差分析结果
关于每种因素的频数表格此处就省略了。
表9-6营业额TestsofBetween-SubjectsEffects
Source
TypeIIISumof
Squares
d
f
Mean
Square
F
S
ig.
Hypothesis377660.7121
377660.7
12
86.
613
.
000
Error39242.9189
4360.324
a
第三篇SPSS深入分析(第9章相关分析及一般线性模型)
29/31
tim
e
Hypothe
sis
11001.14725500.574
4.9
47
.
019
Error20012.363
1
8
1111.798
b
int
erp
Hypothe
sis
39242.91894360.324
3.9
22
.
007
Error20012.363
1
8
1111.798
b
表9-6列出配伍实验设计的多因素方差分析表。从结果上看,整体两
个因素的主效应模型P值接近0,说明销售额在企业和时期各水平上是显
著差异的。再来看各自的效应是否显著,时期效应检验统计量观测值
4.947,P值为0.019,以0.05为显著水平,则时期三个水平上中小企业
营业额显著差异。对于企业效应,检验统计量观测值为3.922,对应的P
值为0.007,显然在企业10个水平上,营业额的差异也是显著的。这说
明时期和企业对营业额都有显著的影响。
第三篇SPSS深入分析(第9章相关分析及一般线性模型)
30/31
【本章知识点】
相关分析是研究两个变量之间相关程度的统计分析方法。读者需要了
解相关分析在不同分类标准下的分类,同时理解相关系数的概念。
相关系数分为Person简单相关系数,Spearman等级相关系数和
Kendall协同相关系数。读者需要了解三种相关系数的使用条件,构造公
式,掌握计算三种统计相关系数的SPSS操作;了解相关系数显著性检验
的步骤,并掌握利用P值(或*标注)判断相关系数是否显著的方法。
偏相关分析是去掉中间变量的影响以后考虑两个变量的净相关关系。
读者需要了解偏相关分析的基本思想,中间变量的作用,同时掌握SPSS
中偏相关分析的操作和结果解释,能够运用偏相关分析结果和简单相关分
析结果对比,说明中间变量对相关性的影响。
一般线性模型是用于实验设计和实验结果分析,读者需要了解实验设
计的一些基本概念,实验设计的分类,同时掌握SPSS在一般线性模型中
的操作,并结合结果说明实际问题。
【思考及练习】
第三篇SPSS深入分析(第9章相关分析及一般线性模型)
31/31
1.三个相关系数适用条件是什么,它们各有什么特点,在应用中如果有
极端值,应该采用哪种相关系数?
2.偏相关分析和简单相关分析有什么差异,中间变量对相关性的影响如
何体现?
3.实验设计主要有哪些分类?
4.计算12章数据中各变量两两之间的三种相关系数,并说明
三者的差异。
5.仍然利用数据,在扣除了食品消费这个中间变量因素后,计
算杂项商品和服务消费及家庭设备用品及服务两变量的偏相关系数,并进
行解释。
6.了解实验设计的常用方法,并举一个实验设计的例子。