✅ 操作成功!

一般线性模型

发布时间:2023-06-16 作者:admin 来源:文学

一般线性模型

一般线性模型

油罐清洗-瑞文智力测验

2023年3月19日发(作者:gb50028)

第三篇SPSS深入分析(第9章相关分析及一般线性模型)

1/31

第三篇SPSS深入分析

本篇说明:

1.本篇讲述的内容都是涉及两个以上变量的,称为多元统计分析,本篇重点说明多元统

计分析方法的应用条件,统计方法的模型和统计方法的SPSS操作实现即结果分析;

2.虽然本篇对各种多元统计分析方法的模型进行了比较详细的介绍,然而本书毕竟是以

SPSS应用为重点,因此不可能对多元统计分析模型面面俱到详细介绍,模型的详细内容

请读者参考专业多元统计分析书籍;

3.请读者在阅读本篇时注意两个问题:一方面要注意各种多元统计分析方法应用的条件,

条件不满足不能轻易使用多元统计分析模型;另一方面要注意归纳各种多元统计方法之间

的区别和联系,书中列出了各方法的主要区别和联系,读者注意理解。同时读者也可能自

己发现方法间新的区别及联系。

4.由于篇幅关系,对于前面的基本SPSS操作和一元统计分析SPSS操作本篇不再详细说

明,只是列出简要操作步骤,请读者注意自行练习,操作验证。

本篇要点导读:

第9章相关分析及广义线性模型

一般相关分析和偏相关分析,偏相关系数计算,以及广义线性模型简单应用;

第10章回归分析

一元线性回归、多元线性回归、非线性回归及Logistic回归的模型和应用;

第11章聚类分析和判别分析

聚类和判别分析的适用条件,聚类分析包括层次聚类和K-均值聚类,判别分析

包括Fisher判别和Bayes判别;

第12章因子分析和对应分析

因子分析的一般模型,因子分析的应用;对应分析的一般模型和应用;

第13章时间序列分析

时间序列的建立,预处理,时间序列中常用的ARIMA模型和季节调整模型。

第三篇SPSS深入分析(第9章相关分析及一般线性模型)

2/31

第9章相关分析及一般线性模型

在前面的第2篇中,我们讲解的统计方法基本都是一元统计方法,只

分析一个变量。这其中有几个例外:多选项分析中涉及多个SPSS变量,

但是经过多选项集定义以后,还是将多选项集当作一个变量在分析;参数

检验和非参数检验中都有配对样本检验,也涉及多个SPSS变量,只是对

于配对变量来说,都是同一性质的变量,分析时也是结合在一起分析的,

因此可以算作分析一个变量;方差分析中涉及多个变量;但是方差分析主

要是分析观测变量,控制变量只是用来对观测变量分类的,因此仍然是分

析一个变量。当然一元统计分析的模型还有很多,本书限于篇幅只是列举

了SPSS中常用的功能,对于其他模型有兴趣的读者可以查阅相关统计专

业书籍。

从本章开始,我们开始介绍多元统计分析的模型和方法,和一元统计

分析对应,多元统计分析方法分析的是多个性质不同的SPSS变量;一元

统计只是分析总体的某个特征,而多元统计分析则是分析总体的多个特

征,分析这些特征各自的情况,并分析这些特征的联系,对这些特征进行

处理的方法等等。因此多元统计的问题比一元统计复杂,处理的方法也更

多。在本篇中将给读者介绍SPSS中常用的多元统计方法:相关分析、回

归分析、聚类和判别、因子及对应分析,以及时间序列分析。

第三篇SPSS深入分析(第9章相关分析及一般线性模型)

3/31

相关分析是比较简单的多元分析方法,但是也是经常使用的多元统计

分析方法,它能快速发现总体特征(变量)之间关系,并检验这些特征的

显著性。这一方面对于简单的统计分析已经可以提供足够的结论,另一方

面也为后续的更加复杂的多元统计分析模型提供条件和依据。因此,相关

分析在多元统计分析中的作用是非常大的。

一般线性模型是方差分析的推广和延伸,其作用是分析一个或多个自

变量对一个或多个应变量的线性关系,其内容非常丰富,包含方差分析、

重复测量方差分析、多元线性回归等等,在第8章我们已经接触过它的强

大功能了,掌握一般线性模型对于我们提高自身的统计分析能力有很大帮

助。我们就从这两个简单而又重要的方法开始学习多元统计分析的模型。

9.1相关分析

现代自然科学研究、经济检验、企业管理等活动中普遍存在的相互影

响、相互依存的关系可以概括为两大类:函数关系和相关关系,函数关系

是一种严格的确定对应关系,而相关关系是一种不要求确定对应,具有一

定随机性的关系,实际中,并且相关关系更具有一般性。相关分析是处理

变量之间相关关系的一种统计方法。通过相关分析,可以了解两个或两个

以上的变量之间是否有相关关系,相关关系的方向、形式以及相关密切程

度。下面我们就为读者简单介绍相关分析。

9.1.1引例,相关分析概述

相关分析是用来研究变量间相关关系的,因此读者必须对相关关系有

第三篇SPSS深入分析(第9章相关分析及一般线性模型)

4/31

一个比较清楚的概念。在现实生产生活中,各种事物特征、各种现象之间

相互联系、相互制约、相互依存,某些现象发生变化时,另一现象也会随

之变化,例如,居民收入的高低会影响银行储蓄额的增减,商品价格的变

化会影响商品销售量的变化等等。这些影响依存的关系又可分为函数关系

和相关关系两大类。

1.相关关系的定义

函数关系是指现象、变量之间一种严格的确定性关系。在这种关系中,

当一个变量数值确定时,根据函数关系,另一变量的取值也就唯一确定了,

例如:恒速运动的物体运动位移和时间的关系就是函数关系。相关关系是

指客观变量之间确实存在的,但数量上不是严格对应的依存关系。在这种

关系中,对于其中一个变量的确定取值,另一个变量取值并不是确定的,

而是有多个不同的值及之对应。例如投资和GDP增长有密切关系,一般说

来投资加大会促进GDP增长,但是固定的投资值及之对应的GDP增长值却

不固定,这是因为GDP增长还会受到消费、经济环境、国家政策等诸多因

素影响,会围绕一个平均数上下波动。

函数关系和相关关系并没有严格的界限,在实际中,相关关系更具一

般性,因为即使是函数关系,也会因为测量误差,偶然因素的影响使得结

果并不是严格确定的,因此函数关系就变成了相关关系;而相关关系很多

场合也要借助函数关系的模型和公式来表达,只是加上随机因素的扰动,

如果能够完全消除扰动,那么相关关系就转化为函数关系了。

2.相关关系的种类

第三篇SPSS深入分析(第9章相关分析及一般线性模型)

5/31

弄清楚两种关系的联系后,我们来看相关关系的分类:

相关关系按照涉及的变量个数,可以分为单相关和复相关。单相关是

指研究一个变量和另一个变量之间的相关关系,复相关是指研究一个变量

和另一组变量之间的相关关系,当然还有研究一组变量和另一组变量之间

的多对多的相关关系,我们称之为典型相关,因为SPSS没有提供典型相

关的菜单,因此本书不介绍典型相关。

相关关系按照表现形式不同,分为直线相关和曲线相关,直线相关又

称线性相关,是指一个变量变化时,其变化量及另一个变量的变化量有大

致按比例变化,两个变量的散点图近似落在一条直线附近。曲线相关又称

非线性相关,是指两个变量的变化不是直线变化,散点图也不是落在直线

附近,而是呈现比较复杂的变化情况。

相关关系按照相关方向不同,分为正相关和负相关,如果两个变量变

化方向相同,即同增同减,则两个变量正相关;相反,如果两个变量一增

一减,则是负相关。

另外相关关系按照相关程度,还可以将相关关系分为不相关、低度相

关、显著相关、高度相关和完全相关,我们将结合相关关系的测定对相关

关系的程度进行解释。

3.相关关系的测定

要判断两个变量有没有相关关系,主要从两方面:一是定性分析,二

是定量分析。在定量分析之前需进行定性分析,定性分析主要是根据理论

第三篇SPSS深入分析(第9章相关分析及一般线性模型)

6/31

知识、专业知识和实践经验,对变量之间是否有相关关系进行判断,即回

答相关关系的合理性和科学性问题,例如:GDP的增长和儿童体重的增加

在理论上并没有相关关系,因为儿童体重始终会增加,如果一段时间内

GDP也增长,数据上可能表现出一定的相关性,但是这种相关性没有科学

依据,如果这段时间GDP停止增长,那么这种相关性就没有了,因此这只

是一段时间内巧合。同样的道理,大树下蚂蚁窝的数量和经济增长率之间

也呈现数据上的相关性,但是依然没有科学依据,是一种偶然。许多读者

进行相关分析时是不管变量是什么,直接就分析数据的相关性了,这显然

是不可取的。一定要首先确定变量之间缺失存在理论上的相关可能,在定

性分析的基础上才能进行定量的分析,判断相关的方向、形式及密切程度,

确定相关关系,否则,就会闹蚂蚁窝和经济增长高度相关的笑话。

相关分析的工具主要有相关表、相关图和线性相关系数等,下面我们

通过一个简单的例子来看看这些工具:

例9-1某企业1992-2001年某种产品的产量及单位成本资料如表9-1所

示:请分析该企业产量及单位成本是否存在相关关系,相关关系方向、形

式和相关程度如何?

表9-1某企业产品产量及单位成本数据

年份

产量(万件)689920

单位成本(元)52544342

第三篇SPSS深入分析(第9章相关分析及一般线性模型)

7/31

本例中,要求判断是否存在相关关系,分析相关的方向、形式和程度,

在进行定量分析之前要进行定性分析,产品的产量和单位成本之间是可能

存在相关关系的,因为随着产量增加形成规模效应以后,可以降低产品的

单位成本,因此可以进行定量分析。此时要充分利用相关分析的三种主要

工具。

相关表是一种统计表,它是直接观察原始资料,将一变量按照升序或

降序排列,观察对应的另一变量的值,如果另一变量取值也有相应的增加

或减小趋势,则可以判断存在相关关系,如果另一变量取值大小随机,则

无相关关系。同时可以判断相关关系的方向,如果同增同减则是正相关,

反之为负相关。

从本例中看表9-1中产量是按照升序排列的,而单位成本明显有减少

的趋势,因此可以判断相关关系存在,且为负相关,但是相关关系的形式、

程度不宜从相关表直接得出,应该利用其他的相关分析工具。

相关图也称散点图,它是用一个变量作为x轴,另一个变量作为y轴,

将两个变量对应取值作为坐标,将所有数据在图中描绘出来,用以表明相

关点分布状况的图形,从相关图可以看出变量的相关关系、相关方向、相

关形式,大致也可以看出相关程度,但是相关程度没有具体数值描述,图

9-1是表9-1数据描绘的散点图。

第三篇SPSS深入分析(第9章相关分析及一般线性模型)

8/31

图9-1产量及单位成本散点图

从图中可以看出,产量和单位成本呈现负相关关系,相关关系的形式

从散点的分布可以出,大致是分布在一条直线附近,因此是线性相关,至

于相关程度主要从散点离直线的远近来判断,如果所有的散点都在直线

上,则是完全相关,如果离直线很近,则相关程度高,离直线都较远,那

么相关程度就较低,本例来看,相关程度较高。

相关图虽然能大致看出相关关系的方向、形式、相关程度,但是这种

判断并不精确,根据图形也无法对相关程度是否显著进行判断,因此我们

还需要将相关程度数值化的相关分析工具,这就是相关系数。

相关系数是用以反映变量之间相关关系密切程度的统计量,依据相关

关系之间的不同特性,相关系数有多种,反映两变量线性相关关系的统计

量称为线性相关系数,反映两变量非线性相关关系的称为非线性相关系

数。本节我们主要讨论线性相关系数,根据线性相关系数计算方法不同,

线性相关系数具体又分为:

第三篇SPSS深入分析(第9章相关分析及一般线性模型)

9/31

Person简单相关系数:这是最简单,也是最常用的相关系数,用于度

量两个间隔尺度变量之间的相关性,其数学定义为:

1

22

11

()()

()()

n

ii

i

nn

ii

ii

xxyy

r

xxyy









式中n为样本数,,

ii

xy代表两个变量的样本观测值,计算出的r称为

样本相关系数,它实质是两变量样本标准化后的乘积再取平均数,因此也

称为积矩相关系数。它有如下特点:

➢x、y对称,x、y变量互换位置,r不变;

➢无量纲数,r是标准化后计算的,因此无量纲;

➢简单相关系数只能刻画线性相关关系,不能对非线性相关很好刻

画。

Spearman等级相关系数:这是利用变量的秩构造的线性相关系数,是

一种非参数的方法,由于只利用变量的秩,顺序尺度变量也可以计算

Spearman等级相关系数,且不易受极端值的影响。其计算公式及Person

简单相关系数类似,只是使用变量的秩(,)

ii

uv而非变量的值(,)

ii

xy进行计

算,公式为:

1

22

11

11

()()

22

11

()()

22

n

ii

i

Sp

nn

ii

ii

nn

uv

r

nn

uv













由于:

第三篇SPSS深入分析(第9章相关分析及一般线性模型)

10/31

22

1111

(1)(1)(21)

,

26

nnnn

iiii

iiii

nnnnn

uvuv







上述公式可以简化为:

2

1

22

6()

6

11

(1)(1)

n

ii

i

Sp

uv

D

r

nnnn





Spearman等级相关系数的特点是:

➢如果两变量正相关性较强,则它们秩变化同步,则D值较小,等级

相关系数趋于1;

➢如果两变量负相关性较强,则它们秩变化相反,则D值较大,等级

相关系数趋于-1;

➢如果两变量相关性较弱,则它们秩变化互不影响,则D值趋于中间

值,等级相关系数趋于0。

Kendall相关系数:这是采用非参数方法度量顺序尺度变量间的线性

相关关系,它利用变量秩数据计算一致对数目(U)和非一致对数目(V)来构

造统计量,例如例9-1中数据的秩为:(1,10)、(2,9)、(3,9)、(4,6)、

(5,7)、(6,5)、(7,4)、(8,3)、(9,2)、(10,1),一致(即秩同时增大)

的对数只有1对(4,6)→(5,7),即U=1;而秩不一致对数为44对,即V=44。

Kendall相关系数定义为:

2()

(1)

UV

nn

显然,Kendall相关系数具有如下性质:

第三篇SPSS深入分析(第9章相关分析及一般线性模型)

11/31

➢如果两变量正相关性强,秩变化同步,U应该较大,V应该较小,

趋于1;

➢如果具有较强负相关关系,秩变化相反,V较大而U较小,趋于

-1;

➢如果相关关系弱,则U、V大致相等,趋于0。

根据计算,在例9-1中,三个相关系数为:

0.987,0.944,0.985

Sp

rr

计算出的数值很接近,从而可以判断出两个变量是负相关的,并且高

度线性相关。

关于相关的程度,一般认为r=0,完全不相关;0<|r|<0.4,低度线性

相关;0.4<|r|<0.7,显著线性相关;0.7<|r|<1,高度线性相关;|r|=1,

完全相关。

9.1.2显著性检验

9.1.1中,我们已经计算出Person简单相关系数,Spearman等级相关

系数和Kendall相关系数的数值,但是我们还需要通过显著性检验来确

认这些相关系数在统计上是否显著不为0。根据相关系数的不同,其统计

检验的统计量也不相同,构建的假设检验也略有差异,下面我们就分别介

绍:

相关系数假设检验:

其检验的原假设是相关系数等于0,即相关系数不显著,检验t统计

第三篇SPSS深入分析(第9章相关分析及一般线性模型)

12/31

量为:

2

2

1

rn

t

r

在原假设为真的条件下,t统计量服从自由度为n-2的t分布。

an相关系数假设检验

检验原假设也是相关系数等于0,在小样本下,Spearman等级相关系

数就是检验统计量,在大样本时,采用正态检验统计量:

1Zrn

当原假设为真时,小样本下统计量服从Spearman分布,大样本下Z

统计量近似服从标准正态分布。

l相关系数假设检验

检验的原假设也是相关系数等于0,在小样本下,Kendall相关系数

就是检验统计量,在大样本时,采用正态统计量:

9(1)

2(25)

nn

Z

nn

当原假设为真是,小样本统计量服从Kendall分布,大样本Z统计量

近似服从标准正态分布。

SPSS会自动根据统计量观测值计算相应的检验概率P值,根据P值和

显著水平比较就能够完成假设检验了。在下面的SPSS操作中将具体介绍

如何进行相关分析和检验。

第三篇SPSS深入分析(第9章相关分析及一般线性模型)

13/31

9.1.3相关分析的SPSS操作

对于例9-1,需要首先建立数据文件,这点留给读者完成,一共建立

三个变量分别代表年份、产量和单位成本,建好的数据文件可见光盘

()

对于相关表的操作,只需按照一个变量,例如产量排序,观察令一个

变量是否有顺序就可以得出两个变量是否相关,相关方向是正相关还是负

相关的结论,排序操作就留给读者自行完成了。

对于相关图,是SPSS中经常用到的一个操作,因此比较重要,我们进

行如下操作:

Step1:选择【Graphs】菜单→【LegacyDialogs】菜单→【Scatter/Dot】

菜单→【SimpleScatter】菜单

在图9-2所示的对话框中,将变量“单位成本(元)(dwcb)”选入YAxis

框中,指定该变量为Y轴变量,将变量“年产量(万件)(cl)”选入XAxis

框中,指定该变量为X轴变量。

第三篇SPSS深入分析(第9章相关分析及一般线性模型)

14/31

图9-2散点图对话框

Step2:进行其他设置

在对话框中,还可以选择标注数值的变量选入SetMarkedby框中,

可以将标准名称的变量选入LabeledCasesby框中,还可以通过右边的

设置散点图标题,通过按钮计算样本统计量和处理缺失数据,

这里由于仅仅是看散点图判断相关性,就不进行其他的操作了,设置完成

以后点击完成操作。

关于相关分析我们也介绍其操作步骤:

Step1:选择【Analysis】菜单→【Correlate】菜单→【Bivariate】

菜单

在图9-3的对话框中,将需要进行相关分析的变量“年产量(万件)”、

“单位成本(元)”选入Variables:对话框中。

图9-3相关分析主对话框

Step2:选择需要计算的相关系数和需要完成的假设检验

在9-3对话框下部“CorrelationCoefficients”复选框组中选择需

相关系数选项

单双侧检验选项

第三篇SPSS深入分析(第9章相关分析及一般线性模型)

15/31

要计算的相关系数种类,选项Person表示Person简单相关系数,适宜两

个变量都是间隔尺度变量的情形;选项Kendalltau-b表示Kendall相

关系数,适宜间隔尺度或顺序尺度变量;选项Spearman表示Spearman

等级相关系数,适宜间隔尺度和顺序尺度变量。由于本例中两个变量都是

间隔尺度变量,因此三个系数我们都选中,要求计算。

在“CorrelationCoefficients”复选框组中的下方的“Testof

Significance”单选框中,选择进行单尾还是双尾检验,此处选择默认双

尾检验。

Step3:完成其他设置

在对话框下方按钮上方还有一个Flagsignificantcorrelations复

选框,选择此复选框后在结果中SPSS会自动在显著的相关系数右上角作

上标记。同时还可以点击,在图9-4所示的子对话框选择计算统计

量和处理缺失数据。设置完成以后点击完成操作。

图9-4Option子对话框

9.1.4相关分析结果分析

下面我们看相关分析的结果:

第三篇SPSS深入分析(第9章相关分析及一般线性模型)

16/31

相关图的结果已经在图9-1中列出了,这里就不再重复列出了。

Person简单相关分析的结果如表9-2所示:从表中结果可以看到,

Person简单相关系数等于-0.987,显然两变量是高度负相关,而相关系

数的假设检验P值接近于0,说明相关系数是显著不为0的,注意到相关

系数右上角有两个“*”,说明相关系数在0.01的显著水平上是显著的,

即检验P值小于0.01,这也说明两个变量的相关关系显著成立。

表9-3显示了Spearman相关系数和Kendall相关系数,两个变量的

Spearman等级相关系数等于-0.944,显示变量高度负相关,相关系数比

Person相关系数略小,可能是采用秩而没有采用值的影响,检验的P值

接近于0,根据相关系数右上角的标记也是在0.01显著水平下显著。

Kendall相关系数等于-0.985,两变量高度负相关,检验P值接近0,

而且根据相关系数标记,在0.01显著水平下显著。

表9-2Correlations

年产量(万

件)

单位成本

(元)

年产量(万

件)

Pearson

Correlation

1-.987**

Sig.(2-tailed).000

N1010

第三篇SPSS深入分析(第9章相关分析及一般线性模型)

17/31

单位成本

(元)

Pearson

Correlation

-.987**1

Sig.(2-tailed).000

N1010

**.Correlationissignificantatthe0.01level(2-tailed).

表9-3Correlations

年产量

(万件)

单位成

本(元)

Kendall's

tau_b

年产量

(万件)

Correlation

Coefficient

1.000-.944**

Sig.

(2-tailed)

..000

N1010

单位成

本(元)

Correlation

Coefficient

-.944**1.000

Sig.

(2-tailed)

.000.

N1010

第三篇SPSS深入分析(第9章相关分析及一般线性模型)

18/31

Spearman'

srho

年产量

(万件)

Correlation

Coefficient

1.000-.985**

Sig.

(2-tailed)

..000

N1010

单位成

本(元)

Correlation

Coefficient

-.985**1.000

Sig.

(2-tailed)

.000.

N1010

**.Correlationissignificantatthe0.01level(2-tailed).

如果想查看具体的P值到底是多少,需要在SPSS输出窗口Viewer中,

双击P值对应的单元格,进入表格编辑状态,就可以看到P值的准确数值,

在其他显示P值的窗口中也可以通过类似操作查看P值。

9.2偏相关分析

相关分析中通过相关系数可以获知变量之间相关关系的方向、强弱。

然而,相关系数有时并不是描述变量间相关关系的最好统计指标,往往会

有夸大和缩小的嫌疑。

在前面对相关分析的定性分析中我们已经遇到这样一类问题:儿童体

重增加和GDP增长呈现数据上的正相关关系,但是我们从理论上否定了这

第三篇SPSS深入分析(第9章相关分析及一般线性模型)

19/31

种相关关系的存在。那又是什么原因导致了数据上体现出相关关系了呢?

这是因为,儿童体重的增加包含了时间的因素,随着时间的往后推移,儿

童体重不断增加,两者成正相关;如果一段时间内GDP持续增长,那么其

中也含有时间的因素,随着时间推移,GDP不断增长。从而,通过“时间”

这一纽带,原来不相关的变量从数据上看就“相关”了,但是,如果扣除

时间的因素,两个变量就没有相关关系了,或者GDP中如果不含有时间因

素(例如GDP保持微幅震荡),那么两个变量也没有相关关系了。在此例

中,可以看到,线性相关系数扩大了两个变量的相关性。

由此可见,线性相关系数可能还有两方面的因素:一是两个变量直接

的相关信息,二是两个变量通过中间相关因素“传递”的相关信息。如果

两种信息相关方向相同,则夸大相关程度,如果两种信息相关方向相反,

则减小相关程度。在这种传递信息特别大的情况下,仅仅利用线性相关系

数来评价变量间的相关性是不准确的,需要在剔除中间相关因素“传递”

的相关信息基础上,计算变量之间直接的相关程度,偏相关分析就是为了

处理这类问题而引入的统计分析方法。

9.2.1偏相关分析概述

偏相关分析也称净相关分析,它在控制其他变量线性影响的条件下,

分析两变量间的线性相关,采用的工具是偏相关系数(净相关系数)。控

制变量个数称为偏相关系数的阶数,如果控制变量是1个,称为1阶偏相

关系数,控制变量是2个称为2阶偏相关系数,没有控制变量时,称为零

第三篇SPSS深入分析(第9章相关分析及一般线性模型)

20/31

阶偏相关系数,即是Person简单相关系数。

进行偏相关分析需要进行两大步骤:

第一、计算样本偏相关系数,用以反映两变量的净相关程度。假设两

相关变量是x和y,控制变量是z,1阶偏相关系数定义为:

22(1)(1)

xyyzxz

yxz

yzxz

rrr

r

rr



式中,

xy

r、

yz

r、

xz

r分别表示变量x和y、y和z、x和z的Person简单相

关系数。偏相关系数的取值也是从-1到1,符号正负代表净相关的方向。

绝对值越大,代表净相关程度越高,这些性质和普通相关系数是相同的。

第二、针对样本观测值,对两变量代表的两总体的净相关显著性进行

假设检验。假设检验的原假设是两总体净相关系数及0无显著差异,假设

检验的样本统计量为:

2

2

1xyz

xyz

nq

tr

r



式中,q为偏相关的阶数,即控制变量的个数。当原假设为真时,统计量

服从自由度为n-q-2的t分布。

SPSS会自动计算偏相关系数的样本观测值并计算相应的概率P值,根

据概率P值就可以完成假设检验了。

9.2.2引例,偏相关分析SPSS操作

本小节我们将对前面的例9-1进行偏相关分析,通过具体分析和操作

的过程,让读者了解偏相关分析的原理和操作过程。

第三篇SPSS深入分析(第9章相关分析及一般线性模型)

21/31

例9-2在前面的例9-1中,因为年销量和单位成本都含有时间因素,年

销量随时间而增加,单位成本随时间而下降,现考虑去除时间的影响而分

析销量和单位成本的净相关关系。同时通过净相关系数和简单相关系数的

比较说明时间因素的作用。

在例9-1中,销量和单位成本是高度负相关,但是这种相关性中含有

时间因素的影响。在本例中,时间和销量是正相关,时间和单位成本是负

相关,扣除时间影响以后,销量和单位成本的相关关系将通过偏相关系数

来描述,而时间就是控制变量,本例中选择年份作为控制变量。计算销量

和单位成本的偏相关系数,进行如下操作:

Step1:选择【Analysis】菜单→【Correlate】菜单→【Partial】菜

在图9-5的对话框中,中间的Variables框是进行相关分析的变量框,

而下面的Controlingfor:是控制变量框,我们将变量“年产量(万件)

(cl)”和“单位成本(元)(dwcb)”选入相关分析变量框,将“年份(year)”

选入控制变量框。

Step2:选择需要完成的假设检验和进行其他设置

在图9-5左下方TestofSignificance对话框中,选择进行单尾检验

还是双尾检验,这里选择双尾检验,同时勾选Displayactual

significancelevel复选框,表示要显示检验概率P值。同样可以点击

同时还可以点击,在图9-4所示的子对话框选择计算统计量和处理

第三篇SPSS深入分析(第9章相关分析及一般线性模型)

22/31

缺失数据。设置完成以后点击完成操作。

图9-5偏相关分析主对话框

9.2.3偏相关分析结果分析

下面我们来看偏相关分析的结果:

表9-4Correlations

ControlVariables

年产量(万

件)

单位成本

(元)

年产量(万

件)

Correlation1.000-.727

Significance

(2-tailed)

..027

df07

单位成本

(元)

Correlation-.7271.000

Significance

(2-tailed)

.027.

df70

控制变量框

第三篇SPSS深入分析(第9章相关分析及一般线性模型)

23/31

表9-4列出偏相关分析的结果,在扣除时间因素的影响后,年产量和

单位成本的偏相关系数为-0.727,比简单相关系数-0.987相关程度降低

了,说明时间因素在两个变量的相关关系中起到了一定的影响。在扣除了

时间因素以后,单位成本和年产量的偏相关系数检验P值为0.027,如果

假定显著水平是0.05,则应拒绝原假设,认为偏相关系数显著不为0,说

明扣除了时间因素影响以外,年产量和单位成本仍然是显著的负相关关

系,净相关程度比简单相关系数小,说明时间因素放大了两个变量的相关

关系。

5.19.3一般线性模型

在第8章多因素方差分析时,我们已经利用了一般线性模型中

Univatiate菜单的强大功能,但是一般线性模型并不仅仅是用来进行多

因素方差分析,还可以完成许多工作,例如实验设计。另外一般线性模型

的Mulvariate过程还可以进行多元方差分析,限于专业知识的复杂,我

们在这一节将简要介绍这些方法。

9.3.1方差分析的补充

由于现实世界的复杂多变,人们往往用实验来帮助我们了解世界,获

取知识和信息,统计学在实验设计中发挥了越来越大的作用。试想,一个

设计混乱,控制糟糕的实验,所获取的信息不仅不能帮助我们了解事物的

真实情况,反而会起到反作用,将真实的信息淹没甚至扭曲,让我们得不

第三篇SPSS深入分析(第9章相关分析及一般线性模型)

24/31

到有用的信息或者得到错误的信息。因此,周详和有序的实验设计是非常

重要的。现在许多实验设计方法都被提出并获得了不同程度的发展。本小

节将介绍一些常用的实验设计方法,介绍其基本原理。

1.完全随机设计(CompletelyRandomDesign)

完全随机设计也就是我们第8章研究过的单因素方差分析的推广。该

设计只能处理一个因素,将实验对象随机的分配到该因素各水平决定的不

同组中,观察实验效应。各组样本数可以相等,也可以不等。然后再通过

单因素方差分析考察总体在控制因素各水平上是否有显著差异。该设计的

优点是简单容易实行,缺点是每次只能实验一个因素,效率较低。

2.配伍设计(RandomizedBlockDesign)

配伍设计也叫随机区组设计,或称双因素无重复实验设计,可以分为

两种情况:第一、对同一个实验对象在同一控制因素不同水平间的比较;

第二、将几个实验对象按一定条件划分成配伍组,再将每一配伍组的实验

对象随机分配到各个处理组去。所谓配伍是指两个因素的水平进行配对,

假如第一因素有m个水平,第二个因素有n个水平,那么共有mn个配伍。

将配伍组的实验对象随机分配到处理组中,得到的结果就是配伍设计的数

据,配伍设计一般用两因素方差分析来设计,只分析其主效应就可以了。

3.交叉设计(Cross-overDesign)

交叉设计是一种特殊的自身对照设计,即根据自身的处理方法按照不

同顺序进行排列以获取处理数据,以平衡的两阶段交叉设计为例,假设有

第三篇SPSS深入分析(第9章相关分析及一般线性模型)

25/31

A、B两种处理方法,我们可以将实验对象分成两组,分别采用AB和BA

的顺序进行处理,即一组先用A方法处理,经过一段时间,再用B方法处

理,间隔一段时间是保证两种方法效果是独立的;另一组先用B方法处理,

经过一段时间,再用A方法处理。交叉设计的数据可以用方差分析法来进

行统计,所观察到的数据变异有如下几个因素影响:处理效应、阶段效应、

顺序效应和个体随机差异。其中处理效应是我们关心的,而顺序效应是在

统计分析中应该被忽略的,否则交叉设计就不能进行,当然,消除顺序效

应的方法就是选择较长的间隔时间以保证两个处理独立。

4.析因设计(FactorialDesign)

在经济学研究中,往往涉及很多因素,这些因素都是互相联系,互相

制约的。一个因素的变化很可能引起其他相关因素的变化。当因素之间存

在相关关系时,析因设计是一种理想的设计方案。我们以最简单的两因素

析因分析来说,不仅可以检验因素各水平是否有显著差异,而且还能检验

交互作用。在析因分析中,当交互作用各水平上差异显著时,当主要分析

交互作用,对于主效应的分析意义就不大了。

5.正交设计(OrthoganalDesign)

当实验设计的因素超过三个以上,因素之间又存在交互作用时,可以

使用正交设计。他利用统计学家专门设计的一套规格化正交表将各试验因

素、各水平之间的组合进行均匀调整,从而可以用较少的、有代表性的处

理组合数,提供充分的信息。及普通多因素实验设计相比,它仍然可以分

析主效应和交互作用,同时大大介绍样本量,是一种高效、快速多变的多

第三篇SPSS深入分析(第9章相关分析及一般线性模型)

26/31

因素实验设计方法。

另外,对于实验设计还有拉丁方实验设计、星点实验设计等,此处就

不再介绍了,下面我们来看配伍实验的一个例子。

9.3.2引例,实验设计随机效应模型

例9-3某地区关心某项刺激中小型企业的政策落实情况及效果,抽取了

10家中小型企业,分别在记录企业在政策实施之前,实施之中和实施之

后的年销售额(万元),数据见表9-5,试问中小企业在三个不同时期的

营业额有无显著差异?

本例中,显然数据的特点和配对数据特别像,但是这里有三组数据,

不太适合用配对样本t检验的完成,否则会增大犯第一类错误的概率。当

然,读者可以考虑用非参数检验的Friedman检验来完成,这不失为一条

解决途径,有兴趣的读者可以自行验证,但是使用非参数方法的样本量不

能太小,这里10个样本量显然太少。因此,本例采用配伍实验设计来完

成。

首先根据数据的特点,进行配伍,这里有两个因素,一个是三个时期,

二是10家企业,我们按照这两个因素进行配伍,得到30个配伍,此时需

要在数据集文件中建立三个变量:时期、企业、营业额,建好的数据见光

盘()。下面就开始分析,由于每种配伍只有一个数据,因而无法

进行交互作用分析,只能分析主效应。进行如下操作:

Step1:选择【Analysis】菜单→【GeneralLinearModel】菜单→

第三篇SPSS深入分析(第9章相关分析及一般线性模型)

27/31

【Univariate】菜单

表9-5某地区企业政策实施三阶段销售额

企业编

实施前销售额(万

元)

实施中销售额(万

元)

实施后销售额(万

元)

190.62142.2587.38

287.46163.4865.27

346.5066.7168.41

4175.80166.33210.54

5101.20145.25194.25

647.31167.2365.27

773.58167.56200.02

8104.32125.45100.01

985.46120.10105.27

1060.3173.6958.95

在图9-6的对话框中,和图8-5类似,将观测变量“营业额”选入控

制变量框,将变量“三个时期”选入固定效应,将变量“企业编号”选入

随机因素,因为我们可以控制时期进行抽样,但是抽到哪个企业是随机的,

企业编号是随机效应。

第三篇SPSS深入分析(第9章相关分析及一般线性模型)

28/31

图9-6配伍实验设计随机效应模型

Step2:进行其他选择操作

在模型选择中只选择主效应,相关操作请参看第8章,选择好水平的比较

方法为Simple。设置完成以后点击完成操作。

9.3.3实验设计随机效应模型结果分析

请看配伍实验设计两因素方差分析结果

关于每种因素的频数表格此处就省略了。

表9-6营业额TestsofBetween-SubjectsEffects

Source

TypeIIISumof

Squares

d

f

Mean

Square

F

S

ig.

Hypothesis377660.7121

377660.7

12

86.

613

.

000

Error39242.9189

4360.324

a

第三篇SPSS深入分析(第9章相关分析及一般线性模型)

29/31

tim

e

Hypothe

sis

11001.14725500.574

4.9

47

.

019

Error20012.363

1

8

1111.798

b

int

erp

Hypothe

sis

39242.91894360.324

3.9

22

.

007

Error20012.363

1

8

1111.798

b

表9-6列出配伍实验设计的多因素方差分析表。从结果上看,整体两

个因素的主效应模型P值接近0,说明销售额在企业和时期各水平上是显

著差异的。再来看各自的效应是否显著,时期效应检验统计量观测值

4.947,P值为0.019,以0.05为显著水平,则时期三个水平上中小企业

营业额显著差异。对于企业效应,检验统计量观测值为3.922,对应的P

值为0.007,显然在企业10个水平上,营业额的差异也是显著的。这说

明时期和企业对营业额都有显著的影响。

第三篇SPSS深入分析(第9章相关分析及一般线性模型)

30/31

【本章知识点】

相关分析是研究两个变量之间相关程度的统计分析方法。读者需要了

解相关分析在不同分类标准下的分类,同时理解相关系数的概念。

相关系数分为Person简单相关系数,Spearman等级相关系数和

Kendall协同相关系数。读者需要了解三种相关系数的使用条件,构造公

式,掌握计算三种统计相关系数的SPSS操作;了解相关系数显著性检验

的步骤,并掌握利用P值(或*标注)判断相关系数是否显著的方法。

偏相关分析是去掉中间变量的影响以后考虑两个变量的净相关关系。

读者需要了解偏相关分析的基本思想,中间变量的作用,同时掌握SPSS

中偏相关分析的操作和结果解释,能够运用偏相关分析结果和简单相关分

析结果对比,说明中间变量对相关性的影响。

一般线性模型是用于实验设计和实验结果分析,读者需要了解实验设

计的一些基本概念,实验设计的分类,同时掌握SPSS在一般线性模型中

的操作,并结合结果说明实际问题。

【思考及练习】

第三篇SPSS深入分析(第9章相关分析及一般线性模型)

31/31

1.三个相关系数适用条件是什么,它们各有什么特点,在应用中如果有

极端值,应该采用哪种相关系数?

2.偏相关分析和简单相关分析有什么差异,中间变量对相关性的影响如

何体现?

3.实验设计主要有哪些分类?

4.计算12章数据中各变量两两之间的三种相关系数,并说明

三者的差异。

5.仍然利用数据,在扣除了食品消费这个中间变量因素后,计

算杂项商品和服务消费及家庭设备用品及服务两变量的偏相关系数,并进

行解释。

6.了解实验设计的常用方法,并举一个实验设计的例子。

👁️ 阅读量:0