
回归直线法
-
2023年3月3日发(作者:胃肠外营养)第十章一元回归与相关分析
概述:许多问题需要研究多个变量之间的关系,例如生物的生长发育速度就与温度,营
养,湿度等许多因素有关。
相关关系:两变量X,Y均为随机变量,任一变量的每一可能值都有另一变量的一个确定分
布与之对应。
回归关系:X是非随机变量(如施肥)或随机变量(如穗长),Y是随机变量,对X的每一
确定值x
i
都有Y的一个确定分布与之对应。
区别:1.相关中的两个变量地位对称,互为因果;回归中X是自变量,Y是因变量。
两种意义不同,分析的数学概念与推导过程不同,但如果使用共同标准即使
y的残差平方和最小(最小二乘法),可得到相同的参数估计式。因此主要讨论X为非随机
变量(不包含有随机误差)的情况,所得到的参数估计式也可用于X为随机变量的情况。
2.分析目的不同。回归分析是建立X与Y之间的数学关系式,用于预测;而相关
分析研究X与Y两个随机变量之间的共同变化规律,例如当X增大时Y如何变化,以及这
种共变关系的强弱。
分类:
从两个变量间相关(或回归)的程度分三种:
(1)完全相关。一个变量的值确定后,另一个变量的值可通过公式求出(函数关系);生物
学研究中不太多见。
(2)不相关。变量之间完全没有任何关系。一个变量的值不能提供另一个变量的任何信息。
(3)统计相关(不完全相关)。介于上述两情况之间。知道一个变量的值通过某种公式就可
以提供另一个变量的均值的信息。一个变量的取值不完全决定另一个变量的取值,但可或多
或少地决定它的分布。科研中最常遇到。
研究“一因一果”,即一个自变量与一个依变量的回归分析称为一元回归分析;
研究“多因一果”,即多个自变量与一个依变量的回归分析称为多元回归分析。
一元回归分析又分为直线回归分析与曲线回归分析两种;多元回归分析又分为多元
线性回归分析与多元非线性回归分析两种。
对两个变量间的直线关系进行相关分析称为直线相关分析;
研究一个变量与多个变量间的线性相关称为复相关分析;研究其余变量保持不变的情
况下两个变量间的线性相关称为偏相关分析。
注意:1.相关与回归只是一种工具,不是不相干的数据拼凑在一起。
2.除X、Y等需研究的因素外,其他的要严格控制一致。(身高与胸围的关系要控
制体重)
3.对子一般在5对以上
4.需限制自变量范围,结果不能随意外延。
第一节一元线性回归
(一)直线回归方程的建立
对于两个相关变量,一个变量用x表示,另一个变量用y表示,如果通过试验或调查获
得两个变量的n对观测值:
(x1,y1),(x2,y2),……,(xn,yn)
为直观看出x和y间的变化趋势,可将每一对观测值在平面直角坐标系描点,作出散点图
例11.1对大白鼠从出生第6天起,每三天称一次体重,直到第18天。数据见表11.1。试
计算日龄X与体重Y之间的回归方程。
表11.1大白鼠6-18日龄的体重
序号
12345
日龄x
i
69121518
体重y
i
1116.5222629
散点图对X、Y之间的关系有直观的、整体上的印象,但是否有某种规律性,是接近一
条直线还是一条曲线等,哪一条直线或曲线可以最好地代表X,Y之间的关系,不能做出判
断。
0
5
10
15
20
25
30
35
1316191121
日龄
体
重
图11.1大白鼠日龄—体重关系图
一、一元正态线性回归统计模型:
对于每个Y的观察值y
i
来说,由于总是带有随机误差,观察值就应该是在均值的基
础上再加上一个随机误差,即:
iii
xy(11.2)
其中
),0(~2NID
i
。随机误差服从正态分布。这是一元正态线性回归的统计模型。
二、参数α和β的估计
模型中的α和β是参数,一般不知道。由于只能得到有限的观察数据,无法算出准确的
α与β的值,只能求出估计值a和b,并得到yi的估计值为:
ii
bxay
ˆ
(11.3)
a和b应使残差
iii
yye
ˆ
最小。为了避免使正负ei互相抵消,定义使残差平方和
n
i
ii
yy
1
2)
ˆ
(达到最小的直线为回归线,即令:
n
i
iie
bxaySS
1
2)(,且SSe对a、b的一阶偏导数等于0
0
0
b
SS
a
SS
e
e
得:
n
i
iii
n
i
ii
bxayx
bxay
1
1
0)()2(
0))(2(
整理后,得
n
i
n
i
n
i
iiii
n
i
n
i
ii
yxxbxa
yxban
111
2
11
(11.4)
解此方程,得:
xbya
xx
yyxx
nxx
n
yx
yx
b
n
i
i
n
i
ii
n
i
n
i
ii
n
i
i
n
i
i
n
i
ii
1
2
1
1
2
1
2
11
1
)(
))((
/)(
)()(
这种方法称为最小二乘法
记
n
i
ixx
xxS
1
2)(,称为X的校正平方和;
n
i
iyy
yyS
1
2)(,称为Y的总校正平方和;
n
i
iixy
yyxxS
1
))((,称为校正交叉乘积和,
则:
xx
xy
S
S
b(11.7)
a叫样本回归截距,是回归直线与y轴交点的纵坐标,当x=0时,=a;
b叫样本回归系数,表示x改变一个单位,y平均改变的数量;b的符号反映了x影响y
的性质,b的绝对值大小反映了x影响y的程度;
y
ˆ
叫做回归估计值,是当x在在其研究范围内取某一个值时,y值平均数α+βx的估计值
回归方程的基本性质:
1
n
i
ii
yy
1
2)
ˆ
(最小
2
n
i
ii
yy
1
)
ˆ
(=0
3.直线通过(x,y)
转化后得到回归方程的另一种形式(中心化形式):
在实际计算时,可采用以下公式:
n
i
iixy
n
i
iyy
n
i
ixx
yx
n
yxS
y
n
yS
x
n
xS
1
2
1
2
1
22
..
1
,.
1
,.
1
例11.1对大白鼠从出生第6天起,每三天称一次体重,直到第18天。数据见表11.1。试
计算日龄X与体重Y之间的回归方程。
表5.1大白鼠6-18日龄的体重
序号
12345
日龄x
i
69121518
体重y
i
1116.5222629
解:把数据代入上述公式,得:
n
i
n
i
ii
n
i
i
yxx
11
2
1
,5.104,810,60
n
i
i
y
1
2,25.2394
n
i
ii
yx
1
5.1390
,5.1365.10460
5
1
5.1390
,2.210)5.104(
5
1
25.2394
90)60(
5
1
810
2
2
xy
yy
xx
S
S
S
6996.2125167.15/5.104
5167.190/5.136
xbya
S
S
b
xx
xy
即:所求的回归方程为:y=2.6996+1.5167x
带有统计功能的计算器,只需把数据依次输入,然后按一下键就可得到上述结果。
根据直线回归方程可作回归直线,并不是所有的散点都恰好落在回归直线上,说明用
去估计y是有偏差的。
)(
ˆ
xxbybxxbyy
y
ˆ
y
ˆ
三、直线回归的偏离度估计
偏差平方和
n
i
ii
yy
1
2)
ˆ
(的大小表示了实测点与回归直线偏离的程度,因而偏差
平方和又称为离回归平方和。统计学已经证明:在直线回归分析中离回归平方和的自由度为
n-2。于是可求得离回归均方为:)2/()(2nyy
离回归均方是模型中σ2的估计值。
离回归均方的平方根叫离回归标准误,记为,即
S
yx
的大小表示了回归直线与实测点偏差的程度,即回归估测值与实际观测值y
偏差的程度,于是把离回归标准误Syx用来表示回归方程的偏离度。
以后将证明:
利用此式先计算出,然后再求Syx。
四、直线回归的显著性检验
x和y变量间即使不存在直线关系,但由n对观测值(xi,yi)也可以根据上面的方法求
得一个回归方程。显然,这样的回归方程所反应的两个变量间的直线关系是不真实的。需要
判断直线回归方程的真实性。
先探讨依变量y的变异,然后再作出统计推断。
1、直线回归的变异来源
的分解图
1)一元回归的方差分析
(1)无重复的情况。
y的总校正平方和可进行如下的分解:
yx
S
)2/()
ˆ
(2nyyS
yx
y
ˆ
xxyy
SSSPSSyy/)
ˆ
(22
2)
ˆ
(yy
)(yy
)
ˆ
()
ˆ
()(yyyyyy
n
i
n
i
n
i
iiiiii
n
i
n
i
iiii
yyyyyyyy
yyyyyy
111
22
11
22
)
ˆ
)(
ˆ
(2)
ˆ
()
ˆ
(
)]
ˆ
()
ˆ
[()(
0)(
])())(([
))((
))(()
ˆ
()
ˆ
(
11
2
1
11
xxxy
n
i
n
i
iii
n
i
iii
n
i
iiii
n
i
ii
SbSb
xxbxxyyb
xbbxbxxbyy
xbabxabxayyyyy
n
i
n
i
n
i
iiii
yyyyyy
111
222)
ˆ
()
ˆ
()(
即:SSy=SSe+SS
R
y的总校正平方和残差平方和回归平方和
自由度:n-1n-21
反映了y的总变异程度,称为y的总平方和,记为SSy;
反映了由于y与x间存在直线关系所引起的y的变异程度,称为回归
平方和,记为SS
R
;
反映了除y与x存在直线关系以外的原因,包括随机误差所引起的y
的变异程度,称为离回归平方和或剩余平方和,记为SSe。
把y的总校正平方和分解成了残差平方和与回归平方和。MS
e
可作为总体方差2的估计
量,而MS
R
可作为回归效果好坏的评价。如果MS
R
仅由随机误差造成的话,说明回归失败,
X和Y没有线性关系;否则它应显著偏大。因此可用统计量
)2/(
nSS
SS
MS
MS
F
e
R
e
R(11.10)
对H
0
:=0进行检验。若F (1,n-2) ,则接受H 0 ,否则拒绝。 简化公式: 对例11.1作方差分析 解:由以前计算结果: SS y =210.2,df=4;SS e =3.1704,df=3, 2)(yy 2) ˆ (yy 2)(yy 22)]([) ˆ (xxbyySS R xyx bSPSSbxxb222)( x xy xy x xy SS SP SP SS SP2 x xy yRyeSS SP SSSSSSSS 2 SS R =210.2−3.1704=207.03,df=1 90.195 3/1704.3 03.207 F 查表得F 0.95 (1,3)=10.13,F 0.99 (1,3)=34.12 F>F 0.99 (1,3),拒绝H 0 ,差异极显著。即应认为回归方程有效。 (2)有重复的情况: 设在每一个x i 取值上对Y作了m次观察,结果记为y i1 ,y i2 ,……y im ,则线性统计模型变 为: ijiij xy,i=1,2,…n,j=1,2,…m 估计值仍为: ii bxay ˆ 现在y的总校正平方和可分解为: SSy=SSR+SSLOF+SSpe 其中SSLOF称为失拟平方和,SSpe为纯误差平方和,表达式和自由度分别为: 1,..)( 11 2 mndfyySS n i m j ijy n i iR dfyymSS 1 21,..) ˆ ( nmndfyySS ndfyymSS n i m j iijpe n i iiLOF 11 2 . 1 2 . ,)( 2,) ˆ ( 可试证明上述分解中的三个交叉项均为0。 统计检验步骤为: I.令 pe LOF MS MS F 1 ,它服从F(n-2,mn-n) 若F检验差异显著,则可能的原因有: (1)除X以外还有其他变量影响Y的取值,而统计时没有加以考虑; (2)模型不当,即X与Y之间不是线性关系; 此时无必要再进一步对MS R 作检验,而应想办法找出原因,并把它消除后重作回归。 若差异不显著,则把MS LOF 和MS pe 合并,再对MS R 作检验: II. peLOF peLOF R dfdf SSSS MS F 2 ,它服从F(1,mn-2) 若差异显著,说明回归是成功的,X,Y间确有线性关系;若差异仍不显著,则回归失败, 其可能的原因为: (1)X,Y无线性关系; (2)误差过大,掩盖了X,Y间的线性关系。 如有必要,可设法减小实验误差,或增加重复数重做实验后再重新回归。 二)一元回归的t-检验 由于MS e 的自由度为n-2,因此上述两方差的自由度也均为n-2。有了a和b的方差与均 值,我们就可构造统计量对它们进行检验: H 0 :=0 H A :0(双侧检验) 或:H A :>0(或<0)(单侧检验) 统计量: e xx bbMS Sb Sbt / 其中,Sb为回归系数标准误。 当H 0 成立时,t a ~t(n-2),可查相应分位数表进行检验。 对例11.1中的作t-检验: H 0 :=0 解: 2 / 22 2 n SSS n bSS n SS MSxxxyyyxyyy e e 0583.1 25 90/5.1362.2102 xxeb SMSbSbt/// 99.131084.0/5167.190/0583.1/5167.1 查表,t 0.995 (3)=5.841 0 ,即0,或X与Y有着极显著的 线性关系。 上述统计量还有一个用途:进行两个回归方程间的比较。即检验H 0 : 1 = 2 和H 0 : 1 = 2 。 如果两H 0 均被接受,则可认为两组数据是抽自同一总体,从而可将两回归方程合并,得到 一个更精确的方程。 例11.3两组实验数据如下: x 1 92105108 y 1 6668697173788285 x 2 85 y 2 55576062646771 是否可从它们得到统一的回归方程? 解:从原始数据计算可得: 组别 nxyS xx S yy S xy MS e ba 1898.37574.0257.875336.0294.00.13571.140-38.15 2787.062.286162.0187.429174.00.10801.074-31.15 (1).首先检验总体方差是否相等: 2 2 2 1 2 2 2 10 :,: A HH 2565.1 1080.0 1357.0 2 1 e e MS MS F 查表,F 0.975 (6,5)=6.978>F,接受H 0 ,可认为两总体方差相等。 计算公共的总体方差: 1231.0 11 1080.051357.06 4 )2()2( 21 2211 nn MSnMSn MSee e (2).检验回归系数 1 与 2 是否相等:H 0 : 1 = 2 ;H A : 1 2 8766.1 03517.0 066.0 ) 162 1 875.257 1 (1231.0 074.1140.1 ) 11 ( 21 21 2 2 2 1 21 xxxx e bb SS MS bb SS bb t 查表,得t 0.975 (11)=2.201>t,接受H 0 ,可认为两回归系数相等。 共同总体回归系数的估计值为: 1146.1 162875.257 174294 21 21 21 2211 xxxx xyxy xxxx xxxx SS SS SS bSbS b (3).再检验 1 , 2 是否相等:H 0 : 1 = 2 ;H A : 1 2 1702.2 22556.3 7 ) 162 87 875.257 375.98 7 1 8 1 (1231.0 15.3115.38 ) 11 ( 22 2 2 2 21 2 1 1 21 2 2 2 1 21 xxxx e aa S X nS X n MS aa SS aa t 查表,t 0.975 (11)=2.201,,)11( 975.0 tt接受H 0 ,可认为: 1 = 2。 若检验结果为 1 2 ,此题即可结束;但若检验结果为 1 = 2 ,则需把全部原始数据放在 一起,重新进行回归: S xx =902.9333,S xy =965.4667,S yy =1035.7333,x=93.067,y=68.533, b= xx xy S S =1.0693, a=xby=−30.9787 从而得到合并的回归方程xy0693.19787.30 ˆ 。 现在证明t检验与前述的F检验是一致的: 前已证明:SS e =S yy −bS xy , SS R =S yy −SS e =bS xy , xx e bS MS S2 2 2 2 2 t S b SS Sb MS MS F bxxb xy e R 五、点估计与区间估计 前边已经证明a和b是α和β的点估计;但作为预测值仅给出点估计是不够的,一般要 求给出区间估计,即给出置信区间。 α和β的区间估计 已经证明a和b是α和β的点估计,并求出了它们的方差。因此给出置信区间就很容易 了: )2(~ / nt SMS b xxe ∴β的95%置信区间为: xxe SMSntb/)2( 975.0 (11.13) 同理 )2(~ ) 1 ( 2 nt S x n MS a xx e 的95%置信区间为: ) 1 ()2( 2 975.0 xx eS x n MSnta(11.14) 这与以前假设检验中的置信区间求法完全一样。若置信水平为99%,把分位数相应换为 t 0.995 (n-2)即可。 对例11.1中的和给出95%置信区间。 解:从前边的计算可知: a=2.6996,b=1.5167,S xx =90,MS e =1.0568,n=5,12x 查表,得t 0.975 (3)=3.182 3887.4) 90 12 5 1 (0568.1182.3) 1 ()3( 3448.0 90 0568.1 182.3)3( 22 975.0 975.0 xx e xx e S x n MSt S MS t 的95%置信区间为: 2.69964.3887,即(-1.6891,7.0883) 的95%置信区间为: 1.51670.3448,即(1.1719,1.8615) 第二节相关分析 直线相关分析是根据x、y的实际观测值,计算表示两个相关变量x、y间线性相关程度 和性质的统计量——相关系数r并进行显著性检验。 一、相关系数。 例:(1)X77165389311总和50 Y59613194666总和52 (2)X9879653311总和50 Y9986654311总和52 (3)X1133567189总和50 Y9986654311总和52 可见:(1)X、Y关系紊乱(2)X减小、Y也减小(3)X增大、Y减小 作散点图,如果再以X和Y的平均数作坐标原点,将原散点图划分为四个象限, 如果各点均匀分布则=0,落在2、4象限则小于0——负相关, 落在1、3象限则大于0——正相关,为消除变异程度(n-1)和单位的影响,需除以标 准差。 yyxx xySS SPxy yyxx yyxx n yy n xx n yyxx SxSy yyxx n r 2222)()( ))(( 1 )( 1 )( 1 ))(( ))(( 1 1 根据以前的推导结果,有: yy e yy R yy xy yyxx xy S SS S SS S bS SS S r 1 2 2 性质:1r。 当1r时,从上式可看出SS e =0,即用y ˆ 可以准确预测y值。此时若X不是随机变 量,则Y也不是随机变量了。 当r=0时,SS e =S yy ,回归一点作用也没有,即用X的线性函数完全不能预测Y的变 化。但这时X与Y间还可能存在着非线性的关系。 当10r时,情况介于上述二者之间隔。X的线性函数对预测Y的变化有一定作用, )()(yyxx n y y n x x n yx xy 2 2 2 2 )()( ))(( 但不能准确预测,这说明Y还受其他一些因素,包括随机误差的影响。 综上,r可以作为X,Y间线性关系强弱的一种指标。非常直观,接近于1就是线性关 系强,接近于0就是线性关系弱;而其他统计量都需要查表后才知检验结果。 二、决定系数和相关系数 前面已经证明了等式: 从这个等式:y与x直线回归效果的好坏取决于回归平方和与离回归平 方和的大小,或者说取决于回归平方和在y的总平方和 中所占的比例的大小。这个比例越大,y与x的直线回归效果就越好,反 之则差。 比值 叫做x对y的决定系数,记为r2,即 决定系数的大小表示了回归方程估测可靠程度的高低,或者说表示了回归直线拟合度的 高低。显然有0≤r2≤1。因为: 而SPxy/SSx是以x为自变量、y为依变量时的回归系数byx。若把y作为自变量、x作为 依变量,则回归系数bxy=SPxy/Ssy,所以决定系数r2等于y对x的回归系数与x对y的回 归系数的乘积。即决定系数反应了x为自变量、y为依变量和y为自变量、x为依变量时两 个相关变量x与y直线相关的信息,即决定系数表示了两个互为因果关系的相关变量间直线 相关的程度。但决定系数介于0和1之间,不能反应直线关系的性质——是同向增减或是异 向增减。 另外,r显著即一个显著的回归方程并不一定具有实践上的预测意义 如一个资料x、y两个变量间的相关系数r=0.5,在df=24时,r 0.01(24) =0.496, r>r0.01(24),表明相关系数极显著。而r2=0.25,即x变量或y变量的总变异能够通过y变量 或x变量以直线回归的关系来估计的比重只占25%,其余的75%的变异无法借助直线回归 来估计。 计算相关系数:根据公式 三、相关系数的显著性检验 在一般情况下r不是正态分布,直接检验有困难。但当总体相关系数ρ=0时,r的分布 近似于正态分布,此时用MSe代替2,就可以对0: 0 H作t检验。这种检验与对回归 系数b的检验: 0: 0 H是等价的。可证明如下: b的t检验统计量为:t=b/S b 。b=S xy /S xx , 2)(yy22) ˆ () ˆ (yyyy 2) ˆ (yy 2) ˆ (yy 2)(yy /) ˆ (2yy2)(yy 2 2 2 )( ) ˆ ( yy yy r xyyx y xy x xy yx xybb SS SP SS SP SSSS SP yy yy r 2 2 2 2 )( ) ˆ ( 2 1 )2( 1 )1( 1 2 2 2 n r S S SnSS S S Sn bSS S MS S xx yy xxyyxx xy yy xx xyyy xx e b 代入t的表达式,得: )2(~ 1 2 1 2 1 2 2 22 nt r nr r n r r n S S S S t yy xx xx xy 。 因此可用上述统计量对0: 0 H作统计检验。 为使用方便,已根据上述公式编制专门的相关系数检验表,可根据剩余自由度及自变量 个数直接查出r的临界值。 若必须对ρ≠0的情况作统计检验,可采用反双曲正切变换: r r Z 1 1 ln 2 1 (11.20) 当n充分大时,可证明Z渐近正态分布N) 3 1 , )1(2 ( nn ,其中 1 1 ln 2 1 。 利用统计量Z可对 210 ,等进行检验。但这一检验方法用得很少。 求出例11.1相关系数r,并作统计检验。 解:利用以前的计算结果,可得: 99.13 99242.01 2599242.0 1 2 99242.0 2.21090 5.136 22 r nr Z SS S r yyxx xy 这里求得的Z值与前面求得的t值是相同的,它们本来就是同一个统计量。 查表,t 0.995 (3)=5.841 若直接查相关系数检验表,可得:剩余自由度为3,独立自变量为1,α=0.05的r临界值 为0.878,α=0.01的临界值为0.959,∴差异仍为极显著。 二、相关系数与回归系数间的关系 在X和Y均为随机变量的情况下,通常可以X为自变量,Y为因变量建立方程,也可 反过来,以Y为自变量,X为因变量建立方程。此时它们的地位是对称的。 取X为自变量,Y为因变量,回归系b为: xxxy SSb/ 取Y为自变量,X为因变量,回归系数b’为: yyxy SSb/' ', 2 2bbrbb SS S r yyxx xy 即:相关系数实际是两个回归系数的几何平均值。这正反映了相关与回归的不同:相关是双 向的关系,而回归是单向的。 三种对回归方程统计检验的的比较: 1.对一元线性回归来说,它们的基本公式其实是等价的,因此结果也是一致的。 2.各有优缺点:对b的t检验可给出置信区间;方差分析在有重复的情况下可分解出 纯误差平方和,从而可得到进一步的信息;相关系数则既直观,又方便(有专门表 格可查),因此使用广泛。 需注意,不论采用什么检验方法,数据都应满足以下三个条件:独立,抽自正态总体, 方差齐性。