✅ 操作成功!

回归直线法

发布时间:2023-06-11 作者:admin 来源:文学

回归直线法

回归直线法

-

2023年3月3日发(作者:胃肠外营养)

第十章一元回归与相关分析

概述:许多问题需要研究多个变量之间的关系,例如生物的生长发育速度就与温度,营

养,湿度等许多因素有关。

相关关系:两变量X,Y均为随机变量,任一变量的每一可能值都有另一变量的一个确定分

布与之对应。

回归关系:X是非随机变量(如施肥)或随机变量(如穗长),Y是随机变量,对X的每一

确定值x

i

都有Y的一个确定分布与之对应。

区别:1.相关中的两个变量地位对称,互为因果;回归中X是自变量,Y是因变量。

两种意义不同,分析的数学概念与推导过程不同,但如果使用共同标准即使

y的残差平方和最小(最小二乘法),可得到相同的参数估计式。因此主要讨论X为非随机

变量(不包含有随机误差)的情况,所得到的参数估计式也可用于X为随机变量的情况。

2.分析目的不同。回归分析是建立X与Y之间的数学关系式,用于预测;而相关

分析研究X与Y两个随机变量之间的共同变化规律,例如当X增大时Y如何变化,以及这

种共变关系的强弱。

分类:

从两个变量间相关(或回归)的程度分三种:

(1)完全相关。一个变量的值确定后,另一个变量的值可通过公式求出(函数关系);生物

学研究中不太多见。

(2)不相关。变量之间完全没有任何关系。一个变量的值不能提供另一个变量的任何信息。

(3)统计相关(不完全相关)。介于上述两情况之间。知道一个变量的值通过某种公式就可

以提供另一个变量的均值的信息。一个变量的取值不完全决定另一个变量的取值,但可或多

或少地决定它的分布。科研中最常遇到。

研究“一因一果”,即一个自变量与一个依变量的回归分析称为一元回归分析;

研究“多因一果”,即多个自变量与一个依变量的回归分析称为多元回归分析。

一元回归分析又分为直线回归分析与曲线回归分析两种;多元回归分析又分为多元

线性回归分析与多元非线性回归分析两种。

对两个变量间的直线关系进行相关分析称为直线相关分析;

研究一个变量与多个变量间的线性相关称为复相关分析;研究其余变量保持不变的情

况下两个变量间的线性相关称为偏相关分析。

注意:1.相关与回归只是一种工具,不是不相干的数据拼凑在一起。

2.除X、Y等需研究的因素外,其他的要严格控制一致。(身高与胸围的关系要控

制体重)

3.对子一般在5对以上

4.需限制自变量范围,结果不能随意外延。

第一节一元线性回归

(一)直线回归方程的建立

对于两个相关变量,一个变量用x表示,另一个变量用y表示,如果通过试验或调查获

得两个变量的n对观测值:

(x1,y1),(x2,y2),……,(xn,yn)

为直观看出x和y间的变化趋势,可将每一对观测值在平面直角坐标系描点,作出散点图

例11.1对大白鼠从出生第6天起,每三天称一次体重,直到第18天。数据见表11.1。试

计算日龄X与体重Y之间的回归方程。

表11.1大白鼠6-18日龄的体重

序号

12345

日龄x

i

69121518

体重y

i

1116.5222629

散点图对X、Y之间的关系有直观的、整体上的印象,但是否有某种规律性,是接近一

条直线还是一条曲线等,哪一条直线或曲线可以最好地代表X,Y之间的关系,不能做出判

断。

0

5

10

15

20

25

30

35

1316191121

日龄

图11.1大白鼠日龄—体重关系图

一、一元正态线性回归统计模型:

对于每个Y的观察值y

i

来说,由于总是带有随机误差,观察值就应该是在均值的基

础上再加上一个随机误差,即:

iii

xy(11.2)

其中

),0(~2NID

i

。随机误差服从正态分布。这是一元正态线性回归的统计模型。

二、参数α和β的估计

模型中的α和β是参数,一般不知道。由于只能得到有限的观察数据,无法算出准确的

α与β的值,只能求出估计值a和b,并得到yi的估计值为:

ii

bxay

ˆ

(11.3)

a和b应使残差

iii

yye

ˆ

最小。为了避免使正负ei互相抵消,定义使残差平方和

n

i

ii

yy

1

2)

ˆ

(达到最小的直线为回归线,即令:



n

i

iie

bxaySS

1

2)(,且SSe对a、b的一阶偏导数等于0

0

0

b

SS

a

SS

e

e

得:





n

i

iii

n

i

ii

bxayx

bxay

1

1

0)()2(

0))(2(

整理后,得













n

i

n

i

n

i

iiii

n

i

n

i

ii

yxxbxa

yxban

111

2

11

(11.4)

解此方程,得:













xbya

xx

yyxx

nxx

n

yx

yx

b

n

i

i

n

i

ii

n

i

n

i

ii

n

i

i

n

i

i

n

i

ii

1

2

1

1

2

1

2

11

1

)(

))((

/)(

)()(

这种方法称为最小二乘法

记



n

i

ixx

xxS

1

2)(,称为X的校正平方和;



n

i

iyy

yyS

1

2)(,称为Y的总校正平方和;



n

i

iixy

yyxxS

1

))((,称为校正交叉乘积和,

则:

xx

xy

S

S

b(11.7)

a叫样本回归截距,是回归直线与y轴交点的纵坐标,当x=0时,=a;

b叫样本回归系数,表示x改变一个单位,y平均改变的数量;b的符号反映了x影响y

的性质,b的绝对值大小反映了x影响y的程度;

y

ˆ

叫做回归估计值,是当x在在其研究范围内取某一个值时,y值平均数α+βx的估计值

回归方程的基本性质:

1

n

i

ii

yy

1

2)

ˆ

(最小

2

n

i

ii

yy

1

)

ˆ

(=0

3.直线通过(x,y)

转化后得到回归方程的另一种形式(中心化形式):

在实际计算时,可采用以下公式:







n

i

iixy

n

i

iyy

n

i

ixx

yx

n

yxS

y

n

yS

x

n

xS

1

2

1

2

1

22

..

1

,.

1

,.

1

例11.1对大白鼠从出生第6天起,每三天称一次体重,直到第18天。数据见表11.1。试

计算日龄X与体重Y之间的回归方程。

表5.1大白鼠6-18日龄的体重

序号

12345

日龄x

i

69121518

体重y

i

1116.5222629

解:把数据代入上述公式,得:







n

i

n

i

ii

n

i

i

yxx

11

2

1

,5.104,810,60

n

i

i

y

1

2,25.2394

n

i

ii

yx

1

5.1390

,5.1365.10460

5

1

5.1390

,2.210)5.104(

5

1

25.2394

90)60(

5

1

810

2

2







xy

yy

xx

S

S

S

6996.2125167.15/5.104

5167.190/5.136





xbya

S

S

b

xx

xy

即:所求的回归方程为:y=2.6996+1.5167x

带有统计功能的计算器,只需把数据依次输入,然后按一下键就可得到上述结果。

根据直线回归方程可作回归直线,并不是所有的散点都恰好落在回归直线上,说明用

去估计y是有偏差的。

)(

ˆ

xxbybxxbyy

y

ˆ

y

ˆ

三、直线回归的偏离度估计

偏差平方和

n

i

ii

yy

1

2)

ˆ

(的大小表示了实测点与回归直线偏离的程度,因而偏差

平方和又称为离回归平方和。统计学已经证明:在直线回归分析中离回归平方和的自由度为

n-2。于是可求得离回归均方为:)2/()(2nyy

离回归均方是模型中σ2的估计值。

离回归均方的平方根叫离回归标准误,记为,即

S

yx

的大小表示了回归直线与实测点偏差的程度,即回归估测值与实际观测值y

偏差的程度,于是把离回归标准误Syx用来表示回归方程的偏离度。

以后将证明:

利用此式先计算出,然后再求Syx。

四、直线回归的显著性检验

x和y变量间即使不存在直线关系,但由n对观测值(xi,yi)也可以根据上面的方法求

得一个回归方程。显然,这样的回归方程所反应的两个变量间的直线关系是不真实的。需要

判断直线回归方程的真实性。

先探讨依变量y的变异,然后再作出统计推断。

1、直线回归的变异来源

的分解图

1)一元回归的方差分析

(1)无重复的情况。

y的总校正平方和可进行如下的分解:

yx

S

)2/()

ˆ

(2nyyS

yx

y

ˆ

xxyy

SSSPSSyy/)

ˆ

(22

2)

ˆ

(yy

)(yy

)

ˆ

()

ˆ

()(yyyyyy













n

i

n

i

n

i

iiiiii

n

i

n

i

iiii

yyyyyyyy

yyyyyy

111

22

11

22

)

ˆ

)(

ˆ

(2)

ˆ

()

ˆ

(

)]

ˆ

()

ˆ

[()(

0)(

])())(([

))((

))(()

ˆ

()

ˆ

(

11

2

1

11

















xxxy

n

i

n

i

iii

n

i

iii

n

i

iiii

n

i

ii

SbSb

xxbxxyyb

xbbxbxxbyy

xbabxabxayyyyy







n

i

n

i

n

i

iiii

yyyyyy

111

222)

ˆ

()

ˆ

()(

即:SSy=SSe+SS

R

y的总校正平方和残差平方和回归平方和

自由度:n-1n-21

反映了y的总变异程度,称为y的总平方和,记为SSy;

反映了由于y与x间存在直线关系所引起的y的变异程度,称为回归

平方和,记为SS

R

反映了除y与x存在直线关系以外的原因,包括随机误差所引起的y

的变异程度,称为离回归平方和或剩余平方和,记为SSe。

把y的总校正平方和分解成了残差平方和与回归平方和。MS

e

可作为总体方差2的估计

量,而MS

R

可作为回归效果好坏的评价。如果MS

R

仅由随机误差造成的话,说明回归失败,

X和Y没有线性关系;否则它应显著偏大。因此可用统计量

)2/(



nSS

SS

MS

MS

F

e

R

e

R(11.10)

对H

0

:=0进行检验。若F

(1,n-2)

,则接受H

0

,否则拒绝。

简化公式:

对例11.1作方差分析

解:由以前计算结果:

SS

y

=210.2,df=4;SS

e

=3.1704,df=3,

2)(yy

2)

ˆ

(yy

2)(yy

22)]([)

ˆ

(xxbyySS

R

xyx

bSPSSbxxb222)(

x

xy

xy

x

xy

SS

SP

SP

SS

SP2



x

xy

yRyeSS

SP

SSSSSSSS

2



SS

R

=210.2−3.1704=207.03,df=1

90.195

3/1704.3

03.207

F

查表得F

0.95

(1,3)=10.13,F

0.99

(1,3)=34.12

F>F

0.99

(1,3),拒绝H

0

,差异极显著。即应认为回归方程有效。

(2)有重复的情况:

设在每一个x

i

取值上对Y作了m次观察,结果记为y

i1

,y

i2

,……y

im

,则线性统计模型变

为:

ijiij

xy,i=1,2,…n,j=1,2,…m

估计值仍为:

ii

bxay

ˆ

现在y的总校正平方和可分解为:

SSy=SSR+SSLOF+SSpe

其中SSLOF称为失拟平方和,SSpe为纯误差平方和,表达式和自由度分别为:

1,..)(

11

2



mndfyySS

n

i

m

j

ijy



n

i

iR

dfyymSS

1

21,..)

ˆ

(

nmndfyySS

ndfyymSS

n

i

m

j

iijpe

n

i

iiLOF









11

2

.

1

2

.

,)(

2,)

ˆ

(

可试证明上述分解中的三个交叉项均为0。

统计检验步骤为:

I.令

pe

LOF

MS

MS

F

1

,它服从F(n-2,mn-n)

若F检验差异显著,则可能的原因有:

(1)除X以外还有其他变量影响Y的取值,而统计时没有加以考虑;

(2)模型不当,即X与Y之间不是线性关系;

此时无必要再进一步对MS

R

作检验,而应想办法找出原因,并把它消除后重作回归。

若差异不显著,则把MS

LOF

和MS

pe

合并,再对MS

R

作检验:

II.

peLOF

peLOF

R

dfdf

SSSS

MS

F

2

,它服从F(1,mn-2)

若差异显著,说明回归是成功的,X,Y间确有线性关系;若差异仍不显著,则回归失败,

其可能的原因为:

(1)X,Y无线性关系;

(2)误差过大,掩盖了X,Y间的线性关系。

如有必要,可设法减小实验误差,或增加重复数重做实验后再重新回归。

二)一元回归的t-检验

由于MS

e

的自由度为n-2,因此上述两方差的自由度也均为n-2。有了a和b的方差与均

值,我们就可构造统计量对它们进行检验:

H

0

:=0

H

A

:0(双侧检验)

或:H

A

:>0(或<0)(单侧检验)

统计量:

e

xx

bbMS

Sb

Sbt

/

其中,Sb为回归系数标准误。

当H

0

成立时,t

a

~t(n-2),可查相应分位数表进行检验。

对例11.1中的作t-检验:

H

0

:=0

解:

2

/

22

2

n

SSS

n

bSS

n

SS

MSxxxyyyxyyy

e

e

0583.1

25

90/5.1362.2102

xxeb

SMSbSbt///

99.131084.0/5167.190/0583.1/5167.1

查表,t

0.995

(3)=5.841

0

,即0,或X与Y有着极显著的

线性关系。

上述统计量还有一个用途:进行两个回归方程间的比较。即检验H

0

:

1

=

2

和H

0

:

1

=

2

如果两H

0

均被接受,则可认为两组数据是抽自同一总体,从而可将两回归方程合并,得到

一个更精确的方程。

例11.3两组实验数据如下:

x

1

92105108

y

1

6668697173788285

x

2

85

y

2

55576062646771

是否可从它们得到统一的回归方程?

解:从原始数据计算可得:

组别

nxyS

xx

S

yy

S

xy

MS

e

ba

1898.37574.0257.875336.0294.00.13571.140-38.15

2787.062.286162.0187.429174.00.10801.074-31.15

(1).首先检验总体方差是否相等:

2

2

2

1

2

2

2

10

:,:

A

HH

2565.1

1080.0

1357.0

2

1

e

e

MS

MS

F

查表,F

0.975

(6,5)=6.978>F,接受H

0

,可认为两总体方差相等。

计算公共的总体方差:

1231.0

11

1080.051357.06

4

)2()2(

21

2211







nn

MSnMSn

MSee

e

(2).检验回归系数

1

与

2

是否相等:H

0

:

1

=

2

;H

A

:

1



2

8766.1

03517.0

066.0

)

162

1

875.257

1

(1231.0

074.1140.1

)

11

(

21

21

2

2

2

1

21





xxxx

e

bb

SS

MS

bb

SS

bb

t

查表,得t

0.975

(11)=2.201>t,接受H

0

,可认为两回归系数相等。

共同总体回归系数的估计值为:

1146.1

162875.257

174294

21

21

21

2211



xxxx

xyxy

xxxx

xxxx

SS

SS

SS

bSbS

b

(3).再检验

1

,

2

是否相等:H

0

:

1

=

2

;H

A

:

1



2

1702.2

22556.3

7

)

162

87

875.257

375.98

7

1

8

1

(1231.0

15.3115.38

)

11

(

22

2

2

2

21

2

1

1

21

2

2

2

1

21









xxxx

e

aa

S

X

nS

X

n

MS

aa

SS

aa

t

查表,t

0.975

(11)=2.201,,)11(

975.0

tt接受H

0

,可认为:

1

=

2。

若检验结果为

1



2

,此题即可结束;但若检验结果为

1

=

2

,则需把全部原始数据放在

一起,重新进行回归:

S

xx

=902.9333,S

xy

=965.4667,S

yy

=1035.7333,x=93.067,y=68.533,

b=

xx

xy

S

S

=1.0693,

a=xby=−30.9787

从而得到合并的回归方程xy0693.19787.30

ˆ

。

现在证明t检验与前述的F检验是一致的:

前已证明:SS

e

=S

yy

−bS

xy

,

SS

R

=S

yy

−SS

e

=bS

xy

,

xx

e

bS

MS

S2

2

2

2

2

t

S

b

SS

Sb

MS

MS

F

bxxb

xy

e

R



五、点估计与区间估计

前边已经证明a和b是α和β的点估计;但作为预测值仅给出点估计是不够的,一般要

求给出区间估计,即给出置信区间。

α和β的区间估计

已经证明a和b是α和β的点估计,并求出了它们的方差。因此给出置信区间就很容易

了:

)2(~

/

nt

SMS

b

xxe

∴β的95%置信区间为:

xxe

SMSntb/)2(

975.0

(11.13)

同理

)2(~

)

1

(

2

nt

S

x

n

MS

a

xx

e

的95%置信区间为:

)

1

()2(

2

975.0

xx

eS

x

n

MSnta(11.14)

这与以前假设检验中的置信区间求法完全一样。若置信水平为99%,把分位数相应换为

t

0.995

(n-2)即可。

对例11.1中的和给出95%置信区间。

解:从前边的计算可知:

a=2.6996,b=1.5167,S

xx

=90,MS

e

=1.0568,n=5,12x

查表,得t

0.975

(3)=3.182

3887.4)

90

12

5

1

(0568.1182.3)

1

()3(

3448.0

90

0568.1

182.3)3(

22

975.0

975.0





xx

e

xx

e

S

x

n

MSt

S

MS

t

的95%置信区间为:

2.69964.3887,即(-1.6891,7.0883)

的95%置信区间为:

1.51670.3448,即(1.1719,1.8615)

第二节相关分析

直线相关分析是根据x、y的实际观测值,计算表示两个相关变量x、y间线性相关程度

和性质的统计量——相关系数r并进行显著性检验。

一、相关系数。

例:(1)X77165389311总和50

Y59613194666总和52

(2)X9879653311总和50

Y9986654311总和52

(3)X1133567189总和50

Y9986654311总和52

可见:(1)X、Y关系紊乱(2)X减小、Y也减小(3)X增大、Y减小

作散点图,如果再以X和Y的平均数作坐标原点,将原散点图划分为四个象限,

如果各点均匀分布则=0,落在2、4象限则小于0——负相关,

落在1、3象限则大于0——正相关,为消除变异程度(n-1)和单位的影响,需除以标

准差。

yyxx

xySS

SPxy

yyxx

yyxx

n

yy

n

xx

n

yyxx

SxSy

yyxx

n

r













2222)()(

))((

1

)(

1

)(

1

))((

))((

1

1

根据以前的推导结果,有:

yy

e

yy

R

yy

xy

yyxx

xy

S

SS

S

SS

S

bS

SS

S

r

1

2

2

性质:1r。

当1r时,从上式可看出SS

e

=0,即用y

ˆ

可以准确预测y值。此时若X不是随机变

量,则Y也不是随机变量了。

当r=0时,SS

e

=S

yy

,回归一点作用也没有,即用X的线性函数完全不能预测Y的变

化。但这时X与Y间还可能存在着非线性的关系。

当10r时,情况介于上述二者之间隔。X的线性函数对预测Y的变化有一定作用,

)()(yyxx





n

y

y

n

x

x

n

yx

xy

2

2

2

2

)()(

))((

但不能准确预测,这说明Y还受其他一些因素,包括随机误差的影响。

综上,r可以作为X,Y间线性关系强弱的一种指标。非常直观,接近于1就是线性关

系强,接近于0就是线性关系弱;而其他统计量都需要查表后才知检验结果。

二、决定系数和相关系数

前面已经证明了等式:

从这个等式:y与x直线回归效果的好坏取决于回归平方和与离回归平

方和的大小,或者说取决于回归平方和在y的总平方和

中所占的比例的大小。这个比例越大,y与x的直线回归效果就越好,反

之则差。

比值

叫做x对y的决定系数,记为r2,即

决定系数的大小表示了回归方程估测可靠程度的高低,或者说表示了回归直线拟合度的

高低。显然有0≤r2≤1。因为:

而SPxy/SSx是以x为自变量、y为依变量时的回归系数byx。若把y作为自变量、x作为

依变量,则回归系数bxy=SPxy/Ssy,所以决定系数r2等于y对x的回归系数与x对y的回

归系数的乘积。即决定系数反应了x为自变量、y为依变量和y为自变量、x为依变量时两

个相关变量x与y直线相关的信息,即决定系数表示了两个互为因果关系的相关变量间直线

相关的程度。但决定系数介于0和1之间,不能反应直线关系的性质——是同向增减或是异

向增减。

另外,r显著即一个显著的回归方程并不一定具有实践上的预测意义

如一个资料x、y两个变量间的相关系数r=0.5,在df=24时,r

0.01(24)

=0.496,

r>r0.01(24),表明相关系数极显著。而r2=0.25,即x变量或y变量的总变异能够通过y变量

或x变量以直线回归的关系来估计的比重只占25%,其余的75%的变异无法借助直线回归

来估计。

计算相关系数:根据公式

三、相关系数的显著性检验

在一般情况下r不是正态分布,直接检验有困难。但当总体相关系数ρ=0时,r的分布

近似于正态分布,此时用MSe代替2,就可以对0:

0

H作t检验。这种检验与对回归

系数b的检验:

0:

0

H是等价的。可证明如下:

b的t检验统计量为:t=b/S

b

。b=S

xy

/S

xx

,

2)(yy22)

ˆ

()

ˆ

(yyyy

2)

ˆ

(yy

2)

ˆ

(yy

2)(yy

/)

ˆ

(2yy2)(yy

2

2

2

)(

)

ˆ

(

yy

yy

r

xyyx

y

xy

x

xy

yx

xybb

SS

SP

SS

SP

SSSS

SP

yy

yy

r

2

2

2

2

)(

)

ˆ

(

2

1

)2(

1

)1(

1

2

2

2







n

r

S

S

SnSS

S

S

Sn

bSS

S

MS

S

xx

yy

xxyyxx

xy

yy

xx

xyyy

xx

e

b

代入t的表达式,得:

)2(~

1

2

1

2

1

2

2

22



nt

r

nr

r

n

r

r

n

S

S

S

S

t

yy

xx

xx

xy

因此可用上述统计量对0:

0

H作统计检验。

为使用方便,已根据上述公式编制专门的相关系数检验表,可根据剩余自由度及自变量

个数直接查出r的临界值。

若必须对ρ≠0的情况作统计检验,可采用反双曲正切变换:

r

r

Z

1

1

ln

2

1

(11.20)

当n充分大时,可证明Z渐近正态分布N)

3

1

,

)1(2

(



nn

,其中

1

1

ln

2

1

利用统计量Z可对

210

,等进行检验。但这一检验方法用得很少。

求出例11.1相关系数r,并作统计检验。

解:利用以前的计算结果,可得:

99.13

99242.01

2599242.0

1

2

99242.0

2.21090

5.136

22



r

nr

Z

SS

S

r

yyxx

xy

这里求得的Z值与前面求得的t值是相同的,它们本来就是同一个统计量。

查表,t

0.995

(3)=5.841

若直接查相关系数检验表,可得:剩余自由度为3,独立自变量为1,α=0.05的r临界值

为0.878,α=0.01的临界值为0.959,∴差异仍为极显著。

二、相关系数与回归系数间的关系

在X和Y均为随机变量的情况下,通常可以X为自变量,Y为因变量建立方程,也可

反过来,以Y为自变量,X为因变量建立方程。此时它们的地位是对称的。

取X为自变量,Y为因变量,回归系b为:

xxxy

SSb/

取Y为自变量,X为因变量,回归系数b’为:

yyxy

SSb/'

',

2

2bbrbb

SS

S

r

yyxx

xy





即:相关系数实际是两个回归系数的几何平均值。这正反映了相关与回归的不同:相关是双

向的关系,而回归是单向的。

三种对回归方程统计检验的的比较:

1.对一元线性回归来说,它们的基本公式其实是等价的,因此结果也是一致的。

2.各有优缺点:对b的t检验可给出置信区间;方差分析在有重复的情况下可分解出

纯误差平方和,从而可得到进一步的信息;相关系数则既直观,又方便(有专门表

格可查),因此使用广泛。

需注意,不论采用什么检验方法,数据都应满足以下三个条件:独立,抽自正态总体,

方差齐性。

👁️ 阅读量:0