回归直线法

发布时间：2023-06-11 作者：admin 来源：文学

回归直线法

2023年3月3日发(作者：胃肠外营养)

第十章一元回归与相关分析

概述：许多问题需要研究多个变量之间的关系，例如生物的生长发育速度就与温度，营

养，湿度等许多因素有关。

相关关系：两变量X，Y均为随机变量，任一变量的每一可能值都有另一变量的一个确定分

布与之对应。

回归关系：X是非随机变量（如施肥）或随机变量（如穗长），Y是随机变量，对X的每一

确定值x

都有Y的一个确定分布与之对应。

区别：1.相关中的两个变量地位对称，互为因果；回归中X是自变量，Y是因变量。

两种意义不同，分析的数学概念与推导过程不同，但如果使用共同标准即使

y的残差平方和最小（最小二乘法），可得到相同的参数估计式。因此主要讨论X为非随机

变量（不包含有随机误差）的情况，所得到的参数估计式也可用于X为随机变量的情况。

2.分析目的不同。回归分析是建立X与Y之间的数学关系式，用于预测；而相关

分析研究X与Y两个随机变量之间的共同变化规律，例如当X增大时Y如何变化，以及这

种共变关系的强弱。

分类：

从两个变量间相关（或回归）的程度分三种：

（1）完全相关。一个变量的值确定后，另一个变量的值可通过公式求出（函数关系）；生物

学研究中不太多见。

（2）不相关。变量之间完全没有任何关系。一个变量的值不能提供另一个变量的任何信息。

（3）统计相关（不完全相关）。介于上述两情况之间。知道一个变量的值通过某种公式就可

以提供另一个变量的均值的信息。一个变量的取值不完全决定另一个变量的取值，但可或多

或少地决定它的分布。科研中最常遇到。

研究“一因一果”，即一个自变量与一个依变量的回归分析称为一元回归分析；

研究“多因一果”，即多个自变量与一个依变量的回归分析称为多元回归分析。

一元回归分析又分为直线回归分析与曲线回归分析两种；多元回归分析又分为多元

线性回归分析与多元非线性回归分析两种。

对两个变量间的直线关系进行相关分析称为直线相关分析；

研究一个变量与多个变量间的线性相关称为复相关分析；研究其余变量保持不变的情

况下两个变量间的线性相关称为偏相关分析。

注意：1.相关与回归只是一种工具，不是不相干的数据拼凑在一起。

2.除X、Y等需研究的因素外，其他的要严格控制一致。（身高与胸围的关系要控

制体重）

3.对子一般在5对以上

4.需限制自变量范围，结果不能随意外延。

第一节一元线性回归

（一）直线回归方程的建立

对于两个相关变量，一个变量用x表示，另一个变量用y表示，如果通过试验或调查获

得两个变量的n对观测值：

（x1，y1），（x2，y2），……，（xn，yn）

为直观看出x和y间的变化趋势，可将每一对观测值在平面直角坐标系描点，作出散点图

例11.1对大白鼠从出生第6天起，每三天称一次体重，直到第18天。数据见表11.1。试

计算日龄X与体重Y之间的回归方程。

表11.1大白鼠6-18日龄的体重

序号

12345

日龄x

69121518

体重y

1116.5222629

散点图对X、Y之间的关系有直观的、整体上的印象，但是否有某种规律性，是接近一

条直线还是一条曲线等，哪一条直线或曲线可以最好地代表X,Y之间的关系，不能做出判

断。

1316191121

日龄

体

重

图11.1大白鼠日龄—体重关系图

一、一元正态线性回归统计模型：

对于每个Y的观察值y

来说，由于总是带有随机误差，观察值就应该是在均值的基

础上再加上一个随机误差，即：

iii

xy（11.2）

其中

),0(~2NID

。随机误差服从正态分布。这是一元正态线性回归的统计模型。

二、参数α和β的估计

模型中的α和β是参数，一般不知道。由于只能得到有限的观察数据，无法算出准确的

α与β的值，只能求出估计值a和b，并得到yi的估计值为：

bxay

（11.3）

a和b应使残差

iii

yye

最小。为了避免使正负ei互相抵消，定义使残差平方和







(达到最小的直线为回归线，即令：







iie

bxaySS

2)(，且SSe对a、b的一阶偏导数等于0



















得：

















iii

bxayx

bxay

0)()2(

0))(2(

整理后，得





















iiii

yxxbxa

yxban

111

（11.4）

解此方程，得：







































xbya

yyxx

nxx

)(

))((

/)(

)()(

这种方法称为最小二乘法

记





ixx

xxS

2)(，称为X的校正平方和；







iyy

yyS

2)(，称为Y的总校正平方和；







iixy

yyxxS

))((，称为校正交叉乘积和，

则：

b（11.7）

a叫样本回归截距，是回归直线与y轴交点的纵坐标，当x=0时，=a；

b叫样本回归系数，表示x改变一个单位，y平均改变的数量；b的符号反映了x影响y

的性质，b的绝对值大小反映了x影响y的程度;

叫做回归估计值，是当x在在其研究范围内取某一个值时，y值平均数α＋βx的估计值

回归方程的基本性质：

1





(最小

2





)

(＝0

3.直线通过（x，y）

转化后得到回归方程的另一种形式(中心化形式)：

在实际计算时，可采用以下公式：







iixy

iyy

ixx

yxS

例11.1对大白鼠从出生第6天起，每三天称一次体重，直到第18天。数据见表11.1。试

计算日龄X与体重Y之间的回归方程。

表5.1大白鼠6-18日龄的体重

序号

12345

日龄x

69121518

体重y

1116.5222629

解：把数据代入上述公式,得：





yxx

,5.104,810,60



2,25.2394



5.1390

,5.1365.10460

5.1390

,2.210)5.104(

25.2394

90)60(

810







6996.2125167.15/5.104

5167.190/5.136





xbya

即：所求的回归方程为：y=2.6996+1.5167x

带有统计功能的计算器，只需把数据依次输入，然后按一下键就可得到上述结果。

根据直线回归方程可作回归直线，并不是所有的散点都恰好落在回归直线上，说明用

去估计y是有偏差的。

)(

xxbybxxbyy

三、直线回归的偏离度估计

偏差平方和





(的大小表示了实测点与回归直线偏离的程度，因而偏差

平方和又称为离回归平方和。统计学已经证明：在直线回归分析中离回归平方和的自由度为

n-2。于是可求得离回归均方为：)2/()(2nyy



离回归均方是模型中σ2的估计值。

离回归均方的平方根叫离回归标准误，记为，即

的大小表示了回归直线与实测点偏差的程度，即回归估测值与实际观测值y

偏差的程度，于是把离回归标准误Syx用来表示回归方程的偏离度。

以后将证明：

利用此式先计算出，然后再求Syx。

四、直线回归的显著性检验

x和y变量间即使不存在直线关系，但由n对观测值（xi，yi）也可以根据上面的方法求

得一个回归方程。显然，这样的回归方程所反应的两个变量间的直线关系是不真实的。需要

判断直线回归方程的真实性。

先探讨依变量y的变异，然后再作出统计推断。

1、直线回归的变异来源

的分解图

1）一元回归的方差分析

（1）无重复的情况。

y的总校正平方和可进行如下的分解：

)2/()

(2nyyS

xxyy

SSSPSSyy/)

(22

(yy

)(yy

)

()

()(yyyyyy













iiiiii

iiii

yyyyyyyy

yyyyyy

111

)

)(

(2)

()

(

)]

()

[()(

0)(

])())(([

))((

))(()

()

(





















xxxy

iii

iiii

SbSb

xxbxxyyb

xbbxbxxbyy

xbabxabxayyyyy







iiii

yyyyyy

111

222)

()

()(

即：SSy=SSe+SS

y的总校正平方和残差平方和回归平方和

自由度：n-1n-21

反映了y的总变异程度，称为y的总平方和，记为SSy；

反映了由于y与x间存在直线关系所引起的y的变异程度，称为回归

平方和，记为SS

；

反映了除y与x存在直线关系以外的原因，包括随机误差所引起的y

的变异程度，称为离回归平方和或剩余平方和，记为SSe。

把y的总校正平方和分解成了残差平方和与回归平方和。MS

可作为总体方差2的估计

量，而MS

可作为回归效果好坏的评价。如果MS

仅由随机误差造成的话，说明回归失败，

X和Y没有线性关系；否则它应显著偏大。因此可用统计量

)2/(



nSS

R（11.10）

对H

:=0进行检验。若F

(1,n-2)

，则接受H

，否则拒绝。

简化公式：

对例11.1作方差分析

解：由以前计算结果：

=210.2，df=4;SS

=3.1704,df=3,

2)(yy

2)

(yy

2)(yy



22)]([)

(xxbyySS

xyx

bSPSSbxxb222)(

SP2



yRyeSS

SSSSSSSS



SS

=210.2−3.1704=207.03,df=1

90.195

3/1704.3

03.207

F

查表得F

0.95

(1,3)=10.13,F

0.99

(1,3)=34.12

F>F

0.99

(1,3)，拒绝H

，差异极显著。即应认为回归方程有效。

（2）有重复的情况：

设在每一个x

取值上对Y作了m次观察，结果记为y

,……y

,则线性统计模型变

为：

ijiij

xy,i=1,2,…n,j=1,2,…m

估计值仍为：

bxay

现在y的总校正平方和可分解为：

SSy=SSR+SSLOF+SSpe

其中SSLOF称为失拟平方和，SSpe为纯误差平方和，表达式和自由度分别为：

1,..)(

2



mndfyySS

ijy







dfyymSS

21,..)

(

nmndfyySS

ndfyymSS

iijpe

iiLOF













,)(

2,)

(

可试证明上述分解中的三个交叉项均为0。

统计检验步骤为：

I.令

LOF

F

，它服从F(n-2,mn-n)

若F检验差异显著，则可能的原因有：

（1）除X以外还有其他变量影响Y的取值，而统计时没有加以考虑；

（2）模型不当，即X与Y之间不是线性关系；

此时无必要再进一步对MS

作检验，而应想办法找出原因，并把它消除后重作回归。

若差异不显著，则把MS

LOF

和MS

合并，再对MS

作检验：

II.

peLOF

dfdf

SSSS





，它服从F(1,mn-2)

若差异显著，说明回归是成功的，X,Y间确有线性关系；若差异仍不显著，则回归失败，

其可能的原因为：

（1）X，Y无线性关系；

（2）误差过大，掩盖了X,Y间的线性关系。

如有必要，可设法减小实验误差，或增加重复数重做实验后再重新回归。

二）一元回归的t－检验

由于MS

的自由度为n-2，因此上述两方差的自由度也均为n-2。有了a和b的方差与均

值，我们就可构造统计量对它们进行检验：

:=0

:0（双侧检验）

或：H

:>0（或<0）（单侧检验）

统计量：

bbMS

Sbt



/

其中，Sb为回归系数标准误。

当H

成立时，t

~t(n-2)，可查相应分位数表进行检验。

对例11.1中的作t-检验：

:=0

解：













SSS

bSS

MSxxxyyyxyyy

0583.1

90/5.1362.2102







xxeb

SMSbSbt///

99.131084.0/5167.190/0583.1/5167.1

查表，t

0.995

(3)=5.841

，即0，或X与Y有着极显著的

线性关系。

上述统计量还有一个用途：进行两个回归方程间的比较。即检验H

:

=

和H

:

=

。

如果两H

均被接受，则可认为两组数据是抽自同一总体，从而可将两回归方程合并，得到

一个更精确的方程。

例11.3两组实验数据如下：

92105108

6668697173788285

55576062646771

是否可从它们得到统一的回归方程？

解：从原始数据计算可得：

组别

nxyS

1898.37574.0257.875336.0294.00.13571.140-38.15

2787.062.286162.0187.429174.00.10801.074-31.15

(1).首先检验总体方差是否相等：

:,:

2565.1

1080.0

1357.0

1

查表，F

0.975

(6,5)=6.978>F,接受H

，可认为两总体方差相等。

计算公共的总体方差：

1231.0

1080.051357.06

)2()2(

2211













MSnMSn

MSee

(2).检验回归系数

与

是否相等：H

:

=

；H

:



8766.1

03517.0

066.0

)

162

875.257

(1231.0

074.1140.1

)

(





















xxxx

查表，得t

0.975

(11)=2.201>t,接受H

，可认为两回归系数相等。

共同总体回归系数的估计值为：

1146.1

162875.257

174294

2211















xxxx

xyxy

xxxx

bSbS

(3).再检验

，

是否相等：H

:

=

；H

:



1702.2

22556.3

)

162

875.257

375.98

(1231.0

15.3115.38

)

(

























xxxx

查表，t

0.975

(11)=2.201,,)11(

975.0

tt接受H

，可认为:

=

2。

若检验结果为



，此题即可结束；但若检验结果为

=

，则需把全部原始数据放在

一起，重新进行回归：

=902.9333,S

=965.4667,S

=1035.7333,x=93.067,y=68.533,

=1.0693,

a=xby=−30.9787

从而得到合并的回归方程xy0693.19787.30

。

现在证明t检验与前述的F检验是一致的：

前已证明：SS

−bS

SS

−SS

=bS

S2

bxxb

R





五、点估计与区间估计

前边已经证明a和b是α和β的点估计；但作为预测值仅给出点估计是不够的，一般要

求给出区间估计，即给出置信区间。

α和β的区间估计

已经证明a和b是α和β的点估计，并求出了它们的方差。因此给出置信区间就很容易

了：

)2(~



SMS

xxe



∴β的95%置信区间为：

xxe

SMSntb/)2(

975.0

（11.13）

同理

)2(~

)

(









的95%置信区间为：

)

()2(

975.0

MSnta(11.14)

这与以前假设检验中的置信区间求法完全一样。若置信水平为99%，把分位数相应换为

0.995

(n-2)即可。

对例11.1中的和给出95%置信区间。

解：从前边的计算可知：

a=2.6996,b=1.5167,S

=90,MS

=1.0568,n=5,12x

查表，得t

0.975

(3)=3.182

3887.4)

(0568.1182.3)

()3(

3448.0

0568.1

182.3)3(

975.0





MSt

的95%置信区间为：

2.69964.3887,即（-1.6891,7.0883）

的95%置信区间为：

1.51670.3448,即（1.1719,1.8615）

第二节相关分析

直线相关分析是根据x、y的实际观测值，计算表示两个相关变量x、y间线性相关程度

和性质的统计量——相关系数r并进行显著性检验。

一、相关系数。

例：（1）X77165389311总和50

Y59613194666总和52

（2）X9879653311总和50

Y9986654311总和52

（3）X1133567189总和50

Y9986654311总和52

可见：（1）X、Y关系紊乱（2）X减小、Y也减小（3）X增大、Y减小

作散点图，如果再以X和Y的平均数作坐标原点，将原散点图划分为四个象限，

如果各点均匀分布则＝0，落在2、4象限则小于0——负相关，

落在1、3象限则大于0——正相关，为消除变异程度（n-1）和单位的影响，需除以标

准差。

yyxx

xySS

SPxy

yyxx

SxSy

yyxx



























2222)()(

))((

)(

))((

根据以前的推导结果，有：

yyxx

r



1

性质：1r。

当1r时，从上式可看出SS

=0，即用y

可以准确预测y值。此时若X不是随机变

量，则Y也不是随机变量了。

当r=0时，SS

，回归一点作用也没有，即用X的线性函数完全不能预测Y的变

化。但这时X与Y间还可能存在着非线性的关系。

当10r时，情况介于上述二者之间隔。X的线性函数对预测Y的变化有一定作用，

)()(yyxx







































)()(

))((

但不能准确预测，这说明Y还受其他一些因素，包括随机误差的影响。

综上，r可以作为X，Y间线性关系强弱的一种指标。非常直观，接近于1就是线性关

系强，接近于0就是线性关系弱；而其他统计量都需要查表后才知检验结果。

二、决定系数和相关系数

前面已经证明了等式：

从这个等式：y与x直线回归效果的好坏取决于回归平方和与离回归平

方和的大小，或者说取决于回归平方和在y的总平方和

中所占的比例的大小。这个比例越大，y与x的直线回归效果就越好，反

之则差。

比值

叫做x对y的决定系数，记为r2，即

决定系数的大小表示了回归方程估测可靠程度的高低，或者说表示了回归直线拟合度的

高低。显然有0≤r2≤1。因为：

而SPxy/SSx是以x为自变量、y为依变量时的回归系数byx。若把y作为自变量、x作为

依变量，则回归系数bxy=SPxy/Ssy，所以决定系数r2等于y对x的回归系数与x对y的回

归系数的乘积。即决定系数反应了x为自变量、y为依变量和y为自变量、x为依变量时两

个相关变量x与y直线相关的信息，即决定系数表示了两个互为因果关系的相关变量间直线

相关的程度。但决定系数介于0和1之间，不能反应直线关系的性质——是同向增减或是异

向增减。

另外，r显著即一个显著的回归方程并不一定具有实践上的预测意义

如一个资料x、y两个变量间的相关系数r=0.5，在df=24时，r

0.01(24)

=0.496，

r>r0.01(24)，表明相关系数极显著。而r2=0.25，即x变量或y变量的总变异能够通过y变量

或x变量以直线回归的关系来估计的比重只占25%，其余的75%的变异无法借助直线回归

来估计。

计算相关系数：根据公式

三、相关系数的显著性检验

在一般情况下r不是正态分布，直接检验有困难。但当总体相关系数ρ=0时，r的分布

近似于正态分布，此时用MSe代替2，就可以对0:

H作t检验。这种检验与对回归

系数b的检验：

H是等价的。可证明如下：

b的t检验统计量为：t=b/S

。b=S

2)(yy22)

()

(yyyy

(yy

2)

(yy

2)(yy

(2yy2)(yy







)(

)

(

xyyx

xybb

SSSS

r







2

)(

)

(

)2(

)1(















SnSS

bSS

xxyyxx

xyyy

代入t的表达式，得：

)2(~











nt

。

因此可用上述统计量对0:

H作统计检验。

为使用方便，已根据上述公式编制专门的相关系数检验表，可根据剩余自由度及自变量

个数直接查出r的临界值。

若必须对ρ≠0的情况作统计检验，可采用反双曲正切变换：







(11.20)

当n充分大时，可证明Z渐近正态分布N)

)1(2

(







,其中











。

利用统计量Z可对

210

,等进行检验。但这一检验方法用得很少。

求出例11.1相关系数r，并作统计检验。

解：利用以前的计算结果，可得：

99.13

99242.01

2599242.0

99242.0

2.21090

5.136























yyxx

这里求得的Z值与前面求得的t值是相同的，它们本来就是同一个统计量。

查表，t

0.995

(3)=5.841

若直接查相关系数检验表，可得：剩余自由度为3，独立自变量为1，α=0.05的r临界值

为0.878,α=0.01的临界值为0.959,∴差异仍为极显著。

二、相关系数与回归系数间的关系

在X和Y均为随机变量的情况下，通常可以X为自变量，Y为因变量建立方程，也可

反过来，以Y为自变量，X为因变量建立方程。此时它们的地位是对称的。

取X为自变量，Y为因变量，回归系b为：

xxxy

SSb/

取Y为自变量，X为因变量，回归系数b’为：

yyxy

SSb/'

2bbrbb

yyxx

xy









即：相关系数实际是两个回归系数的几何平均值。这正反映了相关与回归的不同：相关是双

向的关系，而回归是单向的。

三种对回归方程统计检验的的比较：

1.对一元线性回归来说，它们的基本公式其实是等价的，因此结果也是一致的。

2.各有优缺点：对b的t检验可给出置信区间；方差分析在有重复的情况下可分解出

纯误差平方和，从而可得到进一步的信息；相关系数则既直观，又方便（有专门表

格可查），因此使用广泛。

需注意，不论采用什么检验方法，数据都应满足以下三个条件：独立，抽自正态总体，

方差齐性。

👁️ 阅读量：0

🔖 本文标签：

🔥 最新发布文章