
面板数据
-
2023年3月18日发(作者:喂出来原文)面板数据分析方法步骤
本页仅作为文档封面,使用时可以删除
1.面板数据分析方法步骤
面板数据的分析方法或许我们已经了解许多了,但是到底有没有一个基本
的步骤呢那些步骤是必须的这些都是我们在研究的过程中需要考虑的,而且又
是很实在的问题。面板单位根检验如何进行协整检验呢什么情况下要进行模型
的修正面板模型回归形式的选择如何更有效的进行回归诸如此类的问题我们应
该如何去分析并一一解决以下是我近期对面板数据研究后做出的一个简要总
结,和大家分享一下,也希望大家都进来讨论讨论。
步骤一:分析数据的平稳性(单位根检验)
按照正规程序,面板数据模型在回归前需检验数据的平稳性。李子奈曾指
出,一些非平稳的经济时间序列往往表现出共同的变化趋势,而这些序列间本
身不一定有直接的关联,此时,对这些数据进行回归,尽管有较高的R平方,
但其结果是没有任何实际意义的。这种情况称为虚假回归或伪回归
(spuriousregression)。他认为平稳的真正含义是:一个时间序列剔除了
不变的均值(可视为截距)和时间趋势以后,剩余的序列为零均值,同方差,
即白噪声。因此单位根检验时有三种检验模式:既有趋势又有截距、只有截
距、以上都无。
因此为了避免伪回归,确保估计结果的有效性,我们必须对各面板序列的
平稳性进行检验。而检验数据平稳性最常用的办法就是单位根检验。首先,我
们可以先对面板序列绘制时序图,以粗略观测时序图中由各个观测值描出代表
变量的折线是否含有趋势项和(或)截距项,从而为进一步的单位根检验的检
验模式做准备。
单位根检验方法的文献综述:在非平稳的面板数据渐进过程
中,LevinandLin(1993)很早就发现这些估计量的极限分布是高斯分布,这些
结果也被应用在有异方差的面板数据中,并建立了对面板单位根进行检验的早期
版本。后来经过Levinetal.(2002)的改进,提出了检验面板单位根的
LLC法。Levinetal.(2002)指出,该方法允许不同截距和时间趋势,异
方差和高阶序列相关,适合于中等维度(时间序列介于25~250之间,截面数介
于10~250之间)的面板单位根检验。Imetal.(1997)还提出了检
验面板单位根的IPS法,但Breitung(2000)发现IPS法对限定性趋势的设
定极为敏感,并提出了面板单位根检验的Breitung法。
MaddalaandWu(1999)又提出了ADF-Fisher和PP-Fisher面板单位根检验方
法。
由上述综述可知,可以使用LLC、IPS、Breintung、ADF-Fisher和PP-
Fisher5种方法进行面板单位根检验。
其中LLC-T、BR-T、IPS-W、ADF-FCS、PP-FCS、H-Z分别指
Levin,Lin&Chut*统计量、Breitungt统计量、
lmPesaran&ShinW统计量、ADF-FisherChi-square统计量、PP-
FisherChi-square统计量、HadriZ统计量,并且
Levin,Lin&Chut*统计量、Breitungt统计量的原假设为存在普通
的单位根过程,lmPesaran&ShinW统计量、ADF-FisherChi-
square统计量、PP-FisherChi-square统计量的原假设为存在有效的单位根
过程,HadriZ统计量的检验原假设为不存在普通的单位根过程。
有时,为了方便,只采用两种面板数据单位根检验方法,即相同根单位根
检验LLC(Levin-Lin-Chu)检验和不同根单位根检验Fisher-ADF检验(注:
对普通序列(非面板序列)的单位根检验方法则常用ADF检验),如果在两种
检验中均拒绝存在单位根的原假设则我们说此序列是平稳的,反之则不平稳。
如果我们以T(trend)代表序列含趋势项,以I(intercept)代表序列含
截距项,T&I代表两项都含,N(none)代表两项都不含,那么我们可以基于前
面时序图得出的结论,在单位根检验中选择相应检验模式。
但基于时序图得出的结论毕竟是粗略的,严格来说,那些检验结构均需一
一检验。具体操作可以参照李子奈的说法:ADF检验是通过三个模型来完成,
首先从含有截距和趋势项的模型开始,再检验只含截距项的模型,最后检验二
者都不含的模型。并且认为,只有三个模型的检验结果都不能拒绝原假设时,
我们才认为时间序列是非平稳的,而只要其中有一个模型的检验结果拒绝了零
假设,就可认为时间序列是平稳的。
此外,单位根检验一般是先从水平(level)序列开始检验起,如果存在单
位根,则对该序列进行一阶差分后继续检验,若仍存在单位根,则进行二阶甚
至高阶差分后检验,直至序列平稳为止。我们记I(0)为零阶单整,I(1)为一阶
单整,依次类推,I(N)为N阶单整。
步骤二:协整检验或模型修正
情况一:如果基于单位根检验的结果发现变量之间是同阶单整的,那么我
们可以进行协整检验。协整检验是考察变量间长期均衡关系的方法。所谓的协
整是指若两个或多个非平稳的变量序列,其某个线性组合后的序列呈平稳性。
此时我们称这些变量序列间有协整关系存在。因此协整的要求或前提是同阶单
整。
但也有如下的宽限说法:如果变量个数多于两个,即解释变量个数多于一
个,被解释变量的单整阶数不能高于任何一个解释变量的单整阶数。另当解释
变量的单整阶数高于被解释变量的单整阶数时,则必须至少有两个解释变量的
单整阶数高于被解释变量的单整阶数。如果只含有两个解释变量,则两个变量
的单整阶数应该相同。
也就是说,单整阶数不同的两个或以上的非平稳序列如果一起进行协整检
验,必然有某些低阶单整的,即波动相对高阶序列的波动甚微弱(有可能波动
幅度也不同)的序列,对协整结果的影响不大,因此包不包含的重要性不大。
而相对处于最高阶序列,由于其波动较大,对回归残差的平稳性带来极大的影
响,所以如果协整是包含有某些高阶单整序列的话(但如果所有变量都是阶数
相同的高阶,此时也被称作同阶单整,这样的话另当别论),一定不能将其纳
入协整检验。
协整检验方法的文献综述:(1)Kao(1999)、KaoandChiang(2000)利用推
广的DF和ADF检验提出了检验面板协整的方法,这种方法零假设是没有协整关
系,并且利用静态面板回归的残差来构建统计量。(2)Pedron(1999)在零假设是
在动态多元面板回归中没有协整关系的条件下给出了七种基于残差的面板协整
检验方法。和Kao的方法不同的是,Pedroni的检验方法允许异质面板的存在。
(3)Larssonetal(2001)发展了基于Johansen(1995)向量自回归的似然检验的
面板协整检验方法,这种检验的方法是检验变量存在共同的协整的秩。
我们主要采用的是Pedroni、Kao、Johansen的方法。
通过了协整检验,说明变量之间存在着长期稳定的均衡关系,其方程回归
残差是平稳的。因此可以在此基础上直接对原方程进行回归,此时的回归结果
是较精确的。
这时,我们或许还想进一步对面板数据做格兰杰因果检验(因果检验的前
提是变量协整)。但如果变量之间不是协整(即非同阶单整)的话,是不能进
行格兰杰因果检验的,不过此时可以先对数据进行处理。引用张晓峒的原话,
“如果y和x不同阶,不能做格兰杰因果检验,但可通过差分序列或其他处理
得到同阶单整序列,并且要看它们此时有无经济意义。”
下面简要介绍一下因果检验的含义:这里的因果关系是从统计角度而言
的,即是通过概率或者分布函数的角度体现出来的:在所有其它事件的发生情
况固定不变的条件下,如果一个事件X的发生与不发生对于另一个事件Y的发
生的概率(如果通过事件定义了随机变量那么也可以说分布函数)有影响,并
且这两个事件在时间上又有先后顺序(A前B后),那么我们便可以说X是Y
的原因。考虑最简单的形式,Granger检验是运用F-统计量来检验X的滞后值
是否显著影响Y(在统计的意义下,且已经综合考虑了Y的滞后值;如果影响
不显著,那么称X不是Y的“Granger原因”(Grangercause);如果影响
显著,那么称X是Y的“Granger原因”。同样,这也可以用于检验Y是X的
“原因”,检验Y的滞后值是否影响X(已经考虑了X的滞后对X自身的影
响)。
Eviews好像没有在POOL窗口中提供Grangercausalitytest,而只有
unitroottest和cointegrationtest。说明Eviews是无法对面板数据序
列做格兰杰检验的,格兰杰检验只能针对序列组做。也就是说格兰杰因果检验
在Eviews中是针对普通的序列对(pairwise)而言的。你如果想对面板数据中的
某些合成序列做因果检验的话,不妨先导出相关序列到一个组中(POOL窗口中
的Proc/MakeGroup),再来试试。
情况二:如果基于单位根检验的结果发现变量之间是非同阶单整的,即面
板数据中有些序列平稳而有些序列不平稳,此时不能进行协整检验与直接对原
序列进行回归。但此时也不要着急,我们可以在保持变量经济意义的前提下,
对我们前面提出的模型进行修正,以消除数据不平稳对回归造成的不利影响。
如差分某些序列,将基于时间频度的绝对数据变成时间频度下的变动数据或增
长率数据。此时的研究转向新的模型,但要保证模型具有经济意义。因此一般
不要对原序列进行二阶差分,因为对变动数据或增长率数据再进行差分,我们
不好对其冠以经济解释。难道你称其为变动率的变动率
步骤三:面板模型的选择与回归
面板数据模型的选择通常有三种形式:
一种是混合估计模型(PooledRegressionModel)。如果从时间上看,
不同个体之间不存在显著性差异;从截面上看,不同截面之间也不存在显著性
差异,那么就可以直接把面板数据混合在一起用普通最小二乘法(OLS)估计参
数。一种是固定效应模型(FixedEffectsRegressionModel)。如果对于
不同的截面或不同的时间序列,模型的截距不同,则可以采用在模型中添加虚
拟变量的方法估计回归参数。一种是随机效应模型
(RandomEffectsRegressionModel)。如果固定效应模型中的截距项包
括了截面随机误差项和时间随机误差项的平均效应,并且这两个随机误差项都
服从正态分布,则固定效应模型就变成了随机效应模型。
在面板数据模型形式的选择方法上,我们经常采用F检验决定选用混合模
型还是固定效应模型,然后用Hausman检验确定应该建立随机效应模型还是固
定效应模型。
检验完毕后,我们也就知道该选用哪种模型了,然后我们就开始回归:
在回归的时候,权数可以选择按截面加权(cross-sectionweights)的
方式,对于横截面个数大于时序个数的情况更应如此,表示允许不同的截面存
在异方差现象。估计方法采用PCSE(PanelCorrectedStandardErrors,
面板校正标准误)方法。Beck和Katz(1995)引入的PCSE估计方法是面板数据
模型估计方法的一个创新,可以有效的处理复杂的面板误差结构,如同步相
关,异方差,序列相关等,在样本量不够大时尤为有用。
实证检验步骤:先做单位根检验,看变量序列是否平稳序列,若平稳,可
构造回归模型等经典计量经济学模型;若非平稳,进行差分,当进行到第i次
差分时序列平稳,则服从i阶单整(注意趋势、截距不同情况选择,根据P值
和原假设判定)。
若所有检验序列均服从同阶单整,可构造VAR模型,做协整检验(注意滞
后期的选择),判断模型内部变量间是否存在协整关系,即是否存在长期均衡
关系。协整检验的原假设就是,变量回归后的残差是平稳序列。如若残差是平
稳序列,说明存在协整关系,如果残差序列有单位根,则协整关系不存在。如
果有协整关系,则可以构造VEC模型或者进行Granger因果检验,检验变量之
间“谁引起谁变化”,即因果关系。
(1)建立混合数据库(Pool)对象。
首先建立工作文件。在打开工作文件窗口的基础上,点击EViwes主功能菜
单上的Objects键,选NewObject功能,从而打开NewObject(新对象)
选择窗。在TypeofObject选择区选择Pool(合并数据库),并在
NameofObject选择区为混合数据库起名Pool01(初始显示为
Untitled)。
(2)定义序列名并输入数据。
在新建的混合数据库(Pool)窗口的工具栏中点击Sheet键(第2种路径
是,点击View键,选Spreadsheet(stackeddata)功能),从而打开
SeriesList(列写序列名)窗口,定义时间序列变量Y和X.点击OK键,从
而打开混合数据库(Pool)窗口,(点击Edit+-键,使EViwes处于可编辑状
态)输入数据。
补充:点击Order+-键,还可以变换为以时间为序的阵列式排列。
工作文件也可以以合并数据(Pooldata)和非合并数据的形式用复制和
粘贴的方法建立。
(3)估计模型
点击Estimation键,随后弹出PooledEstimation(混合估计)对话
窗。用EViwes可以估计固定效应模型(包括个体固定效应模型、时刻固定效应
模型和时刻个体固定效应模型3种)、随机效应模型、带有AR(1)参数的模
型、截面不同回归系数也不同的面板数据模型。用EViwes可以选择普通最小二
乘法、加权最小二乘法(以截面模型的方差为权)、似不相关回归法估计模型
参数。
补充:在这一块内容里面,和的界面还是存在明显差异的,前者
的界面是左右排列,后者的界面是上下排列,而且里面的选项形式也不太一
样。软件里面通过选择截距项来确定模型的类型,而的里面是通过选择
estimationmethod来选择模型的类型
固定效应模型
在面板数据散点图中,如果对于不同的截面或不同的时间序列,模型的截
距是不同的,则可以采用在模型中加虚拟变量的方法估计回归参数,称此种模
型为固定效应模型(fixedeffectsregressionmodel)。固定效应模型分
为3种类型,即个体固定效应模型
(entityfixedeffectsregressionmodel)、时刻固定效应模型
(timefixedeffectsregressionmodel)和时刻个体固定效应模型
(timeandentityfixedeffectsregressionmodel)。
个体固定效应模型。
个体固定效应模型就是对于不同的个体有不同截距的模型。如果对于不同
的时间序列(个体)截距是不同的,但是对于不同的横截面,模型的截距没有
显著性变化,那么就应该建立个体固定效应模型。
时刻固定效应模型。
时刻固定效应模型就是对于不同的截面(时刻点)有不同截距的模型。如
果确知对于不同的截面,模型的截距显著不同,但是对于不同的时间序列(个
体)截距是相同的,那么应该建立时刻固定效应模型。
随机效应模型
在固定效应模型中采用虚拟变量的原因是解释被解释变量的信息不够完
整。也可以通过对误差项的分解来描述这种信息的缺失。
yit=a+b1xit+eit
其中误差项在时间上和截面上都是相关的,用3个分量表示如
下:eit=ui+vt+wit
其中ui~N(0,su2)表示截面随机误差分量;vt~N(0,sv2)表示时间随机
误差分量;wit~N(0,sw2)表示混和随机误差分量。同时还假定ui,vt,wit
之间互不相关,各自分别不存在截面自相关、时间自相关和混和自相关。上述
模型称为随机效应模型。
随机效应模型和固定效应模型比较,相当于把固定效应模型中的截距项看
成两个随机变量。一个是截面随机误差项(ui),一个是时间随机误差项
(vt)。如果这两个随机误差项都服从正态分布,对模型估计时就能够节省自
由度,因为此条件下只需要估计两个随机误差项的均值和方差。
假定固定效应模型中的截距项包括了截面随机误差项和时间随机误差项的
平均效应,而且对均值的离差分别是ui和vt,固定效应模型就变成了随机效
应模型。
补充:如果仅以样本自身效应为条件进行研究,宜选择固定效应
模型;如果欲以样本对总体效应进行推论,则应采用随机效应模型。
2.应用VAR模型时的15个注意点(笔记)
向量自回归(VAR,VectorAutoregression)常用于预测相互联系的时
间序列系统以及分析随机扰动对变量系统的动态影响。VAR方法通过把系统中
每一个内生变量,作为系统中所有内生变量的滞后值的函数来构造模型,从而回
避了结构化模型的要求。Engle和Granger(1987a)指出两个或多个非平稳时
间序列的线性组合可能是平稳的。假如这样一种平稳的或的线性组合存在,这
些非平稳(有单位根)时间序列之间被认为是具有协整关系的。这种平稳的线
性组合被称为协整方程且可被解释为变量之间的长期均衡关系。
VAR模型对于相互联系的时间序列变量系统是有效的预测模型,同时,向
量自回归模型也被频繁地用于分析不同类型的随机误差项对系统变量的动态影
响。如果变量之间不仅存在滞后影响,而不存在同期影响关系,则适合建立
VAR模型,因为VAR模型实际上是把当期关系隐含到了随机扰动项之中。
注意点:
1、单位根检验是序列的平稳性检验,如果不检验序列的平稳性直接OLS容
易导致伪回归。
2、当检验的数据是平稳的(即不存在单位根),要想进一步考察变量的因
果联系,可以采用格兰杰因果检验,但要做格兰杰检验的前提是数据必须是平
稳的,否则不能做。
3、当检验的数据是非平稳(即存在单位根),并且各个序列是同阶单整
(协整检验的前提),想进一步确定变量之间是否存在协整关系,可以进行协
整检验,协整检验主要有EG两步法和JJ检验。
A、EG两步法是基于回归残差的检验,可以通过建立OLS模型检验其残差
平稳性。
B、JJ检验是基于回归系数的检验,前提是建立VAR模型(即模型符合ADL
模式)。
5、格兰杰检验只能用于平稳序列!这是格兰杰检验的前提,而其因果关系
并非我们通常理解的因与果的关系,而是说x的前期变化能有效地解释y的变
化,所以称其为“格兰杰原因”。
6、非平稳序列很可能出现伪回归,协整的意义就是检验它们的回归方程所
描述的因果关系是否是伪回归,即检验变量之间是否存在稳定的关系。所以,
非平稳序列的因果关系检验就是协整检验。
7、平稳性检验有3个作用:1)检验平稳性,若平稳,做格兰杰检验,非
平稳,作协正检验。2)协整检验中要用到每个序列的单整阶数。3)判断时间
学列的数据生成过程。
ADF检验:1view---unitroottest,出现对话框,默认的选项为变量的
原阶序列检验平稳性,确认后,若ADF检验的P值小于,拒绝原假设,说明序
列是平稳的,若P值大于,接受原假设,说明序列是非平稳的;2重复刚才的
步骤,view---unitroottest,出现对话框,选择1stdifference,即对变量
的一阶差分序列做平稳性检验,和第一步中的检验标准相同,若P值小于,说
明是一阶平稳,若P值大于,则继续进行二阶差分序列的平稳性检
验。
先做单位根检验,看变量序列是否平稳序列,若平稳,可构造回归模型等
经典计量经济学模型;若非平稳,进行差分,当进行到第i次差分时序列平
稳,则服从i阶单整(注意趋势、截距不同情况选择,根据P值和原假设判
定)。若所有检验序列均服从同阶单整,可构造VAR模型,做协整检验(注意
滞后期的选择),判断模型内部变量间是否存在协整关系,即是否存在长期均
衡关系。如果有,则可以构造VEC模型或者进行Granger因果检验,检验变量
之间“谁引起谁变化”,即因果关系。
第一,格兰杰因果检验是检验统计上的时间先后顺序,并不表示而这真正
存在因果关系,是否呈因果关系需要根据理论、经验和模型来判
定。
第二,格兰杰因果检验的变量应是平稳的,如果单位根检验发现两个变量
是不稳定的,那么,不能直接进行格兰杰因果检验,所以,很多人对不平稳的
变量进行格兰杰因果检验,这是错误的。
第三,协整结果仅表示变量间存在长期均衡关系,那么,到底是先做格兰
杰还是先做协整呢因为变量不平稳才需要协整,所以,首先因对变量进行差
分,平稳后,可以用差分项进行格兰杰因果检验,来判定变量变化的先后时
序,之后,进行协整,看变量是否存在长期均衡。
第四,长期均衡并不意味着分析的结束,还应考虑短期波动,要做误差修
正检验。
8.单位根检验是检验数据的平稳性,或是说单整阶数。
9.协整是说两个或多个变量之间具有长期的稳定关系。但变量间协整的必
要条件是它们之间是同阶单整,也就是说在进行协整检验之前必须进行单位根
检验。
Chu是的弟子,南加州和台大的教授,研究方向是时间序
列。
从他那里学来不少计量上的理念。整理出来供大家参考。以下的第一人称
均指Chu。
1、计量建模时一般考虑线性模型,why我的答案很简单:whynot反正模
型的形式是未知的。既然未知,为何不选最简单的线性模型
2、很多教科书一讨论参数估计,就搬出几大标准:无偏性、有效性和一致
性。这几个性质的地位是不一样的。一致性是最重要的,而有效性在它面前
微不足道。至于有偏无偏,即使有偏,也可能是一致的;所以无偏性也不重
要。在某些特定的条件下,无偏性只是为了保证一致性成立的必要条件而
已。
3、当在计量经济学中遇到困难时,往往要回到经济学中寻找答案。
4、不能根据R平方判断模型的优劣。R平方随着解释变量个数的增加而增
加,因为Informationisnevernegative。如果高的R平方只是源于更多
的解释变量,那么显然高的R平方不代表更好的模型。而且,高的R平方还
意味着模型样本外预测的能力较低。
5、在时间序列分析中,R平方超过不是什么大不了的事情,不必为此沾沾
自喜;而在横截面分析中,超过的R平方就被看作超级了不起的事情。
6、横截面数据一般包含特定的结构,因此处理起来要小心。
7、ARMA模型是计量经济学家的良心。如果你建的模型的预测能力不如
ARMA,那么模型就是失败的。你要敢于拿ARMA去挑战自己。
8、时间序列的回归中,一定要保证内部逻辑的一致性。拿I(0)对I(1)做
回归或拿I(1)对I(0)做回归都是不能接受的。当你看到有人直接拿GDP对利
率作回归,那他的模型必错无疑。
9、当你看到模型的t值很大时,先不要高兴,因为这很可能是谬误回归的
产物。如果此时Durbin-Waston值很小(小于),那么谬误回归的可能性就
进一步变大了。
10、在处理联立方程组模型中,一般采用reducedform。reducedform
虽然不一定得到原方程组的参数,但用来预测足矣。
11、如果预测误差有相关性,那么模型设定一定有错误。
12、在对用极大似然法得到的参数的渐进分布进行讨论时,千万别忘了信
息矩阵等式是一切简化结果的前提。虽然这一等式很难成立,但大部分计量经
济学家都默认它成立。
13、在假设检验中,如果模型是线性的而原假设是非线性的,则一般考虑
waldtest。如果模型是非线性的,则要考虑LMtest。
14、在模型设定上有两种思路:一种是由顶至下(top-down),一种是由
底至上(bottom-up)。前者是指先设定一大串解释变量,然后一个一个排
查;后者是指从最简单的模型入手,逐个往里加解释变量。前者的问题在于包
含了多余的变量,致使非有效性产生;而后者遗漏了重要变量,致使不一致性
产生。从一致性和有效性的重要程度来看,似乎应当选择前者。但是,除非你
能保证那一大串解释变量完全包含了真实的模型,否则那一大串变量的模型也
是不一致的。而能做到这一点(包含真实模型),很难。既然都不一致,为何
不选择从简单的模型开始呢
15、在经典假设不满足的情况下,FGLS不比OLS更有效。
16、解决序列相关的传统办法是“准差分法”。但是,序列相关出现,意
味着模型设定有问题;应从模型设定上入手解决。
17、在检验序列相关时,DWtest针对AR(1)的误差项。即使误差项不满
足AR(1),DWtest也富含信息。
18、小样本时,DWtest比LMtest更powerful,因为LMtest是一个
渐进的检测。
19、递归残差比OLS残差更有信息量。
20、实际操作中,如果存在异方差,仍然使用OLS,但方差估计值要选择
RobustVariance.
21、实际操作中,如果存在异方差,且根据OLS方差和Robust方差得到的
显著性检验结果相同,那么就没有必要理会异方差的存在。
22、如果必须要修正异方差,就要大胆假设异方差的形式,并用Breusch-
Pagantest检验,而不是回避异方差的形式。
23、其他修正异方差的方法包括对数据取对数和把变量变成人均变
量。
24、在用Newton-Ralphson方法对非线性模型作迭代时,初始值和步长的
选定很重要。
25、在GARCH(1,1)中,误差项的方差在实证中总是趋近于无穷大。尽管
后人对此作了修正,但我认为问题出在根本模型的设定。