白仲林教授面板数据讲座课件第一讲面板数据

发布时间：2023-06-06 作者：admin 来源：讲座

面板数据计量分析白仲林第一讲面板数据因家庭调查得到的面板数据越来越多，面板数据的计量分析可以说是过去三十年社会应用研究领域所取得的最重要的进展。－Fitzgerald, Gottschalk和Moffitt（1998, P）252第一讲内容面板数据面板数据的优点与缺陷扩展的面板数据面板数据线性回归模型体系面板数据单因素误差模型面板数据双因素误差模型第一节面板数据 1.1 面板数据“面板数据”一词指的是一部分家庭、国家或企业等在一段时期内的观测值所构成的集合。这样的数据可以通过在一段时期内对一些家庭或个体进行跟踪调查来获得。从横截面看，面板数据是由若干个体在某一时点构成的截面观测值，并且，从纵剖面看每个个体都是一个时间序列。1978-2005中国各省级地区消费性支出占可支配收入比例走势图(张晓峒老师绘制) 面板数据计量分析白仲林面板数据通常分为两类：由个体调查数据得到的面板数据通常被称为微观面板（micro panels）。微观面板数据的特点是个体数N较大（通常是几百或几千个），而时期数T较短（最少是2年，最长不超过10年或20年）。由一段时期内不同国家的数据得到的面板数据通常被称为宏观面板（macro panels）。这类数据一般具有适度规模的个体N（从7到100或200不等，如七国集团，OECD，欧盟，发达国家或发展中国家），时期数T一般在20年到60年之间。因数据结构上的区别，微观面板和宏观面板要求使用不同的计量方法。样本容量的区别微观面板必须研究T固定而N较大时的渐近特性，而宏观面板的渐近特性则是指T和N都较大时的情况。平稳性对于宏观面板，当时间序列较长时需要考虑数据的非平稳问题，如单位根、结构突变以及协整等；而微观面板不需要处理非平稳问题，特别是每个家庭或个体的时期数T较短时。个体相关性在处理宏观面板时必须考虑国家之间的相关性，而在微观面板中，如果个体是随机抽样产生，则个体之间不大可能存在相关性，因此不需

要考虑此问题。1.2 为什么使用面板数据？它们的优点和局限性1 面板数据的优点使用面板数据具有下列一些好处：（１）可以控制个体异质性面板数据能反映个体、企业、州或国家之间存在的异质性，即时间上和空间上的异质效应。而时间序列数据和横截面分析没有控制这种异质性，因而其结果很可能是有偏的。例如，Baltagi和Levin（1992）研究1963-88年美国46个州的香烟需求问题时，设定需求模型D=fDpIrelieduadv" ()iti,t??1ititiit则模型中解释变量包括两大类可观测的和不可观测的，可分为如下四种：z 第一类是可观测的时变异质因素，即，随个体（州）和时间的变化而变化的可观测变量，如香烟消费量的滞后项、价格和收入等可观测的变量；z 第二类是随个体（州）变化而不随时间变化的可观测变量，如宗教（religion）和教育等变量，即可观测的非时变异质因素；z 第三类是不随个体（州）变化而随时间变化的可观测变量，如电视和广播中的广告等变量，即可观测的时变同质因素；z 最后一类是一些不可观测变量，它们包括三种?? 非时变异质性不可观测因素（ξ）——个体效应i?? 时变同质性不可观测因素（λ）——时间效应t面板数据计量分析白仲林?? 时变异质性不可观测因素（u）——剩余效应it这样，模型可设定为

D=fDpIrelieduadv+ξλu ()iti,t??1ititiititit事实上，对于宗教变量，人们不可能得到每年每个州某一宗教人数占总人口的百分比，所以一般认为不同年份的百分比也不会有太大变化。同样，完成高中或大学学业的人数占总人口的百分比也是如此。电视和广播中的广告是全国性的，它对需求的影响不会随着州的不同而变化。显然，遗漏第四类中任何一种不可观测因素就会导致估计结果的偏倚，面板数据模型能够基

于这四类中的所有变量建模，而纯时间序列和横截面分析就无法做到。另外，Hajivassiliou（1987）给出了一个宏观经济的例子，他使用1970-82年79个发展中国家的面板数据研究了外债偿付问题。这些发展中国家在殖民历史、金融机构、宗教信仰和政治体制等方面存在差异，所有这些反映国家特征的特定变量都会影响它们在借债或拖欠方面的态度，同时也会影响债权国对待它们的方式。如果不考虑这些国家之间的异质性就会出现严重的设定错误。（2）面板数据模型容易避免多重共线性问题z 面板数据具有更多的信息；z 面板数据具有更大的变异；z 面板数据的变量间更弱的共线性；z 面板数据模型具有更大的自由度以及更高的效率。时间序列研究中令人烦恼的问题之一是多重共线性；比如在上述香烟需求的研究中，如果从总量的角度看价格和收入就具有很强的共线性，而使用美国各州的面板数据，存在共线性的可能就很小了，因为增加截面个体维度的同时也增加了数据的变异，也增加了更多有关价格和收入的信息。事实上，数据中的变异可以分为两个部分，一是州与州之间由于规模和经济特征的不同所表现出的变异性；二是各州内部不同时间上表现出的变异性，前者的变异程度往往更大。使用更多、更有信息的数据就可以得到更可靠的参数估计值。当然，这要求不同州的变量间应具有相同的关系式，换句话说，这要求数据是可混合的（poolable）。（3）面板数据更适合于研究动态调整过程面板数据适用于研究失业、贫困等经济状态的持续性问题的研究。如果这些面板数据的时期数足够长，它们就能够清楚地反映对经济政策变化的调整速度。比如，在衡量失业问题时，横截面数据可以估计出人口中多大一部分比例在给定的时间处于失业状态，多个截面可以表明这一比例如何随时间而变化。但是，只有面板数据才能估计出在某个时期失业人中有多大一部分在另一个时期仍处

于失业状态。Deaton（1995）指出，与横截面调查不同，面板调查可以获得家庭或个体变化的数据。它可以使我们观测到个体生活标准在社会发展过程中如何变化；可以使我们确定谁从社会发展中受益；而且还可以使我们观测到“在收入动态变化中，贫困到底是暂时性的还是长期的状态。” 面板数据计量分析白仲林由于面板数据可以将个体在某个时点的经历和行为与另一个时点的其他经历和行为联系起来，因此，面板数据在估计短期关系、生命周期模型和代际模型时也是必需的。（4）面板数据还可以识别、测量单纯使用横截面或时间序列数据无法估计的影响。对于由妇女组成的横截面样本，其中年平均就业率是50%. 这可能是由于下面两种原因导致的：（a）每个妇女在任一给定年份有50%的概率就业；（b）样本中有50%的人一直有工作，50%的人根本不工作。情况（a）中的工作转换频率很高，而情况（b）中没有工作转换，只有使用面板数据才能区分这两种情况。（5）与纯横截面数据或时间序列数据相比，面板数据模型允许构建并检验更复杂的行为模型。比如，对技术效率问题使用面板数据建模研究效果更好（Baltagi和Griffin，1988；Baltagi，Griffin和Rich，1995；Koop和Steel，2001）。另外，在分布滞后模型中使用面板数据比使用纯时间序列数据需要的约束条件更少（Hsiao，2003），因为通常使用GMM 估计。（6）基于个体、企业或家庭所搜集的微观面板数据与在宏观层次上所搜集的类似变量相比更加准确，而且还可能消除企业或个体数据汇总所导致的偏倚。（7）例如，与时间序列分析中进行单位根检验遇到的非标准分布问题不同，面板单位根检验通常具有标准的渐近分布。2 面板数据的局限性面板数据的局限性包括：（1）微观调查面板数据极少Kasprzyk等（1989）详细讨论了有关设计面板调查、数据收

集和数据管理的问题。这些问题包括：覆盖面问题（样本没覆盖研究总体）、不响应问题（由于回答者不合作或提问者的失误）、回忆问题（回答者的记忆不准确）、采访的频率问题、采访的时间间隔问题、询问的时间问题和样本期内偏倚问题。（2）测量误差的扭曲（distortions）严重在面板数据调查中，问题不清晰，记忆错误，故意歪曲回答（例如威望偏倚），不合适的被调查者，错误记录回答者的应答以及采访者的影响等导致出现严重的测量误差。（3）面板数据调查的样本选择问题z 自选择例如，由于个人保留工资高于工作工资，人们通常选择不去工作。在这种情况下，观测到的只是这些人的特征，而观测不到他们的保留工资。由于他们的工资数据缺失，产生删失样本。但是，如果这些人的所有数据都不可观测，这就成为一个截断样本。因此，面板数据调查容易产生样本的选择有偏性。z 未回答面板数据调查容易产生单项（或部分）未回答或完全未回答。这时，除了由于数据缺失导致的效率损失之外，面板数据调查中的未回答还可以导致严重的总体参数识别问题。z 非随机样本流失在面板数据的随后调查，由于调查对象的非随机流动（如，低收入区域向高收入区面板数据计量分析白仲林域的流动）或发现回答的成本过高等原因，会产生调查对象的严重流失。Fitzgerald等（1998）指出，面板数据使用价值的最大潜在威胁是有偏性流失。Lillard和Panis（1998）研究发现，PSID的样本流失有很强的选择性。例如，受教育程度较低的个体以及年龄较大的个体最容易从样本中剔除，而已婚的人继续留在样本内的可能性较大。被调查者在样本内的时期越长，继续参与调查的倾向就越小。在欧洲，（第一次和第二次调查之间的）样本流失率从意大利的6%到英国的40%不等。平均的样本流失率大约是10%. 为了解决样本非随机流失的影响，人们逐渐使用轮换面板（rotatin

g panel）和伪面板（pseudo-panel）。（4）时间维度短微观面板通常是年度数据，每个个体的时期数较短。因此，主要依赖个体数趋于无穷进行渐近统计分析。（5）截面相关性国家或地区的宏观面板数据，如果时间序列较长而且没有考虑到国家之间的相关性就会导致错误的推断结论。事实上，考虑截面相关非常重要，而且会影响到统计推断的结论。为此，人们也提出了考虑这种相关性的面板单位根检验方法。1.3 扩展的面板数据 1 伪面板数据1985年，Deaton(1985)指出“由于统计调查的样本轮换和样本非随机流失问题，绝大多数国家并不存在较长时间跨度的真正面板数据，或者这样的真正面板数据是难以获得的，对于发展中国家的微观经济变量尤其如此。” 并且，Deaton发现“虽然某变量的统计抽样不能连续调查到各个体的观测数据，但是，如果按照某种属性(例如，年龄、职业和身份等)将各期调查对象分成不同的群(Cohort)；对于各个观测期，选择各群内观测数据的均值(中位数或分位数)，即可构造以群为…个体‟单位的面板数据”。于是，对于截面时间序列的统计调查数据，基于某种属性分群，称以群为个体而构造的人工面板数据为伪面板数据(Pseudo Panel Data)。众所周知，面板数据的本质是在观测期内的每期都能观测到相同个体的相关数据，然而，伪面板显然并非如此。在观测期内，它允许每期观测的个体不同，并且重点关注的是个体群的统计特征，即通过群均值和群方差的发展变化，来揭示相关变量的总体分布特征。例如，为了基于城市住户抽样调查数据研究城市居民收入的动态行为，常见的分群标准是户主年龄段、户主出生年的区间和户主职业类别。户主按出生年的区间分群，在各观测期，同群中的不同家庭都是户主在同一出生年区间的家庭，不同群的家庭是户主在不同出生年区间的家庭。如，对于1963-1967

年出生的群，在1988年调查时，该群内的家庭是户主为21-25岁的家庭；1989年调查时，该群内的家庭是户主为22-26岁的家庭；依此类推，2008年调查时，该群内的家庭是户主为41-45岁的家庭。然后，在各调查年，对该群群内的家庭人均收入求均值。这样，对于1963-1967年出生的群，可得到该群的人均收入时间序列。于是，对于不同的群就可构造一个关于家庭人均收入的面板数据，称之为按出生年分群的家庭人均收入伪面板数据计量分析白仲林面板数据。类似地，也可以构造按年龄段分群的人均收入伪面板数据。应用群体分析方法得到的伪面板数据还具有以下优点。一是伪面板数据是由各群群内个体属性的总体统计量组成，与一般面板中的个体数据相比，前者消除了个体的测量误差，且避免了样本流失。二是由于不需要在每期中追踪固定的个体，这样可得到更长时间跨度的数据。但是，也产生了新的问题，例如，无意义的个体效应、滞后数据的不可观测。2 轮换面板因为同一个家庭可能不愿被一次又一次的被回访，为了保持调查中家庭数目相同，在第二期调查中退出的部分家庭，被相同数目的新的家庭所替代，这在获得调查面板数据时是必要的。Biorn（1981）研究了这种轮换面板的情况。在Biorn和Jansen（1983）的研究中，他们基于挪威家庭预算调查的数据，其中一半的样本在每次调查中被轮换掉。换句话说，就是每一期调查的样本中将有一半家庭退出调查，并被新的家庭替代。假设T=2，并且每期调查中有一半的样本被轮换，在这种情况下，不失一般性，在第2期，家庭1,2,",N/2被家庭N+1,N+2,",N+N/2所替代，很明显，只有家庭

N/2+1,N/2+2,",N被观测了两期。这个例子中有3N/2个不同的家庭，只有N/2个家庭被观测了两期。最

初和最后的N/2个家庭只被观测了一期。轮换面板允许研究者检验“抽样时间（time-in-sample）”偏倚效应的存在性。“抽样时间”偏倚是指初次采访和随后的采访之间的回答有显著的改变。对于轮换面板，每批加到面板的新个体组提供了检验抽样时间偏倚效应的方法。例如，Solon（1986）等研究发现第一次轮换所报告的失业率比基于全样本的失业率高出10个百分点。这些发现表明在面板数据调查中普遍存在着轮换组偏倚效应，而实践中调查条件并没有保持不变，因而很难把抽样时间偏倚效应同其他效应区分开。3 空间面板数据在个体水平的随机抽样样本中，人们很少担心截面之间的相关性。然而，当考虑国家，地区，州，县等相关截面数据时，这些总量个体可能表现出必须处理的截面相关性。现在有大量运用空间数据的文献处理这种相关性。这种空间相依模型在区域科学和城市经济学中比较普遍。具体来说，这些模型使用经济距离测度设定了面板数据的空间自相关性和空间结构（空间异质性），这方面文献的详尽介绍可以参见Anselin(1988, 2001)。近年来，在经济学的实证研究中，空间面板模型变得越来越有吸引力。在包含空间误差自相关和空间滞后被解释变量的情形下，Elhorst(2003)讨论了固定效应和随机效应面板数据模型的ML估计。他们也对随机系数模型作了相应的扩展。在包含空间误差自相关，或者空间滞后被解释变量的情形下，Elhorst(2005)研究了固定效应动态面板数据模型的估计。4 计数面板数据被解释变量是计数面板数据的例子很多。例如，一段时间内一家公司的竟标次数、一个面板数据计量分析白仲林人去看医生的次数、每天吸烟者的数量及一个研发机构登记专利的数目。虽然可以运用传统面板回归模型对计数面板数据建模，但鉴于被解释变量具有0及非负离散取值的特征，运用泊松面板回归模型建模更为合适。在计数面板数据的文献中，尽管泊松模型设定非常流行，但由于其均值与方差相等的性质而备受批评。在实证

分析中更常见的是过度离差的情形。为了对过度离差建模，经常设定数据服从负二项分布，Hausman et al.(1984)研究了负二项分布面板数据模型。而且，负二项分布面板数据模型也能够在Stata软件xtpoisson,fe and re软件包中实现。然而，面板数据不是灵丹妙药，它并不能解决时间序列或横截面研究中解决不了的所有问题。例如，面板单位根检验比单一时间序列的单位根检验功效更高，这应该能更好地推断购买力平价(PPP)和增长收敛问题。事实上，在导致大量经验应用研究的同时，也引来了一些批评，Maddala(1999)和Banerjee等(2004，2005)认为面板数据也不能解决PPP以及增长收敛的问题。面板数据计量分析白仲林第二节面板数据回归模型2.1面板数据回归模型的一般形式面板数据模型的一般形式如下：Kyβx+u

（2.1）∑itkitkititk=1其中，i=1,2,3,",N，表示N个个体；t=1,2,3,",T，表示已知的T个时点。y是被解it释变量对个体i在t时的观测值；x是第k个非随机解释变量对于个体i在t时的观测值；βkitkit是待估计的参数；u是随机误差项。it特别，当回归系数只与个体有关，不随时间变化时，即，β=β时，模型(2.1)可用矩kitki阵表示为Y=Xβ+U （i=1,2,3,",N）（2.1‟）

iiiiyxx"xβui11i12i1Ki11ii1yxx"xβui21i22 i2Ki22ii2其中，Y=，X=，β=，U=.

iiii###"#??#??#yxx"xβu??iT????1iT2iTKiT????Ki iT??T×1T×KK×1T×12.2 面板数据回归模型的分类通常，对模型（2.1）将做许多限制性假设，使其成为不同类型的面板数据回归模型。一般来说，常用

的面板数据回归模型有如下九种模型，下面分别介绍它们。1混合回归模型从时间上看，不同个体之间不存在显著性差异；从截面上看，不同截面之间也不存在显著性差异，那么就可以直接把面板数据混合在一起，用普通最小二乘法（OLS）估计参数。即估计模型K2y=β+βx+u ，u~i.i.d0σ （2.2）()∑it1kkitititk=2Y=Xβ+U （2.2‟）面板数据计量分析白仲林

YXβU1111YXβU2222其中，Y=，X=，β=，

U=. ##??#??#????YXβU??N????N????K????N??NT×1NT×K K×1NT×1例如：如果劳动力市场、资本市场和商品市场是有效的，那么，在全球技术进步非时变和各地区（个体）技术效率相同的假设下，根据各地区的面板数据利用Cobb-Dauglas生产函数估计劳动和资本对产出的贡献时，可以将模型设定为混合回归模型。实际上，混合回归模型（Pooled Regression Models）假设了解释变量对被解释变量的影响与个体无关。模型中的解释变量部分表示可观测同质时变效应、截距项反映了不可观测的非时变同质效应的平均水平，而且独立同分布的误差项（不可观测的时变异质性）也未包含不可观测的非时变异质性和同质的时变效应。因此，混合模型不仅不能体现模型数据的信息优势，而且对实际问题进行了严格的约束（如，Cobb-Dauglas生产函数中技术不变的假设）。尽管混合回归模型在早期被广泛应用，但是，在许多问题的研究中，混合回归模型并不适用（Mairesse & Griliches，1990）。2 单因素效应模型所谓单因素效应模型，就是在模型中考虑了不可观测非时变（个体）异质效应，或者，考虑了不可观测时变（个体）同质效应的模型，因此，单因素效应模型分为个体单因素

效应模型和时间单因素效应模型两类。（1）个体单因素效应模型在面板数据线性回归模型中，如果在混合模型中

👁️ 阅读量：0

🔖 本文标签：

🔥 最新发布文章