1一般性定义
计量经济学是以经济理论和经济数据的事实为依据,运用数学和统计学的方法,通过建立数学模型来研究经济数量关系和规律的一门经济学科。 研究的主体(出发点、归宿、核心): 经济现象及数量变化规律 研究的工具(手段):
模型 数学和统计方法 必须明确:
方法手段要服从研究对象的本质特征(与数学不同),方法是为经济问题服务 2注意:计量经济研究的三个方面
理论:即说明所研究对象经济行为的经济理论 ——计量经济研究的基础
数据:对所研究对象经济行为观测所得到的信息——计量经济研究的原料或依据
方法:模型的方法与估计、检验、分析的方法——计量经济研究的工具与手段 三者缺一不可
3计量经济学的学科类型 ●理论计量经济学
研究经济计量的理论和方法
●应用计量经济学:应用计量经济方法研究某些领域的具体经济问题 4区别:
●经济理论重在定性分析,并不对经济关系提供数量上的具体度量
●计量经济学对经济关系要作出定量的估计,对经济理论提出经验的内容 5计量经济学与经济统计学的关系 联系:
●经济统计侧重于对社会经济现象的描述性计量
●经济统计提供的数据是计量经济学据以估计参数、验证经济理论的基本依据 ●经济现象不能作实验,只能被动地观测客观经济现象变动的既成事实,只能依赖于经济统计数据
6计量经济学与数理统计学的关系 联系:
●数理统计学是计量经济学的方法论基础 区别:
●数理统计学是在标准假定条件下抽象地研究一 般的随机变量的统计规律性;
●计量经济学是从经济模型出发,研究模型参数 的估计和推断,参数有特定的经济意义,标准 假定条件经常不能满足,需要建立一些专门的 经济计量方法 3、计量经济学的特点:
计量经济学的一个重要特点是:它自身并没有固定的经济理论,而是根据其它经济理论,应用计量经济方法将这些理论数量化。 4、计量经济学为什么是一门单独的学科
计量经济学是经济理论、数理经济、经济统计与数理统计的混合物。
1、经济理论所作的陈述或假说大多数是定性性质的,计量经济学对大多数经济理论赋予经验内容。
2、经济统计学的问题主要是收集、加工并通过图或表的形式以展现经济数据,他们不考虑怎样用所收集的数据来检验经济理论。
3、虽然数理统计学提供了这一行业中使用的许多工具,但由于大多数经济数据的独特性,计量经济学家常常需要有特殊的方法。 §2、计量经济学的方法论
1、用计量经济学来分析问题的一般方法; (1)理论或假说的陈述 (2)理论的数学模型的设定 (3)理论的计量模型的设定 (4)获取数据
(5)计量经济模型的参数估计 (6)模型检验(假设检验)
(7)模型的应用:A、预报或预测 B、利用模型进行控制或制定政策 2、应用举例(消费函数): (1)理论或假说的陈述:
凯恩斯认为:随着收入的增加,消费也会增加,但是消费的增加不及收入增加的多。即边际消费倾向递减。
(2)理论的数学模型设定: Y = a + bX
其中y为消费支出, x为收入,ab为模型的参数,分别代表截距和斜率系数。斜率系数b就是消费边际倾向MPC的度量。
其中左边的Y称为应变量,方程右边的X称为自变量或解释变量。 该方程表明消费和收入之间存在准确的一一对应关系。 (3)计量模型的设定:
考虑到经济变量间的非准确关系,则消费函数的计量模型可以设定为: Y = a + Bx + μ 其中μ被称为干扰项,或误差项,是一个随机 变量,它有良好定义的概率性质。 μ是从模型中省略下来的而又集体影响着Y的全部变量的替代物(就是除了收入外,其它可能影响消费的所有因素)。 (4)数据的获得
各种统计年鉴,企业报表和相关职能部门公布的统计数据 。(该例中我们可以通过中国统计年鉴获取相关数据)
(5)参数估计(利用各种统计或计量软件来进行如:Eviews) 以美国1980-1991年的数据,通过Eviews5.0的计算, 我们可得如下消费函数方程:ý = -231.8 + 0.7196 其中a=-231.8 b=0.7196
它表明在1980-1991年间,实际收入每增加一元,美国人的平均消费增加0.72元。 (6)模型检验(假设检验) A、对理论或假说的检验
弗里德曼认为凡是不能通过经验数据检验(实证检验)的理论或假设,都不能作为科学
探索的一部分。
0 < 0.7196<1 B、对模型的检验
统计推断检验:模型的拟合优度检验、变量的显著性检验
计量经济学检验:平稳性、多重共线性、自相关、异方差 等方面的检验、 (7)预报或预测
(8)利用模型进行控制或制定政策 4.计量经济学模型的应用 一、结构分析
经济学中的结构分析是对经济现象中变量之间相互关系的研究。 结构分析所采用的主要方法是弹性分析、乘数分析与比较静力分析。 计量经济学模型的功能是揭示经济现象中变量之间的相互关系,即通过模型得到弹性、乘数等。 应用举例 二、经济预测
计量经济学模型作为一类经济数学模型,是从用于经济预测,特别是短期预测而发展起来的。 计量经济学模型是以模拟历史、从已经发生的经济活动中找出变化规律为主要技术手段。 对于非稳定发展的经济过程,对于缺乏规范行为理论的经济活动,计量经济学模型预测功能失效。
模型理论方法的发展以适应预测的需要。 三、政策评价
政策评价的重要性。 经济政策的不可试验性。
计量经济学模型的“经济政策实验室”功能。 四、理论检验与发展
实践是检验真理的唯一标准。
任何经济学理论,只有当它成功地解释了过去,才能为人们所接受。 计量经济学模型提供了一种检验经济理论的好方法。 对理论假设的检验可以发现和发展理论。 §3 变量 数据 参数 与模型 1、计量经济模型中的变量 (1)从变量的因果关系分: 自变量 因(应)变量 解释变量 被解释变量 (2)从变量的性质分
内生变量:模型求解的结果 外生变量:
2、计量经济学中应用的数据 (1)时间序列数据 (2)截面数据 (3)混合数据
(4)虚拟变量数据:一些定性的事实,不能直接用一般的数据去计量。 3、参数及其估计准则 (1)无偏性
(2)最小方差性(最优无偏估计) (3)一致性
4、计量模型的基本函数形式 (1)线性模型
(2)非线性模型(可变为线性形式的非线性模型) 双对数模型 半对数模型 倒数变换模型
第二章 一元回归模型概述 回归分析的性质
回归分析的一些基本概念 对线性的几点说明
§2.1 回归分析的性质
一、变量间的关系及回归分析的基本概念 1、变量间的关系
经济变量之间的关系,大体可分为两类:
(1)确定性关系或函数关系:研究的是确定现象非随机变量间的关系。 (2)统计依赖或相关关系:研究的是非确定现象随机变量间的关系。(以一定的统计规律呈现出来的关系) 例如:
圆面积f,半径半径2 函数关系:
统计依赖关系/统计相关关系: 农作物产量f气温,降雨量,阳光,施肥量 正相关 线性相关 不相关 相关系数:统计依赖关系 负相关 1XY1 有因果关系 回归分析 正相关 无因果关系 相关分析 非线性相关 不相关 负相关
▲注意:
①不线性相关并不意味着不相关;
②有相关关系并不意味着一定有因果关系;
③回归分析/相关分析研究一个变量对另一个(些)变量的统计依赖关系,但它们并不意味着一定有因果关系。
④相关分析对称地对待任何(两个)变量,两个变量都被看作是随机的。回归分析对变量的处理方法存在不对称性,即区分应变量(被解释变量)和自变量(解释变量):前者是随机变量,后者不是。 回归与因果关系
虽然回归分析研究一个变量对另一(些)变量的依赖关系,但它并不意味着因果关系。Kendall和Stuart认为一个统计关系式不管多么强,也不管多么有启发性,却永远不能确立因果方面的联系,对因果关系方面的理念必须来自统计学之外,最终来自这种或那种理论。
从逻辑上说,统计关系式本身不可能意味着任何因果关系。要谈因果关系,必须诉诸先验或理论上的思考。
§2.2回归分析的基本思想:
一、利用样本来推断总体 1、总回归函数(PRF) 2、样本回归函数(SRF)
3、样本回归函数对总回归函数的进行拟合: (1)最小二乘法(OLS) (2)最小二乘法的基本假定
(3)最小二乘估计的精度或标准误 (4)最小二乘估计量的性质 (5)拟合优度的度量 (6)区间估计或假设检验
4、利用回归方程进行分析、评价及预测。 二、回归分析的基本概念 1、 回归分析(regression analysis)是研究一个变量关于另一个(些)变量的具体依赖关系的计算方法和理论。
其用意:在于通过后者的已知或设定值,去估计和(或)预测前者的(总体)均值。 这里:前一个变量被称为被解释变量或因变量对变量测量尺度的注解: 分类尺度(名义尺度)、顺序尺度(序数尺度)、间隔尺度(区间尺度)、比率尺度(比率尺度) 三、总体回归函数
由于变量间关系的随机性,回归分析关心的是根据解释变量的已知或给定值,考察被解释变量的总体均值,即当解释变量取某个确定值时,与之统计相关的被解释变量所有可能出现的对应值的平均值。
例2.1:一个假想的社区有100户家庭组成,要研究该社区每月家庭消费支出Y与每月家庭可支配收入X的关系。
即如果知道了家庭的月收入,能否预测该社区家庭的平均月消费支出水平。
为达到此目的,将该100户家庭划分为组内收入差不多的10组,以分析每一收入组的家庭消费支出。 分析:(1)由于不确定因素的影响,对同一收入水平X,不同家庭的消费支出不完全相同; (2)但由于调查的完备性,给定收入水平X的消费支出Y的分布是确定的,即以X的给定
值为条件的Y的条件分布(Conditional distribution)是已知的, 如: P(Y=561|X=800)=1/4。
因此,给定收入X的值Xi,可得消费支出Y的条件均值(conditional mean)或条件期望(conditional expectation): E(Y|X=Xi) 该例中:E(Y | X=800)=561
描出散点图发现:随着收入的增加,消费“平均地说”也在增加,且Y的条件均值均落在一根正斜率的直线上。这条直线称为总体回归线。
每 月 消 费 支 出 3500 3000 2500 2000 1500 1000 500 0 500 1000 1500 2000 2500 3000 3500 4000 每月可支配收入X(元) 概念:
在给定解释变量Xi条件下被解释变量Yi的期望轨迹称为总体回归线,或更一般地称为总体
回归曲线。
相应的函数:E(Y|Xi)f(Xi)称为(双变量)总体回归函数。
含义:回归函数(PRF)说明被解释变量Y的平均状态(总体条件期望)随解释变量X变化的规律。
函数形式:可以是线性或非线性的。
例2.1中,将居民消费支出看成是其可支配收入的线性函数时:
E(Y|Xi)01Xi
为一线性函数。其中,b0,b1是未知参数,称为回归系数(regression coefficients)。 。 四、随机扰动项
总体回归函数说明在给定的收入水平Xi下,该社区家庭平均的消费支出水平。 但对某一个别的家庭,其消费支出可能与该平均水平有偏差。 记:
iYiE(Y|Xi)
称mi为观察值Yi围绕它的期望值E(Y|Xi)的离,是一个不可观测的随机变量,又称为随机干扰项或随机误差项。
例2.1中,个别家庭的消费支出为:
(*)
即,给定收入水平Xi ,个别家庭的支出可表示为两部分之和:
(1)该收入水平下所有家庭的平均消费支出E(Y|Xi),称为系统性(systematic)或确定性(deterministic)部分。
(2)其他随机或非确定性(nonsystematic)部分i。
(*)式称为总体回归函数PRF的随机设定形式。表明被解释变量除了受解释变量的系统性影响外,还受其他因素的随机性影响。
由于方程中引入了随机项,成为计量经济学模型,因此也称为总体回归模型。 随机误差项主要包括下列因素的影响:
随机误差项是指从模型中省略下来的而又集体地影响着Y的全部变量的替代物。 1)在解释变量中被忽略的因素的影响; 2)变量观测值的观测误差的影响; 3)其它随机因素的影响。
产生并设计随机误差项的主要原因:
1)理论的含糊性; 2)数据的欠缺(糟糕的替代变量) 3)核心变量与周边变量; 4) 节省原则;
5)人类行为的内在随机性;6)错误的函数形式; 35五、样本回归函数(SRF) 问题:能从一次抽样中获得总体的近似的信息吗?如果可以,如何从抽样中获得总体的近似信息?
例2.2:在例2.1的总体中有如下一个样本,
总体的信息往往无法掌握,现实的情况只能是在一次观测中得到总体的一个样本。 问:能否从该样本估计总体回归函数PRF? 回答:能
表2.1.3 家庭消费支出与可支配收入的一个随机样本 Y X 800 594 1100 638 1400 1122 1700 1155 2000 1408 2300 1595 2600 1969 2900 2078 3200 2585 3500 2530
核样本的散点图(scatter diagram):
样本散点图近似于一条直线,画一条直线以尽好
地拟合该散点图,由于样本取自总体,可以该线近似地代表总体回归线。该线称为样本回归线。
记样本回归线的函数形式为:
ˆˆXˆf(X)Yii01i
称为样本回归函数。
注意:这里将样本回归线看成总体回归线的近似替代
则
样本回归函数的随机形式/样本回归模型:
ˆˆXeˆˆiYYii01ii 同样地,样本回归函数也有如下的随机形式:
式中,ei称为(样本)残差(或剩余)项(residual),代表
由于方程中引入了随机项,成为计量经济模型,因此也称为样本回归模型。 ▼回归分析的主要目的:根据样本回归函数SRF,估计总体回归函数PRF。
ˆii的估计量了其他影响Yi的随机因素的集合,可看成是。 ˆˆXeˆeYYiii01ii 即,根据
估计 YiE(Y|Xi)i01Xii注意:这里PRF可能永远无法知道。
§2.3 对线性的几点说明 一、对变量之间关系为线性 二、对参数为线性
三、本身为非线性,但通过变形可以变为线性关系
经典回归分析主要考虑对参数是线性的形式,对变量之间的关系不作线性要求。 第三章 一元回归模型的参数估计 一、参数的普通最小二乘估计(OLS) 二、最小二乘估计量的数值性质 三、一元线性回归模型的基本假设 四、最小二乘估计量的统计性质 五、参数估计量的概率分布及随机干 扰项方差的估计
六、最小二乘估计(OLS)的精度或标准误 单方程计量经济学模型分为两大类: 线性模型和非线性模型
线性模型中,变量之间的关系呈线性关系 非线性模型中,变量之间的关系呈非线性关系 一元线性回归模型:只有一个解释变量
Yi01Xiii=1,2,…,n
Y为被解释变量,X为解释变量,b0与b1为待估参数,m为随机干扰项 回归分析的主要目的是要通过样本回归函数(模型)SRF尽可能准确地估计总体回归函数(模型)PRF。
估计方法有多种,其中最广泛使用的是普通最小二乘法。因为OLS具有良好的数值性质和统计性质。同时,在一系列假定下OLS估计量具有BLUE性质,能满足我们用样本推断总体的要求。
注:实际这些假设与所采用的估计方法紧密相关。 一、参数的普通最小二乘估计(OLS) 给定一组样本观测值(Xi, Yi)(i=1,2,…n)要求样本回归函数尽可能好地拟合这组值. 离差
要求样本函数仅可能好的拟合这组数值,我们可以考虑 使观测值Yi与样本回归值之差(残差ei)尽可能的小, 使之尽可能的接近PRF,即:
ˆ)min(YiY注:在统计分析中,如没有特殊说明,离差一般是指观测值与其均值的差,即 YiY这种方法尽管有直观上的说服力,却不是一个很好的准则,如果采用
ˆ) 即min∑ei min(YiY那么在总和(e1+e2+e3+e4+……ei )中,无 论残差离样本回归函数SRF远还是近,都 得到同样的权重。结果很可能ei离开SRF 散布得很远,但代数和很小甚至为零。
普通最小二乘法给出的判断标准是:二者之差的平方和
ˆˆX))2ˆ)2(Y(Q(YiYii01i11nn最小。
为什么要用两者之差平方和最小:
1、它根据各观测值离SRF的远近不同分别给予不同的权重。从而ei越大,∑ei2也越大。 2、 ∑ei2=f(b0 , b1 ),即残差平方和是估计量b0 ,b1 的某个函数。 ^ ^ 3、用OLS原理或方法选出来的b0 ,b1,将使得对于给定的样本或数据残差平方和尽可能的小。
方程组(*)称为正规方程组(normal equations)。
x记
1Xi2n
1xiyi(XiX)(YiY)XiYinXiYi2i(XiX)2Xi2xiyiˆ1xi2ˆˆ上述参数估计量可以写成: 0Y1X
称为OLS估计量的离差形式
由于参数的估计结果是通过最小二乘法得到的,故称为普通最小二乘估计量。 二、OLS估计量的数值性质
OLS数值性质是指运用最小二乘法而得以成立的那些性质,而不管这些数据是怎样产生的。 1、OLS估计量纯粹是用可观测的量(即样本)来表达的,因此这些量是容易计算的。 2、这些量是点估计量。
3、一旦从样本数据得到OLS估计值,便容易画出样本回归线,这样得到的回归线有如下性质:
(1)它通过Y和X的样本均值。即
ˆYˆXˆY1Y(2)估计的Y均值等于实测的Y均值。即 0(3)残差ei的均值为零。即∑ei=0。据此,我们可以
ˆxˆiy1i 推出样本回归函数的离差形式。即
注意:在计量经济学中,往往以小写字母表示对均值的离差。
ˆ记 yiˆYYi
则有
ˆˆX)(ˆˆXe)ˆi(y01i01ˆ(XX)1e1ini
ˆˆ可得 yi1xi(**)
(**)式为样本回归函数的离差形式。 (4)残差ei和预测的Yi值不相关。即 (eiYˆi)0(5)残差ei和Xi不相关。即 ∑eiXi=0 三、线性回归模型的基本假设 为什么要做出假定:
1、虽然通过OLS,我们可以获得 ,
的估计值,但我们的目的不仅仅是为了得到它们
的值。
2、更为重要的是对b0 , b1与真实的b0 , b1 之间的替代性进行推断。 3、对Yi与E(Y|X=Xi)之间的差距到底有多大进行推断。
ˆˆˆˆ4、在模型YiYii01Xiei 中,
ei是一随机变量,如果我们不知道xi、ei是怎样产生的,就无法对Yi做出任何推断,也无法对b0 , b1 做出任何推断。
5、在一系列假定下,OLS具有良好的统计性质,能够满足我们对b0 , b1 作出推断的要求。
线性回归模型的基本假设
假设1、线性回归模型,回归模型对参数而言是线性的; 假设2、解释变量X是确定性变量,不是随机变量;
假设3、随机误差项具有零均值、同方差和不序列相关性: E(mi)=0 i=1,2, …,n Var(mi)=sm2 i=1,2, …,n
Cov(mi, mj)=0 i≠j i,j= 1,2, …,n 假设4、随机误差项与解释变量X之间不相关: Cov(Xi, mi)=0 i=1,2, …,n
假设5、服从零均值、同方差、零协方差的正态分布 mi~N(0, s2 ) i=1,2, …,n
假设6、观测次数n必须大于待估的参数个数; 假设7、X值要有变异性;
假设8、正确的设定了回归模型;也被称为模型没有设定偏误(specification error) ; 假设9、在多元回归模型中没有完全的多重共线性。 注意:
1、如果假设2、3满足,则假设4也满足; 2、如果假设5满足,则假设3也满足。
以上假设也称为线性回归模型的经典假设或高斯(Gauss)假设,满足该假设的线性回归模型,也称为经典线性回归模型。
另外,在进行模型回归时,还有一个暗含的假设:
假设10:随着样本容量的无限增加,解释变量X的样本方差趋于一有限常数。即
(XiX)2/nQ,n
假设5旨在排除时间序列数据出现持续上升或下降的变量作为解释变量,因为这类数据不仅使大样本统计推断变得无效,而且往往产生所谓的伪回归问题。 四、假定条件下的最小二乘估计量的统计性质
当模型参数估计出后,需考虑参数估计值的精度,即是否能代表总体参数的真值,或者说需考察参数估计量的统计性质。
一个用于考察总体的估计量,可从如下几个方面考察其优劣性: (1)线性性,即它是否是另一随机变量的线性函数;
(2)无偏性,即它的均值或期望值是否等于总体的真实值; (3)有效性,即它是否在所有线性无偏估计量中具有最小方差。
(4)渐近无偏性,即样本容量趋于无穷大时,是否它的均值序列趋于总体真值; (5)一致性,即样本容量趋于无穷大时,它是否依概率收敛于总体的真值;
(6)渐近有效性,即样本容量趋于无穷大时,是否它在所有的一致估计量中具有最小的渐近方差。
这三个准则也称作估计量的小样本性质。
拥有这类性质的估计量称为最佳线性无偏估计量(best liner unbiased estimator, BLUE)。
当不满足小样本性质时,需进一步考察估计量的大样本或渐近性质: 高斯—马尔可夫定理
在给定经典线性回归的假定下,最小二乘估计量是具有最小方差的线性无偏估计量。
证
1xiyi2ixx(YY)xYYxxxxii2iii2iii2
ˆ的均值(期望)等于总体回归ˆ、2、无偏性,即估计量01参数真值0与1 证:
ˆkYk(X)iii01ii0ki1kiXikii1
易知故
kixxi2i0
kiXi1
ˆkii11ˆ)E(k)kE()E(ii1ii111
同样地,容易得出
ˆ)E(w)E()wE()E(iiii0000(2)证明最小方差性
ˆ*是其他估计方法得到的关于的线性无偏估计量: 假设11
其中,ci=ki+di,di为不全为零的常数 则容易证明var(1)var(1)
普通最小二乘估计量称为最佳线性无偏估计量
由于最小二乘估计量拥有一个“好”的估计量所应具备的小样本特性,它自然也拥有大样本特性。
x)ˆ)Plim(Plim(k)Plim()Plim(xPlim(x/n)Plim(x/n)
Cov(X,)0111QQ
ii11ii12iii12iˆcYii*1
ˆ*ˆ五、参数估计量的概率分布及随机干扰项方差的估计
2、随机误差项m的方差s2的估计
由于随机项mi不可观测,只能从mi的估计——残差ei出发,对总体方差进行估计。 2又称为总体方差。
可以证明,s2的最小二乘估计量为
ˆ2e2in2它是关于s2的无偏估计量。
第四
章一元线性回归模型的统计检验 一、拟合优度检验
二、变量的显著性检验 三、参数的置信区间
回归分析是要通过样本所估计的参数来代替总体的真实参数,或者说是用样本回归线代替总体回归线。
尽管从统计性质上已知,如果有足够多的重复抽样,参数的估计值的期望(均值)就等于其总体的参数真值,但在一次抽样中,估计值不一定就等于该真值。
那么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行统计检验。
主要包括拟合优度检验、变量的显著性检验及参数的区间估计。 一、拟合优度检验
拟合优度检验:对样本回归直线与样本观测值之间拟合程度的检验。
度量拟合优度的指标:判定系数(可决系数)r2(二元回归)或R2(多元回归)
问题:采用普通最小二乘估计方法,已经保证了模型最好地拟合了样本观测值,为什么还要检验拟合程度?
1、总离差平方和的分解
已知由一组样本观测值(Xi,Yi),i=1,2…,n得到如下样本回归直线
如果Yi=Ŷi 即实际观测值落在样本回归“线”上,则拟合最好。 可认为,“离差”全部来自回归线,而与“残差”无关。
对于所有样本点,则需考虑这些点与样本均值离差的平方和。
我们可以得到:
方程两边同时平方,求和得: TSS=ESS+RSS
Y的观测值围绕其均值的总离差(total varia可分解为两部分:一部分来自回归线(ESS),另一部分则来自随机势力(RSS)。 在给定样本中,TSS不变,
如果实际观测点离样本回归线越近,则ESS在TSS中占的比重越大,因此,拟合优度:回归平方和ESS/Y的总离差TSS 2、可决系数R2统计量
称 R2 为(样本)可决系数/判定系数(coefficient of determination)。 可决系数的取值范围:[0,1]
R2越接近1,说明实际观测点离样本线越近,拟合优度越高。
二、回归系数的区间估计
如果存在这样一个区间,称之为置信区间; 1-a称为置信系数(置信度),a称为显著性水平;置信区间的端点称为置信限或临界值。 从定义我们可以看出,区间估计量是一个构造出来的区间,要使得它把参数的真值包括在区间的界限内有一个特定的概率:1-α
在给定α=0.05或5%的情况下,置信(随机) 区间包含真实β的概率为0.95或95%。 它表示使用我们所描述的方法构造出来的
众多区间中包含β真值的概率为0.95或95%。 我们能不能构造出这样的区间呢?? 依据什么来构造呢??? 依据概率知识我们知道,如果估计量的抽样或概率分布已知,我们就可以构造出以一定概率包含真实β值的区间。
对回归系数β的区间估计可归纳为三种情况
α=0.05, 即 1- α=0.95
α=0.01, 即 1- α=0.99 α=0.001,即 1- α=0.999
例如:取α=0.05, 即 1- α=0.95,查标准正态分布表可知
Z值在(-1.96,1.96)区间的概率为0.95。即P(-1.96<Z<1.96)=0.95
三、假设检验:
回归分析是要判断解释变量X是否是被解释变量Y的一个显著性的影响因素。 在一元线性模型中,就是要判断X是否对Y具有显著的线性性影响。这就需要进行变量的显著性检验。
变量的显著性检验所应用的方法是数理统计学中的假设检验。
计量经计学中,主要是针对变量的参数真值是否为零来进行显著性检验的。 1、假设检验 所谓假设检验,就是事先对总体参数或总体分布形式作出一个假设,然后利用样本信息来判断原假设是否合理,即判断样本信息与原假设是否有显著差异,从而决定是否接受或否定原假设。
当我们拒绝原假设(虚拟假设)时,我们说发现统计上是显著的。当我们不拒绝原假设时,我们说发现不是统计上显著的。
假设检验采用的逻辑推理方法是反证法。
先假定原假设正确,然后根据样本信息,观察由此假设而导致的结果是否合理,从而判断是否接受原假设。
判断结果合理与否,是基于“小概率事件不易发生”这一原理的 2、变量的显著性检验
检验步骤:
(1)对总体参数提出假设
H0: b1=0, H1:b1¹0
(2)以原假设H0构造t统计量,并由样本计算其值 ˆˆ11t1ˆˆ)t分布表,得临界值t a/2(n-2) Se()Se((3)给定显著性水平,查11(4) 比较,判断
若 |t|> t a/2(n-2),则拒绝H0 ,接受H1 ;
若 |t|£ t a/2(n-2),则拒绝H1 ,接受
H0 ;
t统计量的计算结果分别为:
给定显著性水平a=0.05,查t分布表得临界值t 0.05/2(8)=2.306
|t1|>2.306,说明家庭可支配收入在95%的置信度下显著,即是消费支出的主要解释变量;
|t2|<2.306,表明在95%的置信度下,无法拒绝截距项为零的假设。 3、变量的置信区间检验
要判断样本参数的估计值在多大程度上可以“近似”地替代总体参数的真值,往往需要通过构造一个以样本参数的估计值为中心的“区间”,来考察它以多大的可能性(概率)包含着真实的参数值。这种方法就是参数检验的置信区间估计。 在置信区间检验程序中,我们试图建立一个以某种概率包含有真实,但未知的β的一个范围区间;而在显著性检验步骤中,我们假设β为某值,然后看所计算的 值,是否位于该假设值周围某个合理的范围内。
ˆ
由于置信区间一定程度地给出了样本参数估计值与总体参数真值的“接近”程度,因此置信区间越小越好。 要缩小置信区间,需
(1)增大样本容量n,因为在同样的置信水平下,n越大,t分布表中的临界值越小;同时,增大样本容量,还可使样本参数估计量的标准差减小;
(2)提高模型的拟合优度,因为样本参数估计量的标准差与残差平方和呈正比,模型拟合优度越高,残差平方和应越小。 第六章 双变量线性回归模型的延伸 6.1 过原点的回归 过原点的回归
例1: 资本资产定价模型 (CAPM) 证券期望风险溢价=期望市场风险溢价
例
尺度和单位变化的影响
bi, SEE, RSS 的值会受到影响
6.3 回归模型的函数形式
对数线性模型 半对数模型
倒数模型
6.7函数形式的选择 模型背后的理论
求出回归子对回归元的斜率和弹性
系数应满足一些先验预期 有时不止一个模型能很好的拟合给定数据集 不应该过分强调R2。 6.8 相加性和相乘性误差
无论是何种设定的模型,只要是关于参数的线性模型,均可以运用OLS 进行估计,但对于残差而言,只能对便携式计的残差进行诊断其是否为正态,而不是直接对原始扰动进行检验。
第七章
多元回归分析估计问题 7.1.三变量模型
将双变量总体回归模型(PRF)推广为3变量, 即
b1为截距项,按模型的设定可机械地解释为当X1,X2为0时,Y的均值, 隐含的意义为没有包含在模型中的变量对Y的部分影响,系数b2和b3则称为偏回归系数。 误差项的假定
7.2 多元回归方程的解释
方程表示,在给定回归变量的固定值时,被解释变量的条件期望即总体回归函数。 b2代表了在X3不变的情况下, X2每变化一个单位时,Y的条件均值变化。 b3代表了在X2不变的情况下,X3每变化一个单位时,Y的条件均值变化。
7.6 例子:婴儿死亡率与人均GDP和女性识字率的关系
定义变量:Yi表示婴儿死亡率(5岁以下,千分数),X2i表示人均GDP, X3i表示女性识字率(%), 为研究这3 个变量之间的关系,设定模型为 Yi =b1+ b2X2i+ b3X3i+ui 人均GDP,应有b2<0, b3<0.
估计结果 Yi =263.64-0.0056X2i-2.232X3i 7.7 . 设定误差初探 所谓设定误差,是根据经济学理论,对某个变量(应变量)的行为(或某种理论)应使用多个(如2个)变量予以解释,但研究者却使用较少的变量(如一个)对此变量进行解释,显然反之亦产生设定错误,由此而产生设定错误,称为设定误差.
7.9. 偏相关系数 对于3变量回归模型
我们已定义Y与X2的相关r12称为简单相关,其中上标1表示应变量,下标表示对应的解释变量。
第八章 多元回归分析:推断问题 8.1再一次正态性假定
对于模型 Yi=b1+b1X2i+b3X3i+ui
对ui的分布作出假定,由于中心极限定理,ui假设为独立正态分布。在这一假定之下,偏回归系数的OLS估计量仍是BLUE,且等同于ML 估计
进一步,偏回归系数也为正态分布, 由此,可类似二变量模型构造显著性检验统计量(如统计量)进行假设检验。
8.3 多元回归中的假设检验 个别偏回归系数的假设检验 模型的总体显著性检验
检验某2或多个系数之间的关系,如是否相等,或其它线性或非线性关系,称为约束条件; 检验所估计的模型在时间或不同的横截面上是否具有稳定性 检验回归模型的函数形式
8.5
检验样本回归的总显著性
§小结: 多元线性回归模型的统计检验 一、拟合优度检验
二、方程的显著性检验(F检验) 三、变量的显著性检验(t检验) 四、参数的置信区间 一、拟合优度检验
1、可决系数与调整的可决系数 总离差平方和的分解
TSS(YiY)2ˆ)(YˆY))2((YiYiiˆ)22(YYˆ)(YˆY)(YˆY)2(YiYiiiii则
可决系数
R2ESSRSS1TSSTSS
该统计量越接近于1,模型的拟合优度越高。
问题:
在应用过程中发现,如果在模型中增加一个解释变量, R2往往增大(Why?) 这就给人一个错觉:要使得模型拟合得好,只要增加解释变量即可。
但是,现实情况往往是,由增加解释变量个数引起的R2的增大与拟合好坏无关,R2需调整。
调整的可决系数
在样本容量一定的情况下,增加解释变量必定使得自由度减少,所以调整的思路是:将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影
响:
R21RSS/(nk1)TSS/(n1)其中:n-k-1为残差平方和的自由度,n-1为总体平方和的自由度。
二、方程的显著性检验(F检验) 方程的显著性检验,旨在对模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立作出推断。
1、方程显著性的F检验
即检验模型Yi=b0+b1X1i+b2X2i+¼+bkXki+mi i=1,2, ¼,n中的参数bj是否显著不为0。 可提出如下原假设与备择假设: H0: b0=b1=b2= ¼ =bk=0 H1: bj不全为0
F检验的思想来自于总离差平方和的分解式:TSS=ESS+RSS
ˆi2是解释变量X的联合体对被解由于回归平方和ESSy释变量Y的线性作用的结果,考虑比值ˆi2 ESS/RSSye2i
如果这个比值较大,则X的联合体对Y的解释程度高,可认为总体存在线性关系,反之总体上可能不存在线性关系。
因此,可通过该比值的大小对总体线性关系进行推断。 根据数理统计学中的知识,在原假设H0成立的条件下,统计量
FESS/kRSS/(nk1)
服从自由度为(k , n-k-1)的F分布
给定显著性水平a,可得到临界值Fa(k,n-k-1),由样本求出统计量F的数值,通过 F> Fa(k,n-k-1) 或 F£Fa(k,n-k-1)
来拒绝或接受原假设H0,以判定原方程总体上的线性关系是否显著成立。 对于中国居民人均消费支出的例子: 一元模型:F=285.92 二元模型:F=2057.3
给定显著性水平a =0.05,查分布表,得到临界值: 一元例:Fa(1,21)=4.32 二元例: Fa(2,19)=3.52 显然有 F> Fa(k,n-k-1)
即二个模型的线性关系在95%的水平下显著成立。 2、关于拟合优度检验与方程显著性检验关系的讨论
三、变量的显著性检验(t检验)
方程的总体线性关系显著¹每个解释变量对被解释变量的影响都是显著的
因此,必须对每个解释变量进行显著性检验,以决定是否作为解释变量被保留在模型中。 这一检验是由对变量的 t 检验完成的。 1、t统计量 由于
ˆ)2(XX)1Cov(β
以cii表示矩阵(X’X)-1 主对角线上的第i个元素,于是参数估计量的方差为:
ˆ)2cVar(iii
ˆ2其中2为随机误差项的方差,在实际计算时,用它的估计量代替:
e2ink1eenk1
2、t检验
设计原假设与备择假设:
H0:bi=0 (i=1,2…k) H1:bi¹0
给定显著性水平a,可得到临界值ta/2(n-k-1),由样本求出统计量t的数值,通过 |t|> ta/2(n-k-1) 或 |t|£ta/2(n-k-1)
来拒绝或接受原假设H0,从而判定对应的解释变量是否应包括在模型中。 注意:一元线性回归中,t检验与F检验一致
一方面,t检验与F检验都是对相同的原假设H0:b1=0 进行检验; 另一方面,两个统计量之间有如下关系:
ˆ21F222ei(n2)ei(n2)ei(n2)xi22iˆyˆ2x21i2e2i1ˆ12(n2)xiˆei21t22n2xi
2在中国居民人均收入-消费支出二元模型例中,由应用软件计算出参数的t值:
给定显著性水平a=0.05,查得相应临界值: t0.025(19) =2.093。 可见,计算的所有t值都大于该临界值,所以拒绝原假设。即:
包括常数项在内的3个解释变量都在95%的水平下显著,都通过了变量显著性检验。 四、参数的置信区间
参数的置信区间用来考察:在一次抽样中所估计的参数值离参数的真实值有多“近”。
tˆiiSˆit03.306t13.630t22.651 在变量的显著性检验中已经知道:
ˆii~t(nk1)eeciink1
ts,ts)(ii2i2i容易推出:在(1-a)的置信水平下bi的置信区间是
其中,ta/2为显著性水平为a 、自由度为n-k-1的临界值。
在中国居民人均收入-消费支出二元模型例中,给定a=0.05,查表得临界值: 从回归计算中已得到:
ˆ120.700ˆ0.22131ˆ0.45152s36.51ˆ0s0.061ˆ1sˆ20.170
计算得参数的置信区间:
b0 :(44.284, 197.116) b1 : (0.0937, 0.3489 ) b2 :(0.0951, 0.8080) 如何才能缩小置信区间?
增大样本容量n,因为在同样的样本容量下,n越大,t分布表中的临界值越小,同时,增大样本容量,还可使样本参数估计量的标准差减小;
提高模型的拟合优度,因为样本参数估计量的标准差与残差平方和呈正比,模型优度越高,残差平方和应越小。
提高样本观测值的分散度,一般情况下,样本观测值越分散,(X’X)-1的分母的|X’X|的值越大,致使区间缩小。 §9、 受约束回归
在建立回归模型时,有时根据经济理论需对模型中变量的参数施加一定的约束条件。 如: 0阶齐次性 条件的消费需求函数 1阶齐次性 条件的C-D生产函数
模型施加约束条件后进行回归,称为受约束回归(restricted regression); 不加任何约束的回归称为无约束回归。
一、模型参数的线性约束
二、对回归模型增加或减少解释变量 三、参数的稳定性 *四、非线性约束 一、模型参数的线性约束
然而,对所考查的具体问题能否施加约束? 需进一步进行相应的检验。常用的检验有: F检验、x2检验与t检验, 主要介绍F检验
在同一样本下,记无约束样本回归模型为受约束样本回归模型为
ˆ*XβˆeXβˆ*eX(βˆ*βˆ)于是e*YXβ
受约束样本回归模型的残差平方和RSSR
ˆ*βˆ)XX(βˆ*βˆ)e*e*ee(β
*e*ee (*) 于是ee’e为无约束样本回归模型的残差平方和RSSU 受约束与无约束模型都有相同的TSS 由(*)式 RSSR ³ RSSU
从而 ESSR£ ESSU
这意味着,通常情况下,对模型施加约束条件会降低模型的解释能力。
但是,如果约束条件为真,则受约束回归模型与无约束回归模型具有相同的解释能力,RSSR 与 RSSU的差异变小。
可用RSSR - RSSU的大小来检验约束的真实性
根据数理统计学的知识:
于是:讨论:
如果约束条件无效, RSSR 与 RSSU的差异较大,计算的F值也较大。 于是,可用计算的F统计量的值与所给定的显著性水平下的临界值作比较,对约束条件的真实性进行检验。
注意,kU - kR恰为约束条件的个数。
例3.6.1 中国城镇居民对食品的人均消费需求实例中,对零阶齐次性检验: 取=5%,查得临界值F0.05(1,10)=4.96
判断:不能拒绝中国城镇居民对食品的人均消费需求函数具有零阶齐次特性这一假设。 无约束回归:RSSU=0.00324, kU=3 受约束回归:RSSR=0.00332, KR=2
样本容量n=14,约束条件个数kU - kR=3-2=1
F(0.0033150.003240)/10.2310.003240/10
取a=5%,查得临界值F0.05(1,10)=4.96
判断:不能拒绝中国城镇居民对食品的人均消费需求函数具有零阶齐次特性这一假设。 这里的F检验适合所有关于参数线性约束的检验。如: 多元回归中对方程总体线性性的F检验: H0: bj=0 j=1,2,…,k 这里:受约束回归模型为Y0*
F(RSSRRSSU)/(kUkR)(TSSESSRRSSU)/kRSSU/(nkU1)RSSU/(nk1)(TSSRSSU)/kESSU/kRSSU/(nk1)RSSU/(nk1)
这里,运用了ESSR =0。
二、对回归模型增加或减少解释变量 考虑如下两个回归模型
Y01X1kXk (*)
(**)
Y01X1kXkk1Xk1kqXkq(*)式可看成是(**)式的受约束回归: H0:
k1k2kq0
F(RSSRRSSU)/qRSSU/(n(kq1))(ESSUESSR)/q~F(q,n(kq1))RSSU/(n(kq1))
相应的F统计量为:
讨论:
如果约束条件为真,即额外的变量Xk+1, …, Xk+q对Y没有解释能力,则F统计量较小; 否则,约束条件为假,意味着额外的变量对Y有较强的解释能力,则F统计量较大。 因此,可通过F的计算值与临界值的比较,来判断额外变量是否应包括在模型中。
22(RURR)/qF2(1RU)/(n(kq1)) F统计量的另一个等价式
三、参数的稳定性
1、邹氏参数稳定性检验
建立模型时往往希望模型的参数是稳定的,即所谓的结构不变,这将提高模型的预测与分析功能。如何检验?
合并两个时间序列为( 1,2,…,n1 ,n1+1,…,n1+n2 ),则可写出如下无约束回归模型
Y1X1Y200βμ1X2αμ2 (*)
如果a=b,表示没有发生结构化,因此可针对如下假设进行检验:
H0: a=b
Y1X1μ1YXβμ(*)式施加上述约束后变换为受约束回归模型222
因此,检验的F统计量为:
F(RSSRRSSU)/k~F[k,n1n22(k1)]RSSU/[n1n22(k1)]
RSSURSS1RSS2记RSS1与RSS2为在两时间段上分别回归后所得的残差平方和,容易验证,
F于是
[RSSR(RSS1RSS2)]/k~F[k,n1n22(k1)](RSS1RSS2)/[n1n22(k1)]
参数稳定性的检验步骤:
(1)分别以两连续时间序列作为两个样本进行回归,得到相应的残差平方: RSS1与RSS2 (2)将两序列并为一个大样本后进行回归,得到大样本下的残差平方和RSSR (3)计算F统计量的值,与临界值比较:
若F值大于临界值,则拒绝原假设,认为发生了结构变化,参数是非稳定的。 该检验也被称为邹氏参数稳定性检验。 2、邹氏预测检验
上述参数稳定性检验要求n2>k。
如果出现n2 如果预测误差较大,则说明参数发生了变化,否则说明参数是稳定的。 Y1X1βμ1分别以b、a 表示第一与第二时间段的参数,则Y2X2αμ2X2βX2(αβ)μ2X2βγμ2 (*) 其中,γX2(αβ) 如果g =0,则 a = b,表明参数在估计期与预测期相同 Y1X1YX (*)的矩阵式:220βμ1In2γμ2(**) 可见,用前n1个样本估计可得前k个参数b的估计,而g不外是用后n2个样本测算的预测 误差X2(a - b) 如果参数没有发生变化,则g=0,矩阵式简化为 Y1X1μ1YXβμ 222 (***) Y1X1YX22(***)式与(**)式 0βμ1γμIn22 分别可看成受约束与无约束回归模型,于是有如下F检验: F(RSSRRSSU)/(kUkR)(RSSRRSS1)/n2RSSU/(nkU1)RSS1/(n1k1)这里:KU - KR=n2 RSSU=RSS1 邹氏预测检验步骤: 第一步,在两时间段的合成大样本下做OLS回归,得受约束模型的残差平方和RSSR ; 第二步,对前一时间段的n1个子样做OLS回归,得残差平方和RSS1 ; 第三步,计算检验的F统计量,做出判断: 给定显著性水平a,查F分布表,得临界值Fa(n2, n1-k-1) 如果 F>F(n2, n1-k-1) ,则拒绝原假设,认为预测期发生了结构变化。 8.8 检验模型的参数稳定性 邹至庄参数稳定性检验 建立模型时往往希望模型的参数是稳定的,即所谓的结构不变,这将提高模型的预测与分析 Y01X1kXk2功能。如何检验? 假设需要建立的模型为 在两个连续的时间序列(1,2,…,n1)与(n1+1,…,n1+n2)中,相应的模型分别为: Y01X1kXk 合并两个时间序列为( 1,2,…,n1 ,n1+1,…,n1+n2 ),则可写出如下无约束回归模型 Y1X1Y200βμ1X2αμ2Y01X1kXk1 (*) 如果a=b,表示没有发生结构变化,因此可针对如下假设进行检验: H0: a=b (*)式施加上述约束后变换为受约束回归模型 Y1X1μ1YXβμ 222 (**) F因此,检验的F统计量为: (RSSRRSSU)/k~F[k,n1n22(k1)]RSSU/[n1n22(k1)] RSSURSS1RSS2记RSS1与RSS2为在两时间段上分别回归后所得的残差平方和,容易验证, F于是 [RSSR(RSS1RSS2)]/k~F[k,n1n22(k1)](RSS1RSS2)/[n1n22(k1)] 参数稳定性的检验步骤: (1)分别以两连续时间序列作为两个样本进行回归,得到相应的残差平方: RSS1与RSS2 (2)将两序列并为一个大样本后进行回归,得到大样本下的残差平方和RSSR (3)计算F统计量的值,与临界值比较: 若F值大于临界值,则拒绝原假设,认为发生了结构变化,参数是非稳定的。 该检验也被称为邹至庄参数稳定性检验。 因篇幅问题不能全部显示,请点此查看更多更全内容