您的当前位置:首页正文

应用回归分析第7章课后习题参考复习资料

2022-11-02 来源:星星旅游
应用回归分析第7章课后习题参考复习资料

第7章 岭回归 思考与练习参考答案

7.1 岭回归估计是在什么情况下提出的?

答:当自变量间存在复共线性时,|X’X|≈0,回归系数估计的方差就很大, 估计值就很不稳定,为解决多重共线性,并使回归得到合理的结果,70年代提出了岭回归( ,简记为)。

7.2岭回归的定义与统计思想是什么?

答:岭回归法就是以引入偏误为代价减小参数估计量的方差的一种回归方法,其统计思想是对于(X’X)-1为奇异时,给X’X加上一个正常数矩阵D, 那么X’接近奇异的程度就会比X′X接近奇异的程度小得多,从而完成回归。但是这样的回归必定丢失了信息,不满足。但这样的代价有时是值得的,因为这样可以获得与专业知识相一致的结果。

7.3 选择岭参数k有哪几种方法?

答:最优是依赖于未知参数和是:

岭迹法:选择的点能使各岭估计基本稳定,岭估计

符号合理,回归系数没有不合乎经济意义的绝对值,且残差平方和增大不太多; 方差扩大因子法:

,其对

的,几种常见的选择方法

1 / 26

应用回归分析第7章课后习题参考复习资料

角线元

是岭估计的方差扩大因子。要让

残差平方和:满足

成立的最大的值。

7.4 用岭回归方法选择自变量应遵循哪些基本原则? 答:岭回归选择变量通常的原则是:

1.

在岭回归的计算中,我们通常假定涉与矩阵已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小。我们可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量;

2.

当k值较小时,标准化岭回归系数的绝对值并不很小,但是不稳定,随着k的增加迅速趋近于零。像这样岭回归系数不稳定、震动趋于零的自变量,我们也可以予以剔除;

3.

去掉标准化岭回归系数很不稳定的自变量。如果有若干个岭回归系数不稳定,究竟去掉几个,去掉那几个,要根据去掉某个变量后重新进行岭回归分析的效果来确定。

7.5 对第5章习题9的数据,逐步回归的结果只保留了三个变量x1,x2,x5,用y对这三个自变量作岭回归分析?

答: 附5.9 在研究国家财政收入时,我们把财政收入按收入形式分为:各项税收收入、企业收入、债务收入、国家能源交通重点建设收入、基本建设贷款归还收入、国家预算调节基金收入、

2 / 26

应用回归分析第7章课后习题参考复习资料

其他收入等。为了建立国家财政收入回归模型,我们以财政收入

y(亿元)为因变量,自变量如下:x1为农业增加值(亿元),x2为工业增加值(亿元),x3为建筑业增加值(亿元),x4为人

口数(万人),x5为社会消费总额(亿元),x6为受灾面积(万公顷)。据《中国统计年鉴》获得1978—1998年共21个年份的统计数据,见表5.4(P167)。 解:(1)逐步回归法

回归方程为:

865.929—0.601x1-0.361x2+0.639x5

但是回归系数的解释不合理。

从经济意义上讲,x1(农业增加值)、x2(工业增加值)的增加应该对y(财政收入)有正方向的影响,然而回归方程中两个自变量的系数均为负值,明显与实际的经济意义不相符。同时,三个自变量的值均远大于10,说明回归方程仍然存在较强的多重共线性,逐步回归的方法并没有消除自变量之间的多重共线性。 (2)岭回归法:

3 / 26

应用回归分析第7章课后习题参考复习资料

依题意,对逐步回归法所保留的三个自变量做岭回归分析。 程序为: 'C:\\ \\\\ '. x1 x2 x5 0.010.01. 岭迹图如下: RIDGE TRACE4.0000003.0000002.0000001.0000000.0000000.000000.200000.400000.600000.800001.000001.20000K计算结果为: 4 / 26

x1Kx2Kx5Kx1Kx2Kx5K -1.000000-2.000000应用回归分析第7章课后习题参考复习资料

可以看到,变量x1、x2迅速由负变正,x5迅速减小,在0.01-0.1之间各回归系数的岭估计基本稳定,重新做岭回归。岭迹图如下:

先取0.08: 语法命令如下: 'C:\\ \\\\ '. x1 x2 x5 0.08.

运行结果如下:

5 / 26

应用回归分析第7章课后习题参考复习资料

得到回归方程为:

再取0.01: 语法命令如下: 'C:\\ \\\\ '. x1 x2 x5 0.01.

运行结果:

****** k = 0.01 ****** R .9931857 .9864179 .9840210

329.6916494

6 / 26

应用回归分析第7章课后习题参考复习资料

3.1 44733947

17.000 1847841.9 108696.58 F F

411.5487845 .0000000

B (B) (B) x1 .0556780 .0615651 .0981355 .9043751

x2 .0796395 .0218437 .3291293 3.6458814

x5 .1014400 .0108941 .5621088 9.3114792

753.3058478 121.7381256 .0000000 6.1879205

回归方程为: 753.3058—0.05568x1-0.0796x2+0.1014x5

从上表可看出,方程通过F检验,R检验,经查表,所有自变量均通过t检验,说明回归方程通过检验。

从经济意义上讲,x1(农业增加值)、x2(工业增加值)x5(社会消费总额)的增加应该对y(财政收入)有正方向的影响,岭

7 / 26

应用回归分析第7章课后习题参考复习资料

回归方程中三个自变量的系数均为正值,与实际的经济意义相符。比逐步回归法得到的方程有合理解释。 (3)主成分回归

对原所有自变量做主成分回归,结果如下:

由于第一主成分的贡献率已达到85%以上,故只选取第一主成分,记作Z1: Z1=

(0.991x1+0.985x2+0.983x3+0.929x4+0.193x5+0.610x6)/5.1331/2,

作Y与Z1的最小二乘估计,输出结果如下:

8 / 26

应用回归分析第7章课后习题参考复习资料

根据上表得到y与第一主成分的线性回归方程为: =3400.443+1149.094Z1,

将主成分回代为原自变量得最终方程为:

=0.1093 * x1+0.0463 * x2+0.2912 * x3+0.0512 * x4+0.0347 * x5+0.0444 * x6-6313.397 各自变量的解释意义基本合理。

7.6 对习题3.12的问题,分别用普通最小二乘法和岭回归建立对第二产业增加值x2和第三产业增加值x3的二元线性回归,解释所得到的回归系数。 解:(1)普通最小二乘法:

根据上表得到y与x2,x3的线性回归方程为:

=4352.859+1.438x2+0.679x3

上式中的回归系数得不到合理的解释.

9 / 26

的数值应该大于1,实

应用回归分析第7章课后习题参考复习资料

际上,x3的年增长幅度大于x1和x2的年增长幅度,因此合理的的数值应大于1。这个问题产生的原因仍然是存在共线性, 所以采用岭回归来改进这个问题。

(2)岭回归法:

程序为: 'C:\\ \\\\ '. x2 x3 0.00.50.01.

根据岭迹图(如下图)可知,和很不稳定,但其和

大体上稳定,说明x2和x3存在多重共线性。取0.1,输出结果为:

R .998145, .996294 .995677, 2364.837767

2.000 1.80010 9.02009 12.000 67109492 5592457.7 F F

1613.140715 .000000

B (B) (B)

10 / 26

应用回归分析第7章课后习题参考复习资料

x2 .907990 .021842 .489067 41.571133

x3 1.393800 .035366 .463649 39.410560

6552.305986 1278.903452 .000000 5.123378

RIDGE TRACE0.800000x2Kx3K0.7000000.6000000.5000000.4000000.3000000.2000000.000000.100000.200000.300000.400000.500000.60000K得岭参数0.1时,岭回归方程为 = 6552.306+0.908 x2+1.3938 x3, 得岭参数0.01时,岭回归方程为 = 3980.2+1.091 x2+1.227 x3, 岭回归系数=1.227与前面的分析是吻合的,其解释是当

11 / 26

应用回归分析第7章课后习题参考复习资料

第二产业增加值x2保持不变时,第三产业增加值 x3每增加1亿元增加1.227亿元,这个解释是合理的。

12 / 26

应用回归分析第7章课后习题参考复习资料

7.7一家大型商业银行有多家分行,近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高。为弄清楚不良贷款形成的原因,希望利用银行业务的有关数据做定量分析,以便找出控制不良贷款的方法。表7.5(P206)是该银行所属25家分行2002年的有关业务数据。

(1)计算y与其余4个变量的简单相关系数。

(2)建立不良贷款y对4个自变量的线性回归方程,所得的回归系数是否合理?

(3)分析回归模型的共线性。

(4)采用后退法和逐步回归法选择变量,所得的回归系数是否合理?是否还存在共线性?

(5)建立不良贷款y对4个变量的岭回归。 (6)对(4)剔除变量后的回归方程再做岭回归。

(7)某研究人员希望做y对各项贷款余额、本年累计应收贷款、贷款项目个数这3个自变量的回归,你认为这样做可行吗?如果可行应怎么做?

13 / 26

应用回归分析第7章课后习题参考复习资料

解:首先对数据标准化。

(1)计算与其余4个变量的简单相关系数。 计算y与各自变量之间的简单相关系数,输出结果为:

14 / 26

应用回归分析第7章课后习题参考复习资料

由结果得到,Y与四个自变量的相关系数分别为:0.844, 0.732, 0.7, 0.519,且都通过了显著性检验,说明与其余4个变量是显著线性相关的。同时也可以看出变量之间也存在一定的线性相关性。

(2)建立不良贷款对4个自变量的线性回归方程,所得的回归系数是否合理?

由输出(如上表)可知回归方程为:

15 / 26

应用回归分析第7章课后习题参考复习资料

=0.04x1+0.148x2+0.015x3-0.029x4-1.022

从上表可看出,方程的自变量X3、X4、X5未通过t检验,说明回归方程不显著,而且由实际意义出发,x4的系数不能是负的。所以所得的回归系数不合理。

16 / 26

应用回归分析第7章课后习题参考复习资料

(3)分析回归模型的共线性。

解:由上表可知,所有自变量对应的全部小于10,所以自变量之间不存在共线性。但进行特征根检验见下表:

由这个表可以看出来,第5行中x1、x3的系数分别为0.87、0.63,可以说明这两个变量之间有共线性。

(4)采用后退法和逐步回归法选择变量,所得的回归系数是否合理?是否还存在共线性? 解:

采用后退法(见下表),所得回归方程为=0.041x1+0.149x2-0.029x4-0.972

17 / 26

应用回归分析第7章课后习题参考复习资料

采用逐步回归法(见下表),所得回归方程为=0.05x1-0.032x4-0.443

所得X4的系数不合理(为负),说明存在共线性

(5)建立不良贷款y对4个变量的岭回归。 对y与全部变量做岭回归。 K

K X1 X2 X3 X4

.00000 .79760 .891313 .259817 .034471 -.324924

.05000 .79088 .713636 .286611 .096624 -.233765

.10000 .78005 .609886 .295901 .126776 -.174056

.15000 .76940 .541193 .297596 .143378 -.131389

18 / 26

应用回归分析第7章课后习题参考复习资料

.20000 .75958 .491935 .295607 .153193 -.099233

.25000 .75062 .454603 .291740 .159210 -.074110

.30000 .74237 .425131 .286912 .162925 -.053962

.35000 .73472 60 -.037482

.40000 .72755 01 -.023792

.45000 .72077 49 -.012279

.50000 .71433 01 -.002497

.55000 .70816 92 .005882

.60000 .70223 13 .013112

.65000 .69649 31 .019387

.70000 .69093 97 .024860

19 / 26

.401123 .281619 .1651 .381077 .276141 .1664 .364000 .270641 .1669 .349209 .265211 .1670 .336222 .259906 .1666 .324683 .254757 .1661 .314330 .249777 .1653 .304959 .244973 .1643应用回归分析第7章课后习题参考复习资料

.75000 .68552 .296414 .240345 .163346 .029654

.80000 .68024 .288571 .235891 .162207 .033870

.85000 .67508 .281331 .231605 .161000 .037587

.90000 .67003 .274614 .227480 43 .040874

.95000 .66508 .268353 .223510 48 .043787

1.0000 .66022 .262494 .219687 27 .046373

20 / 26

.1597 .1584 .1571

应用回归分析第7章课后习题参考复习资料

由软件输出的岭迹图可以看出,变量x4的岭回归系数从负值变为正值。其他的变量都很稳定。说明x4变量与其他变量存在多重共线性,所以剔除变量x4

再用y与剩下的变量作岭回归。所得结果如下: K

K

.00000 .75964 -.065536

.02000 .75899 -.024703

.04000 .75755 75

.06000 .75574 43

.08000 .75377 55

.10000 .75175 86

.12000 .74972 51

.14000 .74771 X1 .698331 .647736 .607949 .575733 .549026 .526452 .507060 .490172 21 / 26

X2 .295891 .300306 .302710 .303774 .303916 .303409 .302439 .301133 X3 .0068 .0319 .0522 .0689 .0829 .0947

应用回归分析第7章课后习题参考复习资料

36

.16000 .74571 .475288 .299581 .104772

.18000 .74375 .462036 .297852 .113383

.20000 .74181 .450130 .295992 .120819

剔除x4之后岭回归系数变化幅度减小很多,并且有下面的图可以看出k值,基本稳定。

RIDGE TRACEx10.600000Kx2K0.400000x3K0.2000000.0000000.000000.050000.100000.150000.20000K 参照复决定系数,当0.4时,=0. 75755仍然很大,所以

可以给定0.4,重新作岭回归。 :

22 / 26

应用回归分析第7章课后习题参考复习资料

****** k = 0.4 ***** R .850373821 .723135635 .683583583

2.030268037

3.000 226.089 75.363 21.000 86.562 4.122 F F

18.28313822 .00000456

B (B) (B) x1 .016739073 .003359156 .372627316 4.983118685

x2 .156806656 .047550034 .275213878 3.297719120

x3 .067110931 .032703990 .159221005 2.052071673

-.819486727 .754456246 .000000000 -1.086195166

故作岭回归后的方程为

0.819486727+0.016739073x1+0.156806656x2+0.0671

23 / 26

应用回归分析第7章课后习题参考复习资料

10931x3

(6) 对(4)剔除变量后的回归方程再做岭回归。 取0.4,作与x1、x4的岭回归 :

****** k = 0.4 ****** R .802353780 .643771588 .611387187

2.249999551

2.000 201.275 100.638 22.000 111.375 5.062 F F

19.87906417 .00001172

B (B) (B) x1 .025805860 .003933689 .574462395 6.560218798

x4 .004531316 .007867533 .050434658 .575951348

.357087614 .741566536 .000000000 .481531456

24 / 26

应用回归分析第7章课后习题参考复习资料

可得岭回归方程为

0.357087614+0 .025805860x1+0.004531316x4 从实际意义来看,各个系数都能有合理解释。

(7)某研究人员希望做,你认为这样做可行吗?如果可行应怎么做?

y对各项贷款余额、本年累计应收贷款、贷款项目个数这3个自变量的回归方程见(5)。方程中系数均能合理解释。由(B)这个近似t值可以看出变量都是比较显著的。 所以作y对x1、x2、x3的岭回归是可行的。

25 / 26

应用回归分析第7章课后习题参考复习资料

主成分回归法:见做主成分分析下表,取前两个主成分,记为z12,

其中:z1=(0.95x1+0.767x2+0.916x3+0.862x4)/Z2=(-0.029x1+0.627x2-0.143x3-0.373x4 )/建立y与Z12的回归方程

26 / 26

因篇幅问题不能全部显示,请点此查看更多更全内容