您的当前位置:首页正文

多元统计分析方法(兰州商学院,傅德印)第八章 典型相关分析(f)

2022-04-21 来源:星星旅游
第八章 典型相关分析

在对经济问题的研究和管理研究中,不仅经常需要考察两个变量之间的相关程度,而且还经常需要考察多个变量与多个变量之间即两组变量之间的相关性。典型相关分析就是测度两组变量之间相关程度的一种多元统计方法。

第一节 典型相关的基本原理

(一)典型相关分析的基本思想 典型相关分析方法(canonical correlation analysis)最早源于荷泰林(H,Hotelling)于1936年在《生物统计》期刊上发表的一篇论文《两组变式之间的关系》。他所提出的方法经过多年的应用及发展,逐渐达到完善,在70年代臻于成熟。由于典型相关分析涉及较大量的矩阵计算,其方法的应用在早期曾受到相当的限制。但随着当代计算机技术及其软件的迅速发展,弥补了应用典型相关分析中的困难,因此它的应用开始走向普及化。

典型相关分析是研究两组变量之间相关关系的一种统计分析方法。为了研究两组变量

X1,X2,…,Xp和Y1 , Y2 ,…,Yq之间的相关关系,采用类似于主成分分析的方

法,在两组变量中,分别选取若干有代表性的变量组成有代表性的综合指标,通过研究这两组综合指标之间的相关关系,来代替这两组变量间的相关关系,这些综合指标称为典型变量。 (二)典型相关分析的数学描述

设有两随机变量组X不妨设pq。

对于X,Y,不妨设第一组变量的均值和协方差为矩阵为 EX=1 CovX= 第二组变量的均值和协方差为矩阵为

X1,X2,…,Xp 和YY1 , Y2 ,…,Yq,

11

EY=2 CovY=

22

第一组与第二组变量的协方差为矩阵为

CovX,Y=12= 21'

于是,对于矩阵 Z= X 有 (9—1—1) YEX1均值向量 =EZ=E= (9—1—2)

EY2协方差矩阵

pqpq=EZZ

EXX11 =EYX2111pp =21qpEX1Y2 EY2Y2pq12qq22 要研究两组变量X1,X2,…,Xp和Y1 , Y2 ,…,Yq之间的相关关系,首先分别作两组变量的线性组合,即

Ua1X1a2X2apXp=aX

Vb1Y1b2Y2bqYq=bY

aa1,a2,,ap,bb1,b2,,bq分别为任意非零常系数向量,则可得,

VarU=aCovXa= a11a VarV=bCovYb= b22b

CovU,V=aCovX,Yb= a12b

则称U与V为典型变量,它们之间的相关系数称为典型相关系,即

=CorrU,V=

a12ba11ab22b

典型相关分析研究的问题是,如何选取典型变量的最优线性组合。选取原则是:在所有 线性组合U和V中,选取典型相关系数为最大的U和V,即选取a(1)(1)和b使得U1=aX(2)(1)(1)与V1=bY之间的相关系数达到最大(在所有的U和V中),然后选取a和b(2)使得

U2=a(2)X与V2=b(2)Y的相关系数在与U1和V1不相关的组合U和V中最大,继续下去,Vp为止。直到所有分别与U1,U2Up1和V1,V2Vp1,都不相关的线性组合Up,此时p等于诸变量X与Y之间的协方差矩阵的秩。

典型变量U1和V1,U2和V2……Up和Vp是根据它们的相关系数由大列小逐对提取,直到两组变量之间的相关性被分解完毕为止。

(三)典型相关分析的应用

典型相关分析的用途很广。在实际分析问题中,当我们面临两组多变量数据,并希望研究两组变量之间的关系时,就要用到典型相关分析。

例如,为了研究扩张性财政政策实施以后对宏观经济发展的影响,就需要考察有关财政政策的一系列指标如财政支出总额的增长率、财政赤字增长率、国债发行额的增长率、税率降低率等与经济发展的一系列指标,如国内生产总值增长率、就业增长率、物价上涨率等两组变量之间的相关程度。又如,为了研究宏观经济走势与股票市场走势之间的关系,就需要考察各种宏观经济指标如经济增长率、失业率、物价指数、进出口增长率等与各种反映股票市场状况的指标如股票价格指数、股票市场融资金额等两组变量之间的相关关系。再如,工厂要考察所使用的原料的质量对所生产的产品的质量的影响,就需要对所生产产品的各种质量指标与所使用的原料的各种质量指标之间的相关关系进行测度。

又如,在分析评估某种经济投入与产出系统时,研究投入和产出情况之间的联系时,投入情况面可以从人力、物力等多个方面反映,产出情况也可以从产值、利税等方面反映;

再如在分析影响居民消费因素时,我们可以将劳动者报酬、家庭经营收入、转移性收入等变量构成反映居民收入的变量组,而将食品支出、医疗保健支出、交通和通讯支出等变量构成反映居民支出情况的变量组,然后通过研究两变量组之间关系来分析影响居民消费因素情况。

第二节 典型变量与典型相关系数的求法

(一)总体典型变量与典型相关系数

由上一节的数学描述我们知道,典型相关分析希望寻求a和b使得达到最大,但是由于随机变量乘以常数时不改变它们的相关系数,为了防止不必要的结果重复出现,最好的限制是令VarU=1和VarV=1。于是,我们的问题就转化为,在约束条件为VarU=1和VarV=1下,寻找非零常数向量a和b使得相关系数CorrU,V=a12b达到最

大。

根据数学分析中条件极值的求法,引入拉格朗日(Lagrange)乘数,问题则转化为,求

a,ba12ba211a1b211其中,是拉格b1的极大值点,

朗日乘数。由极值的必要条件,需求对a和b的偏导数,并令其等于零,得到的极值条件为:

b11a0a12 21a22b0b将分别以a和b左乘上式,得

a12ba11a

b21ab22b

又因为 (a12b)b12a, b=,

故=a12说明,的值就是线性组合U和V之间的相关系数。因此上述方程可写成:

 为求解方程,先以

2111a12b0

12a22b0

122111左乘以上述第二式,并将第一式代入,得

12a0 12222111同理,将

21左乘以上述第一式,并将第二式代入,得

2111112222,得

b0

将上边两式分别左乘以

111和

122122111121222121212a0

令

111111122b0

A12221

B 则得

12221111122Aaa 

2Bbb说明,既是矩阵A,同时也是矩阵B的特征值,同时也表明,相应的a与b分别是特征值的特征向量。

而且,根据证明,矩阵A和B的特征值还具有以下的性质:

(1)矩阵A和B有相同的非零特征值,且相等的非零特征值的数目就等于p。 (2)矩阵A和B的特征值非负。

(3)矩阵A和B的全部特征值均在0和1 之间。

根据前边,我们知道,=a2212b=,所以为其典型变量U和V之间的简单

相关系数。

又由于要求其相关系数达到最大(按习惯考虑为正相关),所以取矩阵A或B的最大特征值1的平方根1,作为相关系致,同时由特征值1所对应的两个特征向量a22(1)和b有:

(1)U1=a(1)X和V1=b(1)Y

这就是所要选取的第一对线性组合,也即第一对典型变量,它们在所有的线性组合U和V中具有有最大的相关系数1。

若求出矩阵A或B的p个非零特征根(p是矩阵为

22122p0

12的秩,这里实际上pq),设

相应的特征向量是与a,a12ak和b1,b2bk,则可得k对线性组合:

1U1a11X1a2X2ap1Xp222U2a1X1a2X2apXp kkUpa1kX1a2Xa2pXp和

11V1b11Y1b2Y2bqYq222V2b1Y1b2Y2bqYq kkVpb1kY1b2YbYq2q它们的相关系数为12p。

称12p为典型相关系数,称U1、V1,U2、V2……Up、Vp为其典型变量。

将a(i)Vi的表达式中求得的值,和b的值和原始数据Xi、Yi分别代入Ui、称为第i个

(i)典型变量的得分。如同因子得分,典型变量的得分可以构成得分平面等值图,借以进行分类

和统计分析。

另外,这里,我们也直接给出典型变量所具有的性质:

性质1: 由X1X2 …XP所组成的典型相关变量U1、U2…Up互不相关,同样由

Y1Y2 … Yq,所组成的典型相关变量V1、V2…Vp也互不相关,并且它们的方差均等于1。

用数学表达式为

VarUk=VarVk=1

CovUk,Ul=CorrUk,Ul=1 kl CovUk,Ul=CorrUk,Ul=0 kl

其中,k,l1,2,……,p

CovVk,Vl=CorrVk,Vl=1 kl CovVk,Vl=CorrVk,Vl=0 kl

k,l1,2,……,q

性质2: X与Y的同一对典型变量Ui和Vi之间的相关系数为i,而不同对的典型变量Ui和Vj(ij)之间不相关,也就是协方差为0,即

i0,Ui,Vj=CorrUi,Uj=Cov 00iji1,2pijip

所以,严格地说,一个典型相关系数描述的只是一对典型变量之间的相关,而不是两个变量组之间的相关。而各对典型变量之间构成的多维典型相关共同揭示了两个观测变量组之间的相关形式。

(二)原始变量与典型变量之间的相关系数 设典型变量为U和V,原始变量与典型变量之间的相关系数为GU,GV,则有,

GU=CovX,U= CovX,aX=E(XU)E(XXa)E(XX)a=11a,

类似的有,

GV=CovY,V=CovY,bX=

22b ,

这里,GU,GV是衡量原始变量与典型变量相关性的尺度,例如Xi与第一典型变量U的相关系数GUi最大,则表明变量Xi与第一典型变量U的关系密切,反之则不甚密切。对于GU,GV,有的书也称为典型负载系数(Canonical loading)或结构相关系数(Structure correlation)。

对应的,如果某一组中典型变量与另外一组的原始变量之间的两两简单相关系数,则又称为交叉负载系数(Cross-loadings)。则交叉负载系数有,

CovX,V= CovX,bY=12b CovY,U= CovY,aX=21a

典型相关分析中,常常把典型变量对本组原始变量总方差解释比例的分析以及典型变量对另外一组原始变量总方差交叉解释比例的分析统称冗余分析(Redundancy Analysis)。这里“冗余”,有冗长、多余、重复、过剩的意思。在统计上,如果一个变量中的部分方差可以由另外一个变量的方差来解释或预测,就说这个方差部分与另一变量方差相冗余,相当于说变量的这个方差部分可以由另一个变量的一部分方差所解释或预测。典型相关分析中的冗余分析是对分组原始变量总变化的方差分析。

类似于因子分析,典型相关系数可以看作为该典型变量组从原始变量中提取的方差,这

GUp;第二组典型变量V提取的方差百分样第一组典型变量U提取的方差百分数为 GUGVq。 数为GVGUip便是第一组典型变量提取的方差被第二组典型变量重复的百分数,GU 因此有,

它称为在第一组冗余而在第二组存在的冗余测度,记为,即Rdu

iRduiGUiGU p类似地,在第二组冗余而在第一组中存在的冗余测度为,

RdviGViGV

q可见,冗余的本质是共享方差百分比。

(三)样本典型相关变量和样本典型相关系数

以上讨论都是基于总体情况下的讨论,然而在实际应用中,总体的均值向量和总体协方差矩阵往往都是未知的,和其他多元统计分析方法的应用一样,这就需要从总体中随机抽取一个样本,根据样本资料对总体的均值向量和总体协方差矩阵进行估计,进而求出样本典型相关变量及其典型相关系数。

设X,每个变量的n个观察值的随机样本,可以构成npqY中pq个变量中,的矩阵, 设数据矩阵为

x11x21xn1样本协方差矩阵为

x12x2xn2x1px2pxnpy11y21yn1y12y22yn2y1qy2q

ynqS11S12S=,其中

SS21221n(XiX)(XiX) S11=n1i11n(YiY)(YiY) S22=n1i11n S12=(XiX)(YiY)S21n1i1ˆ。于是我们就根据证明,样本协方差矩阵S就是总体协方差矩阵的极大似然估计ˆ代替,也就是用S11S12S22S21代替可以用1

1

1111212221,用S22S21S11S1211

代替

1222111112ˆ2ˆ2ˆ20,ˆ,aˆ,求出特征值特征向量a12p12ˆkaˆ1,bˆ2bˆk,ˆ、ˆUˆ、ˆˆˆˆ为样本典型相关系数,ˆ和b称称U1V1,2V2……Up、12pˆ为样本其典型相关变量。 Vp12kˆ2ˆ2ˆ20,aˆˆˆ,aa而且,数理统计上还可以证明和12pˆ1,bˆ2bˆp分别是2220,a1,a2ak和b1,b2bp的极大似b12p然估计。

另外,在实际计算过程中,如果对原始数据进行了标准化变化,也可以从原始数据相关矩阵出发,求样本的典型相关系数和样本典型相关变量。

第三节 典型相关系数的检验

在进行两组变量X和Y典型相关分析之前,首先应检验两组变量是否相关,若两者不相关,即CovX,Y0,则作典型相关分析就没有任何实际意义。因此,在根据样本数据进行典型相关分析时,首先应该检验假设。典型相关系数显著性检验,主要采用的是巴特来特(Bartlett)关于大样本的检验。

如果两组变量X和Y之间互不相关,则协方差矩阵都变为零。为此,

H0:

H1:

212仅包含零,因而典型相关系数

120,即CovX,Y0

120

222ˆˆˆ0,这时作乘积: 对于矩阵A的p特征值,按照大小排列为12p 1=

1ˆi1p2i=1ˆ1ˆ1ˆ,

21222p其中i是A=

21222111112的特征根

对于当n充分大,H0成立时,统计量

1Q1= -n1pq1ln1

2近似服从pq个自由度的分布,若在给定的显著性水平下,Q122pq ,

则拒绝原假设H0,则至少可以认为第一对典型变量具有相关性,相关系数为1,第一个典型相关系数1为显著的。

接下来,为检验其余的典型相关系数的显著性,先将1剔出,再作乘积,

ˆ2 2=1ii2p作统计量为

1Q2= -n2pq1ln2

2它近似服从自由度为p1q1的分布,若在给定的显著性水平下,

2Q12p1q1,则拒绝原假设认为2显著,即第二对典型相关变量具有相关性。

如此进行下去,直至到第k个典型相关系数k检验为不显著时,即第k对典型变量不具有相关性时停止。

一般地,当检验第r个典型相关系数的显著性时,应用的检验统计量为:

1Qr= -nrpq1lnr

2 其中,

ˆ2 r=1iirpQr近似服从2分布,自由度为pr1qr1。

第四节 典型相关分析计算步骤

(一)根据分析目的建立原始矩阵

原始数据矩阵

x11x21 xn1

x12x2xn2x1px2pxnpy11y21yn1y12y22yn2y1qy2q

ynq(二)对原始数据进行标准化变化并计算相关系数矩阵

R11R = R21R12 R22为第一组变量其中R11,R22分别为第一组变量和第二组变量的相关系数阵,R12= R21和第二组变量的相关系数

(三)求典型相关系数和典型变量

计算矩阵AR11R12R22R21以及矩阵BR22R21R11R12的特征值和特征向量,分别得典型相关系数和典型变量。

(四)检验各典型相关系数的显著性

第五节 利用SPSS进行典型相关分析

第一步,录入原始数据,如下表:X1 X2 X3 X4 X5 分别代表多孩率、综合节育率、初中及以上受教育程度的人口比例、人均国民收入和城镇人口比例。

研究人口出生与教育程度、生活水平等的相关。

1111序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 X1 0.94 2.58 13.46 12.46 8.94 2.8 8.91 8.82 0.8 5.94 2.6 7.07 14.44 15.24 3.16 9.04 12.02 11.15 X2 89.89 92.32 90.71 90.04 90.46 90.17 91.43 90.78 91.47 90.31 92.42 87.97 88.71 89.43 91.21 88.76 87.28 89.13 X3 64.51 55.41 38.2 45.12 41.83 50.64 46.32 47.33 62.36 40.85 35.14 29.51 29.04 31.05 37.85 39.71 38.76 36.33 X4 3577 2981 1148 1124 1080 2011 1383 1628 4822 1696 1717 933 1313 943 1372 880 1248 976 X5 73.08 68.65 19.08 27.68 36.12 50.86 42.65 47.17 66.23 21.24 32.81 17.9 21.36 20.4 27.34 15.52 28.91 18.23 19 20 21 22 23 24 25 26 27 28 29 30

22.46 24.34 33.21 4.78 21.56 14.09 32.31 11.18 13.8 25.34 20.84 39.6 87.72 84.86 83.79 90.57 86 80.96 87.6 89.71 86.33 81.56 81.45 64.9 38.38 31.07 39.44 31.26 22.38 21.49 7.7 41.01 29.69 31.3 34.59 38.47 1845 798 1193 903 654 956 865 930 938 1100 1024 1374 36.77 15.1 24.05 20.25 18.93 14.72 12.59 21.49 22.04 27.35 25.72 31.91

第二步,调用CANCORR程序。

1、点击“Files→New→Syntax”打开如下对话框。

2、输入调用命令程序及定义典型相关分析变量组的命令。如图

输入时要注意“Canonical correlation.sps”程序所在的根目录,注意变量组的格式和空格。

第三步,执行程序。用光标选择这些命令,使其图黑,再点击运行键有典型相关分析结果。

,即可得到所

输出结果1

输出结果2

主要结果的解释:

第一组变量相关系数 Correlations for Set-1 X1 X2 X1 1.0000 -.7610 X2 -.7610 1.0000

第二组变量相关系数 Correlations for Set-2 X3 X4 X5 X3 1.0000 .7712 .8488 X4 .7712 1.0000 .8777

X5 .8488 .8777 1.0000

第一组与第二组变量之间的相关系数 Correlations Between Set-1 and Set-2 X3 X4 X5 X1 -.5418 -.4528 -.4534 X2 .2929 .2528 .2447

典型相关系数

Canonical Correlations 1 .578 2 .025

维度递减检验结果(降维检验)

Test that remaining correlations are zero: Wilk's Chi-SQ DF Sig. 1 .666 10.584 6.000 .102 2 .999 .017 2.000 .992

标准化典型系数—第一组

Standardized Canonical Coefficients for Set-1 1 2 X1 -1.319 .797 X2 -.486 1.463

粗系数—第一组(没有标准化的,作者注) Raw Canonical Coefficients for Set-1 1 2 X1 -.131 .079 X2 -.091 .275 _

标准化典型系数—第二组

Standardized Canonical Coefficients for Set-2 1 2 X3 .997 -.261 X4 .292 2.075 X5 -.274 -1.743

粗系数—第二组(没有标准化的,作者注) Raw Canonical Coefficients for Set-2 1 2 X3 .086 -.023 X4 .000 .002

X5 -.017 -.107

典型负载系数(结构相关系数:典型变量与原始变量之间的相关系数)第一组 Canonical Loadings for Set-1 1 2 X1 -.949 -.316 X2 .517 .856

交叉负载系数(某一组中的典型变量与另外一组的原始变量之间的相关系数)—第一组原始变量

Cross Loadings for Set-1 1 2 X1 -.548 -.008 X2 .299 .022

典型负载系数(结构相关系数:典型变量与原始变量之间的相关系数)第二组 Canonical Loadings for Set-2 1 2 X3 .990 -.140 X4 .821 .344 X5 .829 -.143

交叉负载系数(某一组中的典型变量与另外一组的原始变量之间的相关系数)—第二组原始变量

Cross Loadings for Set-2 1 2 X3 .572 -.004 X4 .474 .009 X5 .479 -.004

Redundancy Analysis:(冗余分析)

(第一组原始变量总方差中由本组变式代表的比例)

Proportion of Variance of Set-1 Explained by Its Own Can. Var. Prop Var CV1-1 .584 CV1-2 .416

(第一组原始变量总方差中由第二组的变式所解释的比例)

Proportion of Variance of Set-1 Explained by Opposite Can.Var. Prop Var CV2-1 .195 CV2-2 .000

(第二组原始变量总方差中由本组变式代表的比例)

Proportion of Variance of Set-2 Explained by Its Own Can. Var. Prop Var CV2-1 .780 CV2-2 .053

(第二组原始变量总方差中由第一组的变式所解释的比例)

Proportion of Variance of Set-2 Explained by Opposite Can. Var. Prop Var CV1-1 .261 CV1-2 .000

------ END MATRIX -----

另外,在数据表中还输出了以下结果: s1_cv001:第一组的第一个典型变量; s2_cv001:第二组的第一个典型变量; s1_cv002:第一组的第二个典型变量; s2_cv002:第二组的第二个典型变量;

因篇幅问题不能全部显示,请点此查看更多更全内容