在对经济问题的研究和管理研究中,不仅经常需要考察两个变量之间的相关程度,而且还经常需要考察多个变量与多个变量之间即两组变量之间的相关性。典型相关分析就是测度两组变量之间相关程度的一种多元统计方法。
第一节 典型相关的基本原理
(一)典型相关分析的基本思想 典型相关分析方法(canonical correlation analysis)最早源于荷泰林(H,Hotelling)于1936年在《生物统计》期刊上发表的一篇论文《两组变式之间的关系》。他所提出的方法经过多年的应用及发展,逐渐达到完善,在70年代臻于成熟。由于典型相关分析涉及较大量的矩阵计算,其方法的应用在早期曾受到相当的限制。但随着当代计算机技术及其软件的迅速发展,弥补了应用典型相关分析中的困难,因此它的应用开始走向普及化。
典型相关分析是研究两组变量之间相关关系的一种统计分析方法。为了研究两组变量
X1,X2,…,Xp和Y1 , Y2 ,…,Yq之间的相关关系,采用类似于主成分分析的方
法,在两组变量中,分别选取若干有代表性的变量组成有代表性的综合指标,通过研究这两组综合指标之间的相关关系,来代替这两组变量间的相关关系,这些综合指标称为典型变量。 (二)典型相关分析的数学描述
设有两随机变量组X不妨设pq。
对于X,Y,不妨设第一组变量的均值和协方差为矩阵为 EX=1 CovX= 第二组变量的均值和协方差为矩阵为
X1,X2,…,Xp 和YY1 , Y2 ,…,Yq,
11
EY=2 CovY=
22
第一组与第二组变量的协方差为矩阵为
CovX,Y=12= 21'
于是,对于矩阵 Z= X 有 (9—1—1) YEX1均值向量 =EZ=E= (9—1—2)
EY2协方差矩阵
pqpq=EZZ
EXX11 =EYX2111pp =21qpEX1Y2 EY2Y2pq12qq22 要研究两组变量X1,X2,…,Xp和Y1 , Y2 ,…,Yq之间的相关关系,首先分别作两组变量的线性组合,即
Ua1X1a2X2apXp=aX
Vb1Y1b2Y2bqYq=bY
aa1,a2,,ap,bb1,b2,,bq分别为任意非零常系数向量,则可得,
VarU=aCovXa= a11a VarV=bCovYb= b22b
CovU,V=aCovX,Yb= a12b
则称U与V为典型变量,它们之间的相关系数称为典型相关系,即
=CorrU,V=
a12ba11ab22b
典型相关分析研究的问题是,如何选取典型变量的最优线性组合。选取原则是:在所有 线性组合U和V中,选取典型相关系数为最大的U和V,即选取a(1)(1)和b使得U1=aX(2)(1)(1)与V1=bY之间的相关系数达到最大(在所有的U和V中),然后选取a和b(2)使得
U2=a(2)X与V2=b(2)Y的相关系数在与U1和V1不相关的组合U和V中最大,继续下去,Vp为止。直到所有分别与U1,U2Up1和V1,V2Vp1,都不相关的线性组合Up,此时p等于诸变量X与Y之间的协方差矩阵的秩。
典型变量U1和V1,U2和V2……Up和Vp是根据它们的相关系数由大列小逐对提取,直到两组变量之间的相关性被分解完毕为止。
(三)典型相关分析的应用
典型相关分析的用途很广。在实际分析问题中,当我们面临两组多变量数据,并希望研究两组变量之间的关系时,就要用到典型相关分析。
例如,为了研究扩张性财政政策实施以后对宏观经济发展的影响,就需要考察有关财政政策的一系列指标如财政支出总额的增长率、财政赤字增长率、国债发行额的增长率、税率降低率等与经济发展的一系列指标,如国内生产总值增长率、就业增长率、物价上涨率等两组变量之间的相关程度。又如,为了研究宏观经济走势与股票市场走势之间的关系,就需要考察各种宏观经济指标如经济增长率、失业率、物价指数、进出口增长率等与各种反映股票市场状况的指标如股票价格指数、股票市场融资金额等两组变量之间的相关关系。再如,工厂要考察所使用的原料的质量对所生产的产品的质量的影响,就需要对所生产产品的各种质量指标与所使用的原料的各种质量指标之间的相关关系进行测度。
又如,在分析评估某种经济投入与产出系统时,研究投入和产出情况之间的联系时,投入情况面可以从人力、物力等多个方面反映,产出情况也可以从产值、利税等方面反映;
再如在分析影响居民消费因素时,我们可以将劳动者报酬、家庭经营收入、转移性收入等变量构成反映居民收入的变量组,而将食品支出、医疗保健支出、交通和通讯支出等变量构成反映居民支出情况的变量组,然后通过研究两变量组之间关系来分析影响居民消费因素情况。
第二节 典型变量与典型相关系数的求法
(一)总体典型变量与典型相关系数
由上一节的数学描述我们知道,典型相关分析希望寻求a和b使得达到最大,但是由于随机变量乘以常数时不改变它们的相关系数,为了防止不必要的结果重复出现,最好的限制是令VarU=1和VarV=1。于是,我们的问题就转化为,在约束条件为VarU=1和VarV=1下,寻找非零常数向量a和b使得相关系数CorrU,V=a12b达到最
大。
根据数学分析中条件极值的求法,引入拉格朗日(Lagrange)乘数,问题则转化为,求
a,ba12ba211a1b211其中,是拉格b1的极大值点,
朗日乘数。由极值的必要条件,需求对a和b的偏导数,并令其等于零,得到的极值条件为:
b11a0a12 21a22b0b将分别以a和b左乘上式,得
a12ba11a
b21ab22b
又因为 (a12b)b12a, b=,
故=a12说明,的值就是线性组合U和V之间的相关系数。因此上述方程可写成:
为求解方程,先以
2111a12b0
12a22b0
122111左乘以上述第二式,并将第一式代入,得
12a0 12222111同理,将
21左乘以上述第一式,并将第二式代入,得
2111112222,得
b0
将上边两式分别左乘以
111和
122122111121222121212a0
令
111111122b0
A12221
B 则得
12221111122Aaa
2Bbb说明,既是矩阵A,同时也是矩阵B的特征值,同时也表明,相应的a与b分别是特征值的特征向量。
而且,根据证明,矩阵A和B的特征值还具有以下的性质:
(1)矩阵A和B有相同的非零特征值,且相等的非零特征值的数目就等于p。 (2)矩阵A和B的特征值非负。
(3)矩阵A和B的全部特征值均在0和1 之间。
根据前边,我们知道,=a2212b=,所以为其典型变量U和V之间的简单
相关系数。
又由于要求其相关系数达到最大(按习惯考虑为正相关),所以取矩阵A或B的最大特征值1的平方根1,作为相关系致,同时由特征值1所对应的两个特征向量a22(1)和b有:
(1)U1=a(1)X和V1=b(1)Y
这就是所要选取的第一对线性组合,也即第一对典型变量,它们在所有的线性组合U和V中具有有最大的相关系数1。
若求出矩阵A或B的p个非零特征根(p是矩阵为
22122p0
12的秩,这里实际上pq),设
相应的特征向量是与a,a12ak和b1,b2bk,则可得k对线性组合:
1U1a11X1a2X2ap1Xp222U2a1X1a2X2apXp kkUpa1kX1a2Xa2pXp和
11V1b11Y1b2Y2bqYq222V2b1Y1b2Y2bqYq kkVpb1kY1b2YbYq2q它们的相关系数为12p。
称12p为典型相关系数,称U1、V1,U2、V2……Up、Vp为其典型变量。
将a(i)Vi的表达式中求得的值,和b的值和原始数据Xi、Yi分别代入Ui、称为第i个
(i)典型变量的得分。如同因子得分,典型变量的得分可以构成得分平面等值图,借以进行分类
和统计分析。
另外,这里,我们也直接给出典型变量所具有的性质:
性质1: 由X1X2 …XP所组成的典型相关变量U1、U2…Up互不相关,同样由
Y1Y2 … Yq,所组成的典型相关变量V1、V2…Vp也互不相关,并且它们的方差均等于1。
用数学表达式为
VarUk=VarVk=1
CovUk,Ul=CorrUk,Ul=1 kl CovUk,Ul=CorrUk,Ul=0 kl
其中,k,l1,2,……,p
CovVk,Vl=CorrVk,Vl=1 kl CovVk,Vl=CorrVk,Vl=0 kl
k,l1,2,……,q
性质2: X与Y的同一对典型变量Ui和Vi之间的相关系数为i,而不同对的典型变量Ui和Vj(ij)之间不相关,也就是协方差为0,即
i0,Ui,Vj=CorrUi,Uj=Cov 00iji1,2pijip
所以,严格地说,一个典型相关系数描述的只是一对典型变量之间的相关,而不是两个变量组之间的相关。而各对典型变量之间构成的多维典型相关共同揭示了两个观测变量组之间的相关形式。
(二)原始变量与典型变量之间的相关系数 设典型变量为U和V,原始变量与典型变量之间的相关系数为GU,GV,则有,
GU=CovX,U= CovX,aX=E(XU)E(XXa)E(XX)a=11a,
类似的有,
GV=CovY,V=CovY,bX=
22b ,
这里,GU,GV是衡量原始变量与典型变量相关性的尺度,例如Xi与第一典型变量U的相关系数GUi最大,则表明变量Xi与第一典型变量U的关系密切,反之则不甚密切。对于GU,GV,有的书也称为典型负载系数(Canonical loading)或结构相关系数(Structure correlation)。
对应的,如果某一组中典型变量与另外一组的原始变量之间的两两简单相关系数,则又称为交叉负载系数(Cross-loadings)。则交叉负载系数有,
CovX,V= CovX,bY=12b CovY,U= CovY,aX=21a
典型相关分析中,常常把典型变量对本组原始变量总方差解释比例的分析以及典型变量对另外一组原始变量总方差交叉解释比例的分析统称冗余分析(Redundancy Analysis)。这里“冗余”,有冗长、多余、重复、过剩的意思。在统计上,如果一个变量中的部分方差可以由另外一个变量的方差来解释或预测,就说这个方差部分与另一变量方差相冗余,相当于说变量的这个方差部分可以由另一个变量的一部分方差所解释或预测。典型相关分析中的冗余分析是对分组原始变量总变化的方差分析。
类似于因子分析,典型相关系数可以看作为该典型变量组从原始变量中提取的方差,这
GUp;第二组典型变量V提取的方差百分样第一组典型变量U提取的方差百分数为 GUGVq。 数为GVGUip便是第一组典型变量提取的方差被第二组典型变量重复的百分数,GU 因此有,
它称为在第一组冗余而在第二组存在的冗余测度,记为,即Rdu
iRduiGUiGU p类似地,在第二组冗余而在第一组中存在的冗余测度为,
RdviGViGV
q可见,冗余的本质是共享方差百分比。
(三)样本典型相关变量和样本典型相关系数
以上讨论都是基于总体情况下的讨论,然而在实际应用中,总体的均值向量和总体协方差矩阵往往都是未知的,和其他多元统计分析方法的应用一样,这就需要从总体中随机抽取一个样本,根据样本资料对总体的均值向量和总体协方差矩阵进行估计,进而求出样本典型相关变量及其典型相关系数。
设X,每个变量的n个观察值的随机样本,可以构成npqY中pq个变量中,的矩阵, 设数据矩阵为
x11x21xn1样本协方差矩阵为
x12x2xn2x1px2pxnpy11y21yn1y12y22yn2y1qy2q
ynqS11S12S=,其中
SS21221n(XiX)(XiX) S11=n1i11n(YiY)(YiY) S22=n1i11n S12=(XiX)(YiY)S21n1i1ˆ。于是我们就根据证明,样本协方差矩阵S就是总体协方差矩阵的极大似然估计ˆ代替,也就是用S11S12S22S21代替可以用1
1
1111212221,用S22S21S11S1211
代替
1222111112ˆ2ˆ2ˆ20,ˆ,aˆ,求出特征值特征向量a12p12ˆkaˆ1,bˆ2bˆk,ˆ、ˆUˆ、ˆˆˆˆ为样本典型相关系数,ˆ和b称称U1V1,2V2……Up、12pˆ为样本其典型相关变量。 Vp12kˆ2ˆ2ˆ20,aˆˆˆ,aa而且,数理统计上还可以证明和12pˆ1,bˆ2bˆp分别是2220,a1,a2ak和b1,b2bp的极大似b12p然估计。
另外,在实际计算过程中,如果对原始数据进行了标准化变化,也可以从原始数据相关矩阵出发,求样本的典型相关系数和样本典型相关变量。
第三节 典型相关系数的检验
在进行两组变量X和Y典型相关分析之前,首先应检验两组变量是否相关,若两者不相关,即CovX,Y0,则作典型相关分析就没有任何实际意义。因此,在根据样本数据进行典型相关分析时,首先应该检验假设。典型相关系数显著性检验,主要采用的是巴特来特(Bartlett)关于大样本的检验。
如果两组变量X和Y之间互不相关,则协方差矩阵都变为零。为此,
H0:
H1:
212仅包含零,因而典型相关系数
120,即CovX,Y0
120
222ˆˆˆ0,这时作乘积: 对于矩阵A的p特征值,按照大小排列为12p 1=
1ˆi1p2i=1ˆ1ˆ1ˆ,
21222p其中i是A=
21222111112的特征根
对于当n充分大,H0成立时,统计量
1Q1= -n1pq1ln1
2近似服从pq个自由度的分布,若在给定的显著性水平下,Q122pq ,
则拒绝原假设H0,则至少可以认为第一对典型变量具有相关性,相关系数为1,第一个典型相关系数1为显著的。
接下来,为检验其余的典型相关系数的显著性,先将1剔出,再作乘积,
ˆ2 2=1ii2p作统计量为
1Q2= -n2pq1ln2
2它近似服从自由度为p1q1的分布,若在给定的显著性水平下,
2Q12p1q1,则拒绝原假设认为2显著,即第二对典型相关变量具有相关性。
如此进行下去,直至到第k个典型相关系数k检验为不显著时,即第k对典型变量不具有相关性时停止。
一般地,当检验第r个典型相关系数的显著性时,应用的检验统计量为:
1Qr= -nrpq1lnr
2 其中,
ˆ2 r=1iirpQr近似服从2分布,自由度为pr1qr1。
第四节 典型相关分析计算步骤
(一)根据分析目的建立原始矩阵
原始数据矩阵
x11x21 xn1
x12x2xn2x1px2pxnpy11y21yn1y12y22yn2y1qy2q
ynq(二)对原始数据进行标准化变化并计算相关系数矩阵
R11R = R21R12 R22为第一组变量其中R11,R22分别为第一组变量和第二组变量的相关系数阵,R12= R21和第二组变量的相关系数
(三)求典型相关系数和典型变量
计算矩阵AR11R12R22R21以及矩阵BR22R21R11R12的特征值和特征向量,分别得典型相关系数和典型变量。
(四)检验各典型相关系数的显著性
第五节 利用SPSS进行典型相关分析
第一步,录入原始数据,如下表:X1 X2 X3 X4 X5 分别代表多孩率、综合节育率、初中及以上受教育程度的人口比例、人均国民收入和城镇人口比例。
研究人口出生与教育程度、生活水平等的相关。
1111序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 X1 0.94 2.58 13.46 12.46 8.94 2.8 8.91 8.82 0.8 5.94 2.6 7.07 14.44 15.24 3.16 9.04 12.02 11.15 X2 89.89 92.32 90.71 90.04 90.46 90.17 91.43 90.78 91.47 90.31 92.42 87.97 88.71 89.43 91.21 88.76 87.28 89.13 X3 64.51 55.41 38.2 45.12 41.83 50.64 46.32 47.33 62.36 40.85 35.14 29.51 29.04 31.05 37.85 39.71 38.76 36.33 X4 3577 2981 1148 1124 1080 2011 1383 1628 4822 1696 1717 933 1313 943 1372 880 1248 976 X5 73.08 68.65 19.08 27.68 36.12 50.86 42.65 47.17 66.23 21.24 32.81 17.9 21.36 20.4 27.34 15.52 28.91 18.23 19 20 21 22 23 24 25 26 27 28 29 30
22.46 24.34 33.21 4.78 21.56 14.09 32.31 11.18 13.8 25.34 20.84 39.6 87.72 84.86 83.79 90.57 86 80.96 87.6 89.71 86.33 81.56 81.45 64.9 38.38 31.07 39.44 31.26 22.38 21.49 7.7 41.01 29.69 31.3 34.59 38.47 1845 798 1193 903 654 956 865 930 938 1100 1024 1374 36.77 15.1 24.05 20.25 18.93 14.72 12.59 21.49 22.04 27.35 25.72 31.91
第二步,调用CANCORR程序。
1、点击“Files→New→Syntax”打开如下对话框。
2、输入调用命令程序及定义典型相关分析变量组的命令。如图
输入时要注意“Canonical correlation.sps”程序所在的根目录,注意变量组的格式和空格。
第三步,执行程序。用光标选择这些命令,使其图黑,再点击运行键有典型相关分析结果。
,即可得到所
输出结果1
输出结果2
主要结果的解释:
第一组变量相关系数 Correlations for Set-1 X1 X2 X1 1.0000 -.7610 X2 -.7610 1.0000
第二组变量相关系数 Correlations for Set-2 X3 X4 X5 X3 1.0000 .7712 .8488 X4 .7712 1.0000 .8777
X5 .8488 .8777 1.0000
第一组与第二组变量之间的相关系数 Correlations Between Set-1 and Set-2 X3 X4 X5 X1 -.5418 -.4528 -.4534 X2 .2929 .2528 .2447
典型相关系数
Canonical Correlations 1 .578 2 .025
维度递减检验结果(降维检验)
Test that remaining correlations are zero: Wilk's Chi-SQ DF Sig. 1 .666 10.584 6.000 .102 2 .999 .017 2.000 .992
标准化典型系数—第一组
Standardized Canonical Coefficients for Set-1 1 2 X1 -1.319 .797 X2 -.486 1.463
粗系数—第一组(没有标准化的,作者注) Raw Canonical Coefficients for Set-1 1 2 X1 -.131 .079 X2 -.091 .275 _
标准化典型系数—第二组
Standardized Canonical Coefficients for Set-2 1 2 X3 .997 -.261 X4 .292 2.075 X5 -.274 -1.743
粗系数—第二组(没有标准化的,作者注) Raw Canonical Coefficients for Set-2 1 2 X3 .086 -.023 X4 .000 .002
X5 -.017 -.107
典型负载系数(结构相关系数:典型变量与原始变量之间的相关系数)第一组 Canonical Loadings for Set-1 1 2 X1 -.949 -.316 X2 .517 .856
交叉负载系数(某一组中的典型变量与另外一组的原始变量之间的相关系数)—第一组原始变量
Cross Loadings for Set-1 1 2 X1 -.548 -.008 X2 .299 .022
典型负载系数(结构相关系数:典型变量与原始变量之间的相关系数)第二组 Canonical Loadings for Set-2 1 2 X3 .990 -.140 X4 .821 .344 X5 .829 -.143
交叉负载系数(某一组中的典型变量与另外一组的原始变量之间的相关系数)—第二组原始变量
Cross Loadings for Set-2 1 2 X3 .572 -.004 X4 .474 .009 X5 .479 -.004
Redundancy Analysis:(冗余分析)
(第一组原始变量总方差中由本组变式代表的比例)
Proportion of Variance of Set-1 Explained by Its Own Can. Var. Prop Var CV1-1 .584 CV1-2 .416
(第一组原始变量总方差中由第二组的变式所解释的比例)
Proportion of Variance of Set-1 Explained by Opposite Can.Var. Prop Var CV2-1 .195 CV2-2 .000
(第二组原始变量总方差中由本组变式代表的比例)
Proportion of Variance of Set-2 Explained by Its Own Can. Var. Prop Var CV2-1 .780 CV2-2 .053
(第二组原始变量总方差中由第一组的变式所解释的比例)
Proportion of Variance of Set-2 Explained by Opposite Can. Var. Prop Var CV1-1 .261 CV1-2 .000
------ END MATRIX -----
另外,在数据表中还输出了以下结果: s1_cv001:第一组的第一个典型变量; s2_cv001:第二组的第一个典型变量; s1_cv002:第一组的第二个典型变量; s2_cv002:第二组的第二个典型变量;
因篇幅问题不能全部显示,请点此查看更多更全内容