一、主成分分析的基本原理
主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法, 从数学角度来看,这是一种降维处理技术。假定有n个地理样本,每个样本共有 p个变量描述,这样就构成了一个 nxp阶的地理数据矩阵:
di
XI2
X = *
X
2i
X
22
川Xip 川X2p
III III HI III XXn2 川Xnp u
(i)
如何从这么多变量的数据中抓住地理事物的内在规律性呢?要解决这一问 题,自然要在p维空间中加以考察,这是比较麻烦的。为了克服这一困难,就需 要进行降维处理,即用较少的几个综合指标来代替原来较多的变量指标, 而且使 这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息, 同时它们之 间又是彼此独立的。那么,这些综合指标(即新变量 )应如何选取呢?显然,其 最简单的形式就是取原来变量指标的线性组合, 适当调整组合系数,使新的变量 指标之间相互独立且代表性最好。
如果记原来的变量指标为X,X,…,X,它们的综合指标 新变量指标 为 z,Z,…,zm (mep)。贝
i
2
p
i
2
U
N=lliXi+li2X2T||,+l
z^ — l2iX^ + l22X^
+l
1 p
Xp
X
P
L 2
1
P
(2)
z
m = Im1i
x
m2X2 I H , lmpxp
在(2)式中,系数l 由下列原则来决定:
j
(1) 乙与Z(i工j ; i,j=i,2,…,m)相互无关;
j
(2) ....................................................................................................... z是X,X,…,X的一切线性组合中方差最大者;Z是与z不相关的 X,X,…,X的所有线性组合中方差最大者; ;Z是与z,乙, ......................... Z都不 相关的X,X,…,X的所有线性组合中方差最大者。
i
i
2
P
2
i
i
2
p
m
i
m-i
i
2
p
因篇幅问题不能全部显示,请点此查看更多更全内容