主成分分析是一种多元统计方法,其基本思想是将多个具有相关性的指标重新组合成一组新的互相无关的综合指标。通过少数几个主成分,可以揭示多个变量间的内部结构,即从原始变量中导出的少数几个主成分尽可能多地保留原始变量的信息,且彼此间互不相关。在数学处理上,这通常涉及到将原始指标进行线性组合作为新的综合指标。最经典的做法是通过F1(选取的第一个线性组合,即第一个综合指标)的方差来衡量信息量,方差越大,表示F1包含的信息越多。因此,选取的F1应是所有线性组合中方差最大的,故称F1为第一主成分。
如果第一主成分不足以代表原始指标的信息,会考虑选取F2(第二个线性组合),以有效反映原始信息,确保F1已有的信息不重复出现在F2中。这在数学上表示为Cov(F1, F2)=0,称F2为第二主成分。以此类推,可以构造出第三、第四等,直至第P个主成分。
主成分分析的步骤如下:
1. 指标数据标准化(SPSS软件自动执行)。
2. 判定指标之间的相关性。
3. 确定主成分的个数。
4. 构造主成分Fi的表达式。
5. 给主成分Fi命名。
主成分分析(Principal Component Analysis,PCA), 将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。又称主分量分析。在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。主成分分析首先是由K.皮尔森对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。