第1个回答 2024-09-02
一、主成分分析
(1)问题提出
在研究过程中,为了全面准确,我们通常收集大量指标。比如研究疾病因素,可能涉及患者的人口学、病史、体征、化验等数十项。直接纳入多元统计分析会增加复杂度,引入多重共线性误差。我们寻求一种方法简化信息、减少变量,同时消除共线性。
主成分分析应运而生。
(2)主成分分析的原理
主成分分析通过坐标旋转,将原始变量转化为新的线性组合,产生互不相关的n个“成分”。它们按照方差递减排列,前m个成分包含了大部分方差,成为“主成分”。主成分并非剩余变量,而是原始变量的综合。
二维数据直观展示:将原变量X1、X2旋转45°,得到Y1、Y2。通过线性组合,它们不相关,Y1方向变异大,Y2小。提取Y1作为主成分。
解决了降维和共线性问题。
二维以上数据用矩阵变换求解,核心思想不变。
二、因子分析
(一)原理和方法
因子分析是对变量间内在结构的分组。高度相关的变量聚在一起,各组变量代表基本要素(公共因子)。原始变量通过公共因子的线性组合表示。公共因子是所有变量共享的特征,特殊因子是独有的。
市场调查示例:食品指标(x1-x5)被分解为“价格与营养”(z1)和“口味”(z2)。
(二)使用条件
(1)足够大的样本量,通常样本量是变量数的5倍以上,大于100例。
(2)变量间有相关性,SPSS通过KMO检验和Bartlett球形检验判断。
(3)生成公因子有意义,必要时通过旋转优化。
三、主成分分析与因子分析
联系:两者都是降维工具,新变量代表原始变量大部分信息且独立,适用于后续分析。
区别:
(1)主成分分析基于方差最大化,不强调实际意义。
(2)因子分析注重解释实际结构。
SPSS中,主成分分析混于因子分析中。以数据文件为例,进行标准化与主成分分析。
1. 数据标准化
加载数据文件,选择相关变量进行描述统计,保存标准化变量。
2. 主成分分析
选择描述统计、因子分析,进行KMO检验、Bartlett检验。
分析因子抽取方法、输出结果,理解公因子方差、总方差解释。
输出结果包括:相关性检验、公因子方差、总方差解释、成分矩阵、主成分表达式。
通过计算变量得到主成分,综合主成分值用于后续检验。
简化信息、减少变量,消除共线性,主成分分析与因子分析提供强大工具。