前言:
这篇文章旨在深入浅出地解释协方差矩阵的概念,包括方差、协方差的计算方法以及如何通过数据处理提高计算效率。我们将在接下来的段落中逐步理解这些概念。
一、演示数据:
特征指:对象的某个特征(属性),该特征有具体的含义。请记住,这里的“特征”与线性代数中的“特征向量”是两个不同的概念。
二、方差:
方差刻画了一组数据(一个特征)的离散程度(波动程度)。
总体方差计算公式为:[公式],样本方差的计算公式为:[公式]。样本方差在Excel中的函数是STDEV.S(),请注意,这里的[公式]是为了确保样本方差为总体方差的无偏估计。
样本均值计算公式为:[公式],在Excel中通过AVERAGE()函数计算。
三、实例计算:
使用身高数据计算均值、样本方差。
身高均值计算公式为:[公式],样本方差计算公式为:[公式],[公式]。
使用体重数据计算均值、样本方差。
体重均值计算公式为:[公式],样本方差计算公式为:[公式],[公式]。
四、协方差:
协方差刻画的是多组数据之间的相关程度,例如身高与体重这两组数据之间的线性相关程度。我们将身高和体重分别计为:[公式]。
总体协方差计算公式为:[公式],样本协方差的计算公式为:[公式]。样本协方差在Excel中的函数为:COVARIANCE.S(),这里的[公式]同样是为了确保样本协方差为总体协方差的无偏估计。
五、实例计算:
计算身高与体重的样本协方差。
样本协方差计算公式为:[公式],[公式]。
分析线性相关程度。
当[公式]为正相关,表示[公式]的值变大(或变小)时,[公式]的值也随之变大(或变小);当[公式]为负相关,表示[公式]的值变大(或变小)时,[公式]的值会随之变小(或变大);当[公式]为不相关,表示[公式]的分布没有规律可言。
六、均值归零化:
均值归零化指将一组数据中的每个值减去该组的均值,这一操作在统计分析中非常常用。同样,若涉及多组数据,每组数据都需要进行相同的处理。
计算身高和体重的均值归零化处理。
均值归零化后的身高和体重分别记作:[公式]。重要结论是,均值归零化后,每列的均值都变成了0,方差不变,线性相关程度不变。
七、图示:
原数据的样本中心坐标为[公式],均值归零化后,样本中心坐标为[公式],样本坐标点都移动至[公式]周围。
八、协方差矩阵:
协方差矩阵是一个用于刻画每组数据与所有组之间相关程度的矩阵。以演示数据为例,协方差矩阵的计算步骤如下。
实例计算协方差矩阵。
1.1 原数据直接求协方差矩阵:各列数据与自己的协方差即为该列数据的方差。例如:[公式],[公式],[公式],[公式],[公式],[公式],将数值填充至协方差矩阵对应的格子中,得到协方差矩阵。
1.2 均值归零化后求协方差矩阵:使用矩阵乘法计算,即[公式](均值归零化后的转置)×(均值归零化后)=协方差矩阵。将均值归零化后的矩阵记作:[公式],协方差矩阵记作:[公式],验证过程如下。
重要观察:协方差矩阵是一个实对称矩阵,满足实对称矩阵的一切性质,其主对角线上的数值为每列(特征)数据的方差。
总结:
通过本文,我们深入理解了方差、协方差的概念及其计算方法,还学习了如何通过均值归零化简化协方差矩阵的计算过程。这些知识在数据分析和统计学中具有重要意义。
温馨提示:答案为网友推荐,仅供参考