通俗易懂:协方差矩阵(举例)

如题所述

前言:

这篇文章旨在深入浅出地解释协方差矩阵的概念,包括方差、协方差的计算方法以及如何通过数据处理提高计算效率。我们将在接下来的段落中逐步理解这些概念。

一、演示数据:

特征指:对象的某个特征(属性),该特征有具体的含义。请记住,这里的“特征”与线性代数中的“特征向量”是两个不同的概念。

二、方差:

方差刻画了一组数据(一个特征)的离散程度(波动程度)。

总体方差计算公式为:[公式],样本方差的计算公式为:[公式]。样本方差在Excel中的函数是STDEV.S(),请注意,这里的[公式]是为了确保样本方差为总体方差的无偏估计。

样本均值计算公式为:[公式],在Excel中通过AVERAGE()函数计算。

三、实例计算:

使用身高数据计算均值、样本方差。

身高均值计算公式为:[公式],样本方差计算公式为:[公式],[公式]。

使用体重数据计算均值、样本方差。

体重均值计算公式为:[公式],样本方差计算公式为:[公式],[公式]。

四、协方差:

协方差刻画的是多组数据之间的相关程度,例如身高与体重这两组数据之间的线性相关程度。我们将身高和体重分别计为:[公式]。

总体协方差计算公式为:[公式],样本协方差的计算公式为:[公式]。样本协方差在Excel中的函数为:COVARIANCE.S(),这里的[公式]同样是为了确保样本协方差为总体协方差的无偏估计。

五、实例计算:

计算身高与体重的样本协方差。

样本协方差计算公式为:[公式],[公式]。

分析线性相关程度。

当[公式]为正相关,表示[公式]的值变大(或变小)时,[公式]的值也随之变大(或变小);当[公式]为负相关,表示[公式]的值变大(或变小)时,[公式]的值会随之变小(或变大);当[公式]为不相关,表示[公式]的分布没有规律可言。

六、均值归零化:

均值归零化指将一组数据中的每个值减去该组的均值,这一操作在统计分析中非常常用。同样,若涉及多组数据,每组数据都需要进行相同的处理。

计算身高和体重的均值归零化处理。

均值归零化后的身高和体重分别记作:[公式]。重要结论是,均值归零化后,每列的均值都变成了0,方差不变,线性相关程度不变。

七、图示:

原数据的样本中心坐标为[公式],均值归零化后,样本中心坐标为[公式],样本坐标点都移动至[公式]周围。

八、协方差矩阵:

协方差矩阵是一个用于刻画每组数据与所有组之间相关程度的矩阵。以演示数据为例,协方差矩阵的计算步骤如下。

实例计算协方差矩阵。

1.1 原数据直接求协方差矩阵:各列数据与自己的协方差即为该列数据的方差。例如:[公式],[公式],[公式],[公式],[公式],[公式],将数值填充至协方差矩阵对应的格子中,得到协方差矩阵。

1.2 均值归零化后求协方差矩阵:使用矩阵乘法计算,即[公式](均值归零化后的转置)×(均值归零化后)=协方差矩阵。将均值归零化后的矩阵记作:[公式],协方差矩阵记作:[公式],验证过程如下。

重要观察:协方差矩阵是一个实对称矩阵,满足实对称矩阵的一切性质,其主对角线上的数值为每列(特征)数据的方差。

总结:

通过本文,我们深入理解了方差、协方差的概念及其计算方法,还学习了如何通过均值归零化简化协方差矩阵的计算过程。这些知识在数据分析和统计学中具有重要意义。
温馨提示:答案为网友推荐,仅供参考
相似回答
大家正在搜