今天要讲解的是统计学中的核心概念:方差、协方差和协方差矩阵,它们在机器学习算法中扮演着关键角色。
首先,方差衡量的是随机变量的离散程度。计算方法是将每个样本值与平均值之差的平方求和,然后除以样本数量,记作var。以1到5的数字为例,去中心化后,尽管每个数都减去平均值3,但方差仍为2,反映了数据的波动大小。
协方差则揭示了不同特征之间的关联性。它通过计算样本中两个特征(如a和b)与它们平均值的偏差的乘积和,来判断它们是否同步变化。正相关表示变化趋势一致,负相关则表示相反,零协方差表示不相关。如(2, 2)到(5, 5)和(1, -1)到(5, -5)的例子,分别展示了正相关和负相关的情况。
协方差矩阵是所有维度间的协方差的集合,对角线元素是各变量的方差,非对角线元素是变量间的协方差。例如,如果有a和b两个特征,会形成一个2x2的协方差矩阵,通过样本的列向量表示,计算得到矩阵与其转置的乘积。
总的来说,方差、协方差和协方差矩阵是理解数据分布和变量间关系的重要工具,它们在机器学习中的应用广泛,有助于我们分析数据并构建模型。
温馨提示:答案为网友推荐,仅供参考