什么是最小二乘法

如题所述

一、最小二乘法简介

最小二乘法是一种用于寻找数据最佳拟合线或曲线的方法。它的核心思想是,通过最小化    观测数据点与拟合线(或曲线)之间的垂直距离的平方和,来确定最佳拟合的参数。

想象一组散点数据,你想要找到一条直线或曲线,使得所有这些点到这条线(或曲线)的距离之和的平方尽可能小。最小二乘法就是为了找到这条线(或曲线),使得这个距离之和的平方最小。

这个方法在很多领域都有应用,比如统计学、机器学习和工程。通过数学计算,你可以找到最小二乘法的解析解,确定最佳拟合线的斜率和截距(如果是线性拟合的话),或者更复杂的参数(如果是多项式或非线性拟合)。

总的来说,最小二乘法是一种寻找最佳拟合模型的数学方法,通过最小化数据点与拟合模型之间的误差来找到最优解。

二、公式及分析

最小二乘法的基本公式是用于线性回归的。在简单线性回归中,我们试图拟合一个线性模型 y = mx + b 来最好地描述数据。

假设我们有 n 个数据点,表示为 (x_i, y_i),其中 i 是数据点的索引。我们的目标是找到最佳的斜率 m 和截距 b,使得拟合线与数据点的误差平方和最小。

拟合的线性模型的预测值为 {y}_i = mx_i + b。数据点 y_i 和预测值 {y}_i 之间的误差是 e_i = y_i - {y}_i。

最小二乘法的目标是最小化所有数据点的误差平方和:

为了找到最小化误差平方和的解析解,我们对误差平方和关于参数 m 和 b 分别求导数,并令导数等于零,然后解这个方程组。这样可以得到最佳的斜率 m 和截距 b 的估计值。

最终得到的解析解公式为:

这些公式通过对误差平方和进行求导,然后将导数等于零解方程得到。它们给出了最小二乘法用于简单线性回归的斜率和截距的估计值。

三、公式由来

当使用最小二乘法解决简单线性回归时,我们希望最小化误差平方和:

其中,S 是误差平方和,n 是数据点的数量,(x_i, y_i) 是每个数据点的坐标,m 是斜率,b 是截距。

要找到最小化 S 的 m 和 b,我们分别对 S 关于 m 和 b 求偏导数,并令偏导数等于零。

首先对 S 求关于 m 的偏导数:

接下来对 S 求关于 b 的偏导数:

然后,令这些偏导数等于零,然后解方程组来找到最优的 m 和 b 值。这些导数为零的方程将帮助我们找到最小化误差平方和的斜率和截距的估计值。

四、当用均值代替后的m和b的表达式

当用数据的均值来代替 $\sum_{i=1}^{n} x_i$、$\sum_{i=1}^{n} y_i$ 和 $\sum_{i=1}^{n} (x_i)^2$ 后,可以得到校准的 $m$ 和 $b$ 的表达式。

对于斜率 $m$ 的表达式,假设:

$aver_x$ 是 $x$ 的均值

$aver_y$ 是 $y$ 的均值

$aver_xy$ 是 $x \cdot y$ 的均值

$aver_xx$ 是 $x^2$ 的均值

斜率 $m$ 的表达式为:

对于截距 $b$ 的表达式:

这些表达式是用数据集的均值来估计直线拟合的斜率和截距的方法。在简单线性回归中,这些表达式提供了一个直观且简单的方式来计算拟合直线的参数。

五、为什么可以用均值替代

在最小二乘法的推导中,我们通过对误差平方和 $S = \sum_{i=1}^{n} (y_i - mx_i - b)^2$ 对 $m$ 和 $b$ 求偏导数并令其为零,来找到最佳的斜率 $m$ 和截距 $b$。

当我们使用均值来替代 $\sum_{i=1}^{n} x_i$、$\sum_{i=1}^{n} y_i$ 和 $\sum_{i=1}^{n} (x_i)^2$ 时,是因为最小二乘法的求解中,这些均值代表了数据的中心趋势和分布。

通过使用样本均值代替总和,我们在推导中实际上是在寻找一个拟合直线,使得该直线穿过了数据的中心(均值点)。在线性回归中,拟合直线的斜率和截距的计算中,样本均值提供了对数据集的一个代表性估计,因此可以用均值来近似表示总和。

这种代替方法是基于对数据的近似,通常在数据量较大时尤为有效。然而,在某些情况下,数据的均值可能无法很好地代表总和的准确值,特别是当数据分布不均匀或存在异常值时,使用均值来代替总和可能会导致估计的不准确性。

温馨提示:答案为网友推荐,仅供参考
第1个回答  2023-10-16

最小二乘法是:是一种数学优化技术。通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。

1801年,意大利天文学家朱赛普·皮亚齐发现了第一颗小行星谷神星。经过40天的跟踪观测后,由于谷神星运行至太阳背后,使得皮亚齐失去了谷神星的位置。随后全世界的科学家利用皮亚齐的观测数据开始寻找谷神星,但是根据大多数人计算的结果来寻找谷神星都没有结果。时年24岁的高斯也计算了谷神星的轨道。

高斯使用的最小二乘法的方法发表于1809年他的著作《天体运动论》中。1829年,高斯提供了最小二乘法的优化效果强于其他方法的证明,因此被称为高斯-马尔可夫定理。

交通发生预测的目的是建立分区产生的交通量与分区土地利用、社会经济特征等变量之间的定量关系,推算规划年各分区所产生的交通量。因为一次出行有两个端点,所以我们要分别分析一个区生成的交通和吸引的交通。交通发生预测通常有两种方法:回归分析法和聚类分析法。

相似回答