什么是最小二乘法?

如题所述

一、最小二乘法简介

最小二乘法是一种用于寻找数据最佳拟合线或曲线的方法。它的核心思想是,通过最小化    观测数据点与拟合线(或曲线)之间的垂直距离的平方和,来确定最佳拟合的参数。

想象一组散点数据,你想要找到一条直线或曲线,使得所有这些点到这条线(或曲线)的距离之和的平方尽可能小。最小二乘法就是为了找到这条线(或曲线),使得这个距离之和的平方最小。

这个方法在很多领域都有应用,比如统计学、机器学习和工程。通过数学计算,你可以找到最小二乘法的解析解,确定最佳拟合线的斜率和截距(如果是线性拟合的话),或者更复杂的参数(如果是多项式或非线性拟合)。

总的来说,最小二乘法是一种寻找最佳拟合模型的数学方法,通过最小化数据点与拟合模型之间的误差来找到最优解。

二、公式及分析

最小二乘法的基本公式是用于线性回归的。在简单线性回归中,我们试图拟合一个线性模型 y = mx + b 来最好地描述数据。

假设我们有 n 个数据点,表示为 (x_i, y_i),其中 i 是数据点的索引。我们的目标是找到最佳的斜率 m 和截距 b,使得拟合线与数据点的误差平方和最小。

拟合的线性模型的预测值为 {y}_i = mx_i + b。数据点 y_i 和预测值 {y}_i 之间的误差是 e_i = y_i - {y}_i。

最小二乘法的目标是最小化所有数据点的误差平方和:

为了找到最小化误差平方和的解析解,我们对误差平方和关于参数 m 和 b 分别求导数,并令导数等于零,然后解这个方程组。这样可以得到最佳的斜率 m 和截距 b 的估计值。

最终得到的解析解公式为:

这些公式通过对误差平方和进行求导,然后将导数等于零解方程得到。它们给出了最小二乘法用于简单线性回归的斜率和截距的估计值。

三、公式由来

当使用最小二乘法解决简单线性回归时,我们希望最小化误差平方和:

其中,S 是误差平方和,n 是数据点的数量,(x_i, y_i) 是每个数据点的坐标,m 是斜率,b 是截距。

要找到最小化 S 的 m 和 b,我们分别对 S 关于 m 和 b 求偏导数,并令偏导数等于零。

首先对 S 求关于 m 的偏导数:

接下来对 S 求关于 b 的偏导数:

然后,令这些偏导数等于零,然后解方程组来找到最优的 m 和 b 值。这些导数为零的方程将帮助我们找到最小化误差平方和的斜率和截距的估计值。

四、当用均值代替后的m和b的表达式

当用数据的均值来代替 $\sum_{i=1}^{n} x_i$、$\sum_{i=1}^{n} y_i$ 和 $\sum_{i=1}^{n} (x_i)^2$ 后,可以得到校准的 $m$ 和 $b$ 的表达式。

对于斜率 $m$ 的表达式,假设:

$aver_x$ 是 $x$ 的均值

$aver_y$ 是 $y$ 的均值

$aver_xy$ 是 $x \cdot y$ 的均值

$aver_xx$ 是 $x^2$ 的均值

斜率 $m$ 的表达式为:

对于截距 $b$ 的表达式:

这些表达式是用数据集的均值来估计直线拟合的斜率和截距的方法。在简单线性回归中,这些表达式提供了一个直观且简单的方式来计算拟合直线的参数。

五、为什么可以用均值替代

在最小二乘法的推导中,我们通过对误差平方和 $S = \sum_{i=1}^{n} (y_i - mx_i - b)^2$ 对 $m$ 和 $b$ 求偏导数并令其为零,来找到最佳的斜率 $m$ 和截距 $b$。

当我们使用均值来替代 $\sum_{i=1}^{n} x_i$、$\sum_{i=1}^{n} y_i$ 和 $\sum_{i=1}^{n} (x_i)^2$ 时,是因为最小二乘法的求解中,这些均值代表了数据的中心趋势和分布。

通过使用样本均值代替总和,我们在推导中实际上是在寻找一个拟合直线,使得该直线穿过了数据的中心(均值点)。在线性回归中,拟合直线的斜率和截距的计算中,样本均值提供了对数据集的一个代表性估计,因此可以用均值来近似表示总和。

这种代替方法是基于对数据的近似,通常在数据量较大时尤为有效。然而,在某些情况下,数据的均值可能无法很好地代表总和的准确值,特别是当数据分布不均匀或存在异常值时,使用均值来代替总和可能会导致估计的不准确性。

温馨提示:答案为网友推荐,仅供参考
第1个回答  2023-11-13

最小二乘法详细计算步骤如下:

材料:计算器,n个实验数据,坐标纸,铅笔,橡皮。

1、先把n个数据测量值画在坐标纸上,如果呈现一种直线趋势,才可以进行最小二乘法(直线回归法)。

2、然后就是计算这些n个数据点的横坐标和纵坐标的各自平均值,利用如下计算公式:

3、接着计算所有点的横坐标求和结果,以及所有点的纵坐标求和结果,如下图所示:

4、然后是计算每个数据点横坐标的平方,然后求和,以及计算每个点横坐标乘以纵坐标的乘积,然后求和,如下图所示:

5、最后就是利用两个公式,把将要求的直线方程中的截距a和斜率b这两个参数代入上面的公式计算出来,如下图所示:

6、求出了a和b这两个参数之后,就可以得到直线方程:y=ax+b。这个时候还要利用这个方程,先取两个点,这两个点要求横坐标x1和x2距离比较远,这样误差会比较小(太近的两个点,误差比较大),然后分别代入刚求出来的直线方程y=ax+b,求出对应的y1和y2,然后把(x1,y1)和(x2,y2)描点在坐标纸上,这样就可以利用两点画出一条最终的回归直线了。

最小二乘法

最小二乘法通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。还可用于曲线拟合,其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。

根据样本数据,采用最小二乘估计式可以得到简单线性回归模型参数的估计量。但是估计量参数与总体真实参数的接近程度如何,是否存在更好的其它估计式,这就涉及到最小二乘估计式或估计量的最小方差(或最佳)性、线性及无偏性。

本回答被网友采纳
相似回答