线性回归是一种用于建模自变量与因变量之间关系的回归分析方法。在简单线性回归中,我们利用一个或多个自变量,通过称为线性回归方程的最小平方函数来构建模型。多元回归则是处理多个自变量情况。线性回归方程通常表现为一个或多个回归系数的线性组合,例如 w1*x1 + w2*x2 + ... + w0 = y1,其中x1、x2 等是特征,y1 是标签值。线性回归不仅适用于回归问题,还能用于分类问题,尽管对于0-1这类标签的分类问题,使用均方误差 (MSE) 可能很难收敛。
线性回归的损失函数并非固定,可以采用多种形式,如均方误差 (MAE)、泊松损失、tweedie损失等。使用平方差形式的损失函数,如均方误差 (MSE),能很好地表达我们希望预测结果与实际标签越接近越好这一目标。统计学角度解释了为何使用平方差,即假设残差项服从正态分布,这使得通过最小化平方差来最大化数据与模型拟合度的似然函数成为可能。
在选择线性回归的损失函数时,可以灵活设置,以适应特定业务需求。例如,如果关注的是预测结果与真实标签之间的线性关系而非完全拟合,可以使用皮尔逊损失函数,而不是仅仅追求最小的平方误差。
线性回归中,常见的错误观念是仅使用平方差形式的损失函数。实际上,损失函数的选择可以根据问题的具体要求而定,例如在量化领域,可能更重视预测结果与真实标签之间的皮尔逊相关性,而不是完全的拟合。
在进行线性回归时,我们经常使用R^2(决定系数)来衡量模型的拟合优度。增加特征时,R^2 值通常会增加,这表明新特征对模型的贡献是正向的,但需要结合权重系数来判断特征的显著性。R^2 只是衡量拟合优度的一种指标,并非直接与模型的显著性相关。
正则化是线性回归中降低过拟合的一种常用方法。通过在损失函数中添加正则项,如 L1 或 L2 正则化,可以约束模型的复杂度,从而减少过拟合。L1 正则化通过引入拉普拉斯先验,使得参数趋于零,从而进行特征选择;L2 正则化通过引入高斯先验,使得参数分布更加集中。正则化的效果是增加模型的偏差而减少方差,从而提高模型的泛化能力。
在处理数据预处理问题时,对于分类变量,如天气类型,可以使用 one-hot 编码将其转换为多项式特征;对于缺失值,可以采用模型插补、多重插补等方法,避免简单删除或使用均值、中位数等导致数据分布改变的处理方法。
线性回归在处理非线性问题时,可以通过特征工程进行增强,例如进行特征离散化、特征交叉或使用多项式特征。离散化可以提高模型对异常值的鲁棒性,通过引入非线性特征交叉和多项式特征,可以提升模型的表达能力。
线性回归的基本假设包括线性关系、误差项独立、自变量独立、误差项方差常数和误差项正态分布。这些假设对于模型的有效性至关重要。如果线性回归模型效果不佳,可能原因包括数据分布不符合基本假设、模型过于简单无法捕捉复杂关系、过拟合、或需要进行大量特征工程以转化为线性问题。
线性回归解析解的推导通常涉及矩阵求逆、梯度下降法、牛顿法、拟牛顿法(如 LBFGS)、协方差估计(如 SAG)等优化方法。这些方法在解决线性回归问题时,各有优缺点,具体选择取决于数据规模、计算资源和优化效率的需求。
逻辑回归与线性回归同属广义线性模型家族,区别在于输出层的激活函数和损失函数。线性回归输出层通常使用线性激活函数,损失函数为均方误差;而逻辑回归通过 sigmoid 函数将输出限制在 [0,1] 之间,损失函数则通常采用二元交叉熵。逻辑回归因此更适合处理分类问题,尤其是二分类问题。
温馨提示:答案为网友推荐,仅供参考