学习笔记(线性回归)

如题所述

线性回归是一种统计方法,用于研究变量间线性关系。核心思想是通过自变量预测因变量值,假设关系线性,可用直线或超平面描述。线性回归分为一元和多元,前者单自变量,后者多自变量。

一元线性回归分析模型介绍:此方法研究自变量与因变量线性关系,自变量为X,因变量为Y。目标是找到最佳拟合直线,通过导数求解系数估计值。截距表示X为0时Y的平均值,斜率表示X变化1单位,Y估计值变化量。残差是预测值与实际值差,反映未解释变差。

最小二乘法原理:拟合直线使残差平方和最小。残差平方和最小化方法即求导数等于0。截距估计量为样本均值。判定系数衡量直线与数据拟合程度,通过总变差与回归平方和计算。

多元线性回归模型:增加自变量数量,模型表达更复杂。判定系数评估模型拟合效果,计算公式为回归平方和与总平方和比率。

线性回归模型经典假设:随机误差期望值为0,同方差性,正态性,解释变量与误差项独立,无多重共线性。方差膨胀因子检测多重共线性,值大于10表示严重多重共线性。

建立线性回归模型步骤:初始分析确定目标,收集数据;变量选择确定影响因素;模型验证确保模型正确性,包括独立性、无多重共线性、正态分布等;处理数据集建立模型,多重共线性与影响点诊断,修正模型以满足要求后使用。

注意,统计方法仅帮助建立精确模型,正确模型建立需结合业务场景与经验,寻找合适的关键自变量。
温馨提示:答案为网友推荐,仅供参考
相似回答
大家正在搜