分析自变量与因变量关系,采用相关分析、回归分析等统计方法。尽管 Excel 能进行统计分析,但专业统计分析软件如 SPSS、SAS、R 语言更为合适。简单一元线性回归考察单个自变量对因变量的影响,而多元线性回归(多重线性回归)则考虑多个自变量,避免与多元统计方法混淆。以下通过 SPSS 做多重线性回归分析案例,以说明如何进行。
案例背景:研究美国 50 个州的犯罪率与人口、面积、收入、文盲率、高中毕业率、霜冻天数等七项指标的关系。因变量是犯罪率,自变量包括人口、面积、收入、文盲率、高中毕业率、霜冻天数。选择多重线性回归,因为因变量是连续数值型,且有多个自变量。
线性关系初步判断:利用相关分析和散点图检查变量间是否存在线性关系。犯罪率与文盲率、霜冻天数、高中毕业率、人口存在明显线性关系,而面积与其他变量关联性较弱。相关系数分别为:文盲率 0.703,霜冻天数 -0.539,高中毕业率 -0.488,人口 0.344。这表明自变量间共线性问题较弱。
共线性问题:共线性可能影响回归分析结果。通过容忍度 Tol 和方差膨胀因子 VIF 判断自变量间是否存在共线性。本案例中,所有自变量的容忍度均大于 0.2,表明共线性问题不严重。
逐步线性回归:构建多重线性回归模型。首先进行逐步回归,筛选出具有显著影响的自变量。结果显示,文盲率和人口数对犯罪率影响显著。模型调整后 R 方为 54.8%,表明模型解释因变量变异性的 54.8%。德宾沃森检验显示残差具有独立性,满足条件。
回归分析结果解读:逐步回归显示,文盲率和人口数是影响犯罪率的关键自变量。模型有统计学意义,且未发现异常值对模型拟合产生显著影响。标准化残差显示模型残差正态性、方差齐次性良好。
优化回归分析:尝试剔除异常值影响,调整 R 方值为 63.6%,提升显著。最终多重线性回归方程为:Y = 4.359 * 文盲率 + 0.000251 * 人口数 + 1.052。文盲率每上升1%,犯罪率预计上升4.4%。模型解释各州犯罪率变异性的64%。
综上,通过多重线性回归分析,成功识别影响犯罪率的关键自变量,并构建了可解释犯罪率变异性的模型。这为理解不同州犯罪率差异提供了数据支持,有助于制定相应的预防和干预策略。
温馨提示:答案为网友推荐,仅供参考