多元线性回归是预测模型的一种,它将多个自变量与一个因变量关联起来,以求解它们之间的线性关系。多元线性回归的公式定义为:
[公式]
其中 y 表示因变量,数据形状为 nx1,x 表示自变量,数据形状为 nx1,β 是回归系数,为一个数值,i 的取值范围为 1 到 n,ε 是误差项,数据形状为 nx1。
多元线性回归的矩阵形式如下:
公式如下:
y = Xβ + ε
其中 y =[y1, y2, ..., yn]T, X = [x11, x12, ..., x1(m+1); x21, x22, ..., x2(m+1); ...; xn1, xn2, ..., xnm+1]T, β =[β0, β1, ..., βm]T, ε =[ε1, ε2, ..., εn]T, β0 是常数项,m 是自变量的特征数。
多元线性回归的参数估计通常采用最小二乘法。最小二乘法的最小化目标为误差平方和(SSE):
求参数估计的过程就是对 β 进行估计,公式如下:
[公式]
其中 XTX 和 XTy 是矩阵 X 的转置与 y 的乘积。
对参数进行估计,即求解使 SSE 达到最小的 β 值。对 SSE 求导并令其导数为0,可以得到:
[公式]
如果 XTX 存在逆矩阵,则:
[公式]
且:
[公式]
得到 β 的估计值。
多元线性回归的统计检验包括对回归系数的检验和对回归方程的检验。
回归系数的检验主要检验某一个回归系数是否显著。构建统计量:
[公式]
其中,SSR 是回归平方和,SSE 是误差平方和,m 是自变量的特征数。
根据 t 分布得到该 P 值,对于给定的显著水平 α,检验的置信区间为:
[公式]
其中,t 分布的某一分位数,例如 95% 置信区间下的值。
回归方程的检验是对整个数据是否适应于线性方程回归的检验,构建统计量 F:
[公式]
其中,SSR 是回归平方和,SSE 是误差平方和,n 是样本数,m 是自变量的特征数。
根据 F 分布求 F 值及对应的置信区间。
以下是多元线性回归的 Python 代码示例:
以一组数据为例,进行多元线性回归分析:
温馨提示:答案为网友推荐,仅供参考