数学建模精品教材-第十二章回归分析
第十二章回归分析
前面我们讲过曲线拟合问题。曲线拟合问题的特点是,根据得到的若干有关变量的
一组数据,寻找因变量与(一个或几个)自变量之间的一个函数,使这个函数对那组数
据拟合得昀好。通常,函数的形式可以由经验、先验知识或对数据的直观观察决定,要
作的工作是由数据用昀小二乘法计算函数中的待定系数。从计算的角度看,问题似乎已
经完全解决了,还有进一步研究的必要吗从数理统计的观点看,这里涉及的都是随机变量,我们根据一个样本计算出的那些
系数,只是它们的一个(点)估计,应该对它们作区间估计或假设检验,如果置信区间
太大,甚至包含了零点,那么系数的估计值是没有多大意义的。另外也可以用方差分析
方法对模型的误差进行分析,对拟合的优劣给出评价。简单地说,回归分析就是对拟合
问题作的统计分析。
具体地说,回归分析在一组数据的基础上研究这样几个问题:
(i)建立因变量 y与自变量 x , x , L, x 之间的回归模型(经验公式);
1 2 m
(ii)对回归模型的可信度进行检验;
(iii)判断每个自变量 x i 1,2, L,m对 y 的影响是否显著;
i
(iv)诊断回归模型是否适合这组数据;
(v)利用回归模型对 y进行预报或控制。
§1 数据表的基础知识 1.1 样本空间在本章中,我们所涉及的均是样本点×变量类型的数据表。如果有 m 个变量
x , x , L, x ,对它们分别进行了 n次采样(或观测),得到 n个样本点
1 2 mx , x , L, x ,i 1,2, L, n
i1 i2 im
则所构成的数据表 X 可以写成一个 n × m维的矩阵。
T?
e
1 X x M
ij n ×m?
T?
e
n?
T m
式中 e x , x , L, x ∈ R ,i 1,2, L, n, e 被称为第i个样本点。
i i1 i2 im i
样本的均值为
n
1x x , x , L, x , x x , j 1,2, L, m ∑
1 2 m j ij
n
i 1
样本协方差矩阵及样本相关系数矩阵分别为n
1
TS s exex
ij m ×m ∑ k k
n ?1
k 1?
s
ij R r
ij m ×m?
s s
ii jj?
其中
-226- n
1s xx xx
ij ∑ ki i kj j
n ?1
k 1
1.2 数据的标准化处理(1)数据的中心化处理数据的中心化处理是指平移变换,即
*x xx ,i 1,2, L, n; j 1,2, L, m
ij ij j
该变换可以使样本的均值变为 0,而这样的变换既不改变样本点间的相互位置,也
不改变变量间的相关性。但变换后,却常常有许多技术上的便利。
(2)数据的无量纲化处理
在实际问题中,不同变量的测量单位往往是不一样的。为了消除变量的量纲效应,
使每个变量都具有同等的表现力,数据分析中常用的消量纲的方法,是对不同的变量进
行所谓的压缩处理,即使每个变量的方差均变成 1,即
*
x x / s
ij ij j
n
1
2
其中 s xx 。
∑
j ij j
n ?1
i 1
还可以有其它消量纲的方法,如
* *
x x / x , x x / minx
ij ij ij ij ij ij
i
i
* *
x x / x , x x /x minx
ij ij j ij ij ij ij
i
i
(3)标准化处理
所谓对数据的标准化处理,是指对数据同时进行中心化-压缩处理,即xx
* ij j
i 1,2, L, n j 1,2, L, m
x , , 。
ij
s
j§2 一元线性回归2.1 模型
一元线性回归的模型为y β + β x + ε , (1)
0 1
2
ε
式中, β , β为回归系数, 是随机误差项,总是假设ε ~ N0, σ ,则随
机变量
0 1
2
y ~ N β + β x, σ。
0 1
若对 y 和 x分别进行了 n次独立观测,得到以下 n对观测值 y , x ,i 1,2, L, n (2)
i i
这 n对观测值之间的关系符合模型 y β + β x + ε ,i 1,2, L, n (3)
i 0 1 i
这里, x 是自变量在第i次观测时的取值,它是一个非随机变量,并且没有测量误差。
i
¥
5.9
百度文库VIP限时优惠现在开通,立享6亿+VIP内容
立即获取
拟合值y的平均值等于观测值y的。...
数学建模精品教材-第十二章回归分析
第十二章回归分析
前面我们讲过曲线拟合问题。曲线拟合问题的特点是,根据得到的若干有关变量的
一组数据,寻找因变量与(一个或几个)自变量之间的一个函数,使这个函数对那组数
据拟合得昀好。通常,函数的形式可以由经验、先验知识或对数据的直观观察决定,要
作的工作是由数据用昀小二乘法计算函数中的待定系数。从计算的角度看,问题似乎已
第 1 页
经完全解决了,还有进一步研究的必要吗从数理统计的观点看,这里涉及的都是随机变量,我们根据一个样本计算出的那些
系数,只是它们的一个(点)估计,应该对它们作区间估计或假设检验,如果置信区间
温馨提示:答案为网友推荐,仅供参考