我在网上搜了半天,没有找到满意的答案,有些人甚至说拟合和回归是一回事,可见大部分人并不知道它们的区别.
但是我在许多书籍上遇到过这两个词,它们表达的意思很明白是有区别的(比如在拟合与回归中,自变量与因变量的地位不平等),想请教个它们之间的关系。
谢谢~
1、性质不同
形象地说,拟合就是把平面上一系列的点,用一条光滑的曲线连接起来。因为这条曲线有无数种可能,从而有各种拟合方法。
回归,研究一组随机变量(Y1,Y2,Yi)和另一组(X1,X2,Xk)变量之间关系的统计分析方法。通常Y1,Y2,Yi是因变量,X1、X2,Xk是自变量。
2、方法不同
回归分析的主要内容有以下:从一组数据出发,确定某些变量之间的定量关系式;即建立数学模型并估计未知参数。通常用最小二乘法。检验这些关系式的可信任程度。
在多个自变量影响一个因变量的关系中,判断自变量的影响是否显著,并将影响显著的选入模型中,剔除不显著的变量。通常用逐步回归、向前回归和向后回归等方法。利用所求的关系式对某一过程进行预测或控制。
常用的拟合方法有如最小二乘曲线拟合法等,在MATLAB中也可以用polyfit来拟合多项式。拟合以及插值还有逼近是数值分析的三大基础工具,拟合为已知点列,从整体上靠近它们;插值为已知点列并且完全经过点列;逼近为已知曲线,或者点列,通过逼近使得构造的函数无限靠近它们。
3、应用不同
相关分析研究的是现象之间是否相关、相关的方向和密切程度,一般不区别自变量或因变量。而回归分析则要分析现象之间相关的具体形式,确定其因果关系,并用数学模型来表现其具体关系。
比如说,从相关分析中我们可以得知“质量”和“用户满意度”变量密切相关,但是这两个变量之间到底是哪个变量受哪个变量的影响,影响程度如何,则需要通过回归分析方法来确定。
实际工作中,变量间未必都有线性关系,如服药后血药浓度与时间的关系;疾病疗效与疗程长短的关系;毒物剂量与致死率的关系等常呈曲线关系。曲线拟合(curve fitting)是指选择适当的曲线类型来拟合观测数据,并用拟合的曲线方程分析两变量间的关系。
联系:拟合优度R²衡量的为回归方程整体的拟合度,是表达因变量与所有自变量之间的总体关系。R²等于回归平方和在总平方和中所占的比率,即回归方程所能解释的因变量变异性的百分比。
实际值与平均值的总误差中,回归误差与剩余误差是此消彼长的关系。因而回归误差从正面测定线性模型的拟合优度,剩余误差则从反面来判定线性模型的拟合优度。统计上定义剩余误差除以自由度n-2所得之商的平方根为估计标准误。
为回归模型拟合优度的判断和评价指标,估计标准误显然不如判定系数R²。R²为无量纲系数,有确定的取值范围(0—1),便于对不同资料回归模型拟合优度进行比较;而估计标准误差是有计量单位的,又没有确定的取值范围,不便于对不同资料回归模型拟合优度进行比较。
参考资料来源:百度百科-拟合
参考资料来源:百度百科-回归