统计学的问题

如题所述

第1个回答  2020-11-22
1. 变量之间关系可以分为两类:

函数关系:反映了事务之间某种确定性关系。

相关关系:两个变量之间存在某种依存关系,但二者并不是一一对应的;反映了事务间不完全确定关系;

2. 为什么要对相关系数进行显著性检验?

实际上完全没有关系的变量,在利用样本数据进行计算时也可能得到一个较大的相关系数值(尤其是时间序列数值)。
当样本数较少,相关系数就很大。当样本量从100减少到40后,相关系数大概率会上升,但上升到多少,这个就不能保证了;取决于你的剔除数据原则,还有这组数据真的可能不存在相关性;
改变两列数据的顺序,不会对相关系数,和散点图(拟合的函数曲线)造成影响;对两列数据进行归一化处理,标准化处理,不会影响相关系数;我们计算的相关系数是线性相关系数,只能反映两者是否具备线性关系。相关系数高是线性模型拟合程度高的前提;此外相关系数反映两个变量之间的相关性,多个变量之间的相关性可以通过复相关系数来衡量;

3. 增加变量个数,R2会增大;P值,F值只要满足条件即可,不必追求其值过小;

4. 多重共线性与统计假设检验傻傻分不清?

多重共线性与统计假设没有直接关联,但是对于解释多元回归的结果非常重要。相关系数反应两个变量之间的相关性;回归系数是假设其他变量不变,自变量变化一个单位,对因变量的影响,而存在多重共线性(变量之间相关系数很大),就会导致解释困难;比如y~x1+x2;x·1与x2存在多重共线性,当x1变化一个单位,x2不变,对y的影响;而x1与x2高度相关,就会解释没有意义。

一元回归不存在多重共线性的问题;而多元线性回归要摒弃多重共线性的影响;所以要先对所有的变量进行相关系数分析,初步判定是否满足前提多重共线性。

5. 时间序列数据会自发呈现完全共线性问题,所以我们用自回归分析方法;

6. 什么样的模型才是一个好模型?

在测试集表现与预测集相当,说明模型没有过度拟合:在训练集上表现完美,在测试集上一塌糊涂;原因:模型过于刚性:“极尽历史规律,考虑随机误差”;拟合精度不能作为衡量模型方法的标准;

一个好的模型:只描述规律性的东西(抓住事务的主要特征),存在随机误差是好事,在预测时,就有了“容错空间”,预测误差可能减小!

7. 假设检验显著性水平的两种理解:

显著性水平:通过小概率准则来理解,在假设检验时先确定一个小概率标准----显著性水平;用 表示;凡出现概率小于显著性水平的事件称小概率事件;
通过两类错误理解: 为拒绝域面积

8. 中心极限定律与大数定理:

大数定理正态分布的“左磅”,随着样本数的增加,样本的平均值可以估计总体平均值;

中心极限定理正态分布的“右臂”具有稳定性,大数定理说明大量重复实验的平均结果具有稳定解决了变量均值的收敛性问题中心极限定理说明随机变量之和逐渐服从某一分布,解决了分布收敛性问题。
相似回答