CDA Level 1 方差分析和一元线性回归分析

如题所述

第1个回答  2022-07-30

CDA level I考试大纲 Part1 数据分析概念与统计学基础 占考试比例的30%; 共分5个知识方向,考试占比分布如下:数据分析概念,方法论 流程 5% 描述性统计分析 12% 推断性统计分析8% 方差分析2% 一元线性回归分析3%;

Part 1的部分前面两个文章已经记录了 25%的考试分布,本次主要记录方差分析和一元线性回归分析,合计考试分布占比5%;

方差分析:

大纲要求熟知: 单因素方差分析的基本步骤,总离差平方和(SST)含义和计算,组间离差平方和(SSA)得含义和计算 组内离差平方和 SSE的含义及计算,单因素方差分析的原假设

一,方差分析的相关概念原理:

1,单因素方差分析:将所得数据按某些项目分类后,分析各组数据间有无差异的方法。本质是检验多个总体均值是否想等,计算过程可理解为 变异分解过程。

2, 方差分析的基本原理: 方差的可加性原则。

二、单因素方差分析的基本步骤,总离差平方和(SST)含义和计算,组间离差平方和(SSA)得含义和计算 组内离差平方和 SSE的含义及计算

1, 方差分析的基本假设:

    每个总体都应服从正态分布

    各个总体的方差必须相同

    观察值是独立的

2, 单因素方差分析的基本步骤

提出假设:H0:μ1=μ2=μ3,各个水平均值相等,即自变量对因变量没有显著影响

构造检验统计量(F统计量)

统计决策(根据P值)

3,计算F统计量的过程

a,变异分解

总体平方和���

组间平方和

组内平方和

SST = SSA + SSE

b,计算均方

组间均方 MAS=SSA/(k-1)  SSA的自由度为K-1

组内均方 MSE=SSE/(n-k)SSE的自由度为n-k

c,计算检验统计量F

 F=MSA/MSE ~F(k-1,n-k)

d,统计决策

将F 同显著性水平临界值比较.

F>Fα p<α 拒绝原假设

F<Fα p>α不拒绝元假设 有显著性影响。

三,单因素方差的SPSS实现(考试中基本没有此处)

操作流程:分析-比较均值-单因素

界面说明:因变量列表:选入连续变量,可多选,但结果是对因变量逐一进行检验,

                   因子选入 多分类的变量,即 自变量

对比:

多项式:将组间方差平方和分解为不同形式的趋势成分

系数:用于因素不同类别间的检验

两两比较:

方差齐性:

LSD:实际上是t检验的变形,只是在变异和自由度的计算上利用了整体样本的信息,仍然存在放大1类错误的问题

Scheffe:当各组人数不等,或进行较为复杂的比较时,比较稳妥

SNK:运用最广泛的一种两两比较。它采用student range分布进行所有各组均值间的比较

方差不齐:

建议games-howell稍好一点,但最好用非参的方法

简单线性回归分析

大纲要求熟知:相关关系的概念和特点,相关关系与函数关系的区别与联系。相关关系的种类,相关系数的意义,以及利用相关系数的具体数值对现象相关等级的划分,回归分析的概念,主要内容和特点,建立一元线性回归方程条件,应用回归分析应注意的问题,估计标准误差的意义及计算

一。线性相关的概念

由于各类不确定因素,数据点基本落在直线周围,我们称为具有线性相关。

正线性相关


负线性相关


完全线性相关

非线性相关

如果相关系数是根据变量的样本数据计算的,即为了推断总体,那么则称为样本相关系数。即为r,(Pearson相关系数)

r的取值范围为[-1,1],绝对值越接近1则相关性越强,且有以下情况成立:

r=1,完全正相关

r=-1,完全负相关

r=0,不存在线性相关关系

-1<r<0,负相关

0<r<1,正相关

按照习惯对相关强度进行了分级

r绝对值大于等于0.8,高度相关

r绝对值介于0.5-0.8之间,中度相关(含0.5)

r绝对值在0.3-0.5之间,低度相关(含0.3)

r绝对值小于0.3,可视为不相关

我们运用t检验来验证两个变量是否存在线性相关关系

原假设,H0,ρ=0,两变量间无直线相关关系

检验统计量t 

散点图适用条件:

数据间相互独立,变量为连续变量,两边两间关系是线性的。

二、简单线性回归的概念条件,内容,特点。

回归分析可以解决的问题: 探索影响因变量的可能因素,利用回归模型进行预测

相关与回归间的关系: 相关分析侧重反应散点的疏密程度,回归侧重反应散点的趋势程度

线性回归基本过程:

最小二乘法: 希望得到一个一元线性回归方程,使得因变量样本值,到估计值之间的2次距离总和最小,

三、一元线性回归的评价与检验

第一步:总平方和分解


第二步,计算判定系数 r方

r^2=ssr/sst 即平方和占误差平方和的比例。

第三步,残差标准误差

第四步:线性关系检验

提出假设 H0:β1=0,线性关系不显著

设定临界值:确定显著性水平α,并根据自由度,找出临界值Fα

决策 若F>Fα,P<α  拒绝H0,否则不拒绝H0

第五步 回归系数检验

提出假设 H0:β1=0,线性关系不显著

设定临界值 设定显著性水平α 根据自由度n-2,确定临界值tα/2

决策 t的绝对值>tα/2,即p<α,拒绝H0,否则不拒绝H0

四,线性回归模型的假设

线性关系

随机抽样

期望为0

同方差

正态性

相似回答