如何运用断点回归的方法来检测数据造假?

如题所述

运用图形来分析处置效应是否存在是断点回归分析的基础。图形分析在断点回归的实施中扮演着重要的角色,通过将样本点和决定处置的关键变量在坐标系中描述出来,便可以清楚的看到临界值附近的样本点是否存在跳跃。如果样本点存在跳跃,那么说明确实存在处置效应,相反,如果样本点没有出现相应的跳跃,那么说明断点回归的模型识别可能存在问题。当我们从图形分析中发现了临界值处存在处置效应,那么就应当做进一步更加细致的计量实证分析。为了使图形更为直观,需要根据决定处置的关键变量来划分箱体(Bin)和箱体的范围[转载]断点回归及其在经济学中的应用,并在该范围内计算变量的均值。一般而言,箱体的范围需要大到包含足够多的样本使其样本点在临界值两边都比较平滑,但又要小到一定程度使得样本点在临界值处的跳跃能够明显的显现出来。

温馨提示:答案为网友推荐,仅供参考
第1个回答  2017-12-06

断点回归首先是由美国西北大学的心理学家Campbell于1958年首先发展设计出来的,从那时开始直到二十世纪80年代,Campbell和西北大学心理学系和统计学系的同事一直从事断点回归的设计和研究工作。Thistlethwaite和Campbell(1960)正式发表了第一篇关于断点回归的论文,他们提出断点回归是在非实验的情况下处理处置效应(Treatment Effects)的一种有效的方法,主要应用于心理学和教育学领域。随后,Campbell和Stanley(1963)为断点回归提供了更加清晰化的概念,但是由于他们并没有给出断点回归统计上的证明。这是08年JoE的paper,但是题主的问题问的不好,因为这篇文章讲的不是用断点回归来检测数据造假,而是要检验断点回归的running variable是不是被操纵(造假)。比如我现在规定,全校学生某次考试超过90分的就可以上实验班。因为这个90分对于学生来说是common knowledge,所以有些学生,可能本来可以考90分以上,但是为了避免上实验班给自己太大压力,会故意考到89分。那么问题来了,RD的识别虽然需要的假设很少,但是关键假设就是,你的running variable(分数)应该是连续的。这种自己选择的行为会导致成绩在90分左右的地方分布不连续,RD就不能用了。那么怎么检验呢?其实最简单的就是,你可以画个直方图,看看在90分前后,直方图的高度是不是差别很大。

1、先画直方图,注意不要把90分分在一个区间里面。对于直方图的每一个区间,计算出区间中心的数字以及区间内的数据个数。2、拿区间内的数据个数对区间中心做nonparametric的回归,为了避免边界估计很差,使用local polynomial(而非local constant)的估计,检验在90分处是不是有断点。

第2个回答  2017-12-06

Lee和Lemieux(2010)提出两种方法来选择合适的箱体范围。第一种是根据对数据的观察决定使用[转载]断点回归及其在经济学中的应用个箱体;然后对[转载]断点回归及其在经济学中的应用个箱体的虚拟变量做回归;随后,将箱体范围缩小二分之一,使得箱体由[转载]断点回归及其在经济学中的应用个变为[转载]断点回归及其在经济学中的应用个,将[转载]断点回归及其在经济学中的应用个箱体的虚拟变量作为解释变量再做一次回归。由于使用[转载]断点回归及其在经济学中的应用个箱体虚拟变量的回归是内嵌于使用[转载]断点回归及其在经济学中的应用个箱体虚拟变量的回归之中的,因此,可以使用标准的F检验来比判断[转载]断点回归及其在经济学中的应用个箱体和[转载]断点回归及其在经济学中的应用个箱体的优劣。第二种方法是基于这样一个原理,如果箱体足够的小,那么被解释变量和决定处置的关键变量将不会出现系统的联系,因此,可以将被解释变量对箱体的虚拟变量以及该虚拟变量和决定处置的关键变量的乘积项做回归,并使用F检验来判断虚拟变量和关键变量的乘积项是否显著的为0。

相似回答