引言 本文中主题是内生性,它可能严重偏向回归估计。我将专门模拟由遗漏变量引起的内生性。在本系列的后续文章中,我将模拟其他规范问题,如异方差性,多重共线性和对撞机偏差。

数据生成过程

SRE实战 互联网时代守护先锋,助力企业售后服务体系运筹帷幄!一键直达领取阿里云限量特价优惠。

考虑一些结果变量的数据生成过程(DGP)R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第1张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第2张​:

R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第3张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第4张

R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第5张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第6张

对于该模拟,我设置参数值R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第7张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第8张​,R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第9张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第10张​以及R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第11张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第12张​与模拟正相关的独立变量,R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第13张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第14张​和R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第15张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第16张​(N = 500)。

1

2

3

4

6

7

8

9

# simulation parameters

set.seed(144);

 a=50; b=.5; c=.01;

  

 x=rnorm(n=ss,mean=1000,sd=50);

z=d+h*x+rnorm(ss,0,10)

模拟

模拟将估计下面的两个模型。第一个模型是正确的,它包含实际DGP中的所有术语。但是,第二个模型省略了DGP中存在的变量。相反,变量被误入了误差项  R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第17张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第18张​。

R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第19张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第20张

R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第21张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第22张

第二个模型将产生一个有偏差的估计R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第23张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第24张​。差异也会有偏差。这是因为它R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第25张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第26张​是内生的,这是一种说它与错误术语相关的奇特方式R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第27张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第28张​。由于R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第29张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第30张​和R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第31张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第32张​,然后R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第33张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第34张​。为了说明这一点,我在下面进行了5000次迭代的模拟。对于每次迭代,我R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第35张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第36张​使用DGP 构造结果变量。然后我运行回归估计R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第37张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第38张​,首先是模型1,然后是模型2。

1

2

3

4

6

7

8

9

10

11

12

sim=function(endog){

  e=rnorm(n=ss,mean=0,sd=10)

  # Select data generation process

 if(endog==TRUE){ fit lm(y~x) }else{ fit=lm(y~x+z)}

 return(fit$coefficients)

}

 

  sim_results_endog=t(replicate(trials,sim(endog=TRUE)))

仿真结果该仿真产生两种不同的采样分布R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第39张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第40张​。请注意,我已将true值设置为R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第41张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第42张​。如果R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第43张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第44张​不省略,则模拟产生绿色采样分布,以真实值为中心。所有模拟的平均值为0.4998。当R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第45张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第46张​被省略,仿真得到的红色采样分布,围绕0.5895居中。它偏离.5895的真实值。此外,偏差采样分布的方差远小于周围的真实方差R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第47张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第48张​。这会影响对真实参数执行任何有意义推断的能力。 

R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第49张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第50张

R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第51张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第52张​可以通过分析得出。考虑在模型1中(如上所述),R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第53张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第54张​并  R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第55张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第56张​通过以下方式相关:

R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第57张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第58张

R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第59张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第60张​用等式3 代入等式1并重新排序:

 R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第61张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第62张

 R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第63张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第64张

省略变量时R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第65张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第66张​,实际上是估计的等式4。可以看出,R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第67张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第68张​数量有偏差R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第69张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第70张​。在这种情况下,由于R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第71张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第72张​并且R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第73张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第74张​通过构造正相关并且它们的斜率系数是正的,所以偏差将是正的。根据模拟的参数,应该是“真实的”偏差   R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第75张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第76张​。这是偏差的分布,它以.0895为中心,非常接近真实的偏差值。

R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第77张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第78张

上述推导还可以让我们确定从知道的相关偏差的方向R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第79张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第80张​和R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第81张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第82张​以及的符号R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第83张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第84张​(的真局部效果R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第85张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第86张​上R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第87张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第88张​)。如果两者都是相同的符号,那么估计值R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第89张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第90张​会有偏见。如果符号不同,则估计值R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第91张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第92张​将向下偏移。结论上面的案例很一般,但有特殊的应用。例如,如果我们认为个人的收入是教育年限和工作年经验的函数,那么省略一个变量将偏向另一个变量的斜率估计。

 

 

还有问题吗?联系我们!

 

大数据部落 -中国专业的第三方数据服务提供商,提供定制化的一站式数据挖掘和统计分析咨询服务

统计分析和数据挖掘咨询服务:y0.cn/teradat(咨询服务请联系官网客服

R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第93张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第94张​QQ:3025393450

R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第95张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第96张

【服务场景】  

科研项目; 公司项目外包;线上线下一对一培训;数据采集;学术研究;报告撰写;市场调查。

【大数据部落】提供定制化的一站式数据挖掘和统计分析咨询服务

R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第97张R语言模型中的加总偏误与内生性:一种数值模拟方法 随笔 第98张

扫码关注我们
微信号:SRE实战
拒绝背锅 运筹帷幄