77百科网
当前位置: 首页 生活百科

倾向得分匹配法数据分析(倾向得分匹配PSM的原理与步骤)

时间:2023-05-26 作者: 小编 阅读量: 2 栏目名: 生活百科

为此,考虑使用自助法求标准误,尽管自助标准误差也未必正确。这不能说明PSM得到了一个不显著的结果。需要注意的是,PSM只能缓解由可观测变量带来的内生性问题,无法处理最为关键的由不可观测变量带来的内生性问题。

匹配估计的思想:假如你要研究企业的R&D投入对performance的影响,匹配思想是这样的:假如有两家企业,其R&D投入明显不同,但是其他各方面都高度相同,例如公司规模,杠杆率,所属行业,公司治理结构等,那么在其他各方面都高度相同的情况下,这时就可以把公司performance的差异归因到R&D投入的差异。这种找到一个控制组的个体,使得该个体与处理组的个体在除自变量外其他各因素都相似(也就是匹配),在通过自变量的差异解释因变量差异的行为,就是匹配的思想。

一般来说,每个样本有多个属性,例如一家公司,属性有公司规模,公司年龄,杠杆率,增长率,市场占有率,治理结构相关变量,行业等,这就意味着匹配时要考虑诸多属性,也就是进行高维度匹配。一个比较好的思路是定义高维空间的距离,然后计算两个样本在高维空间的距离。

倾向得分的定义是一个个体进入处理组的概率,为什么要引入这个概念?因为如果针对多个可观察特征X进行对比匹配非常困难,所以,可将多维协变量X用一个一维变量——倾向得分P(x)来代替,这样,研究者就只需要对单一的倾向得分变量进行匹配,从而大大减少了匹配的困难。这个方法最早由Rosenbaum and Rubin(1983)提出。

PSM在stata的实现过程。

首先,如果自变量是连续变量,需要转换为二元离散变量,比如自变量是企业R&D投入,你需要找到一个临界值,把R&D投入分为高R&D投入组和低R&D投入组,临界值包括:平均数,上下三分位数,及其他分位数等,没有明确规定。在具体做时,可找一篇类似topic的好点的期刊,看看他们是怎么分的,这样在分组时也有依据。如果自变量本身就是二元离散变量,更简单,都不用分组了,直接按0-1分组。在stata上代码如下

对于离散变量:

gen dv_dum=2 //dv是指变量,dv_dum是指生成自变量的二元变量。replace dv_dum=0 if dv=0 replace dv_dum=1 if dv=1

如果你的自变量本身就是标为0和1,这一步可以不用,但是如果标为1和2或者其他符号,一定要转换为0和1.

对于连续变量:

quantities dv, gen (dv_dum) nq(3)//根据分位数产生三个虚拟变量,也就是决定选择一个三分位数(上三分位或者下三分位数)为临界值。

replace dv_dum=0 if dv_dum==1replace dv_dum=0 if dv_dum==2replace dv_dum=1 if dv_dum==3//意思是把自变量从小到大排列,最大的1/3作为较高的组,标为1,剩余较小的2/3作为较低的组,标为0.

在这一部完成后,就可以开始匹配了。

set seed 10101gen ranorder=runiform()sort ranorderpsmatch2 dv_dum 匹配变量1 匹配变量2 匹配变量3......, outcome (因变量) 匹配方法ate ties logit common

对上一条代码的解释:psmatch2是stata里的匹配命令,如果没有安装需要先安装:ssc install psmatch2;

匹配变量1 匹配变量2 匹配变量3......是指你认为应该让两者一致的变量,比如,你要研究R&D对performance的影响,你就要想想应该让这两家公司的哪些特征一致然后再来比较两家公司R&D对performance的影响。这里的匹配变量可以是控制变量,也可以不仅仅是控制变量,看你能想到什么特征,能得到什么数据。具体在选择匹配变量时,还是要看看类似topic的好点的期刊怎么选的。

匹配方法:陈强书上介绍了8种方法,你可以每一种都试试,一般来说集中方法匹配的最终结果差异不大。

ate:同时汇报ATE,ATU与ATT的结果

ties :包括所有倾向得分相同的个体

logit: 这次匹配用到的回归方法是logit回归。

common:仅对共同取值范围内的个体匹配,默认对所有个体进行匹配。

对匹配结果的解读,以陈强书为例:

这是陈强书548页的一个匹配结果,这张表关注的点不是上面变量的系数符号与显著性,关注的是ATT的difference值及其T值(实际上这个T值也可不关注)。ATT是个体在干预状态下的平均干预效应,也就是在控制其他匹配变量不变的情况下,自变量从0变为1,因变量的变化。

这里ATT的difference是1.41,意思是在其他匹配变量一致的情况下,自变量是1与自变量是0导致的因变量的差异是1.41个单位,这就是我们要求的系数。接下来根据T值确定p值,这里的T值就是个T检验,T值1.96对应的p值是0.05,一半要求大于1.96,具体可查看T检验统计表。不过Note提示了,这个表格的标准误差有两个问题,就是没有考虑倾向得分为估计所得的事实,即假设倾向得分为真实值,然后求标准误,并且该标准误假设同方差,也可能不成立。为此,考虑使用自助法求标准误,尽管自助标准误差也未必正确。

set seed 10101bootstrap r(att) r(atu) r(ate), reps(500): psmatch2dv_dum controls , outcome (Y) ties ate logit common

p值求出来了,大于0.1,不显著。这不能说明PSM得到了一个不显著的结果。刚才用的匹配法是一对一匹配,一般来说要把几种常见匹配都试试。陈强书中就把8种匹配法都试了,其中有几种得到了显著的结果。例如用核匹配得到的结果,T值大于1.96,不过这里也应该用自助法求出控制异方差的p值。

用PSM求系数的步骤已经完成了,还有一步是检验匹配结果是否平衡。

pstest Y 匹配变量1 匹配变量2 匹配变量3......, both

还是以陈强书为例,这张表格,要得到的结果是每个匹配变量在匹配后,各匹配变量的均值不存在显著差异,其标准化误差小于10%,以age为例,5.6就是匹配后样本组与控制组的age的标准化差异,小于10%。只有一个变量u74的标准化误差大于10% ,但是也不大很多,并且只有一个变量,因此这个匹配的平衡性可以接受。平衡性检验了可以在匹配前进行,也可以在匹配后进行,只要检验结果可接受。

PSM的过程在这里就可以结束了,不过有的文章还会用匹配后的数据做个回归,你主分析用的什么回归,这里就用什么回归,只不过样本变了。

匹配后的多元回归,首先要把不参与匹配的样本删除,代码:drop if _weight==.//_weight是指样本是否参与了匹配,参与了则标为数字,没参与则标为点.,因此这一步是把没参与匹配的样本去掉。xtset firm yearxtreg Y dv_dum controls, fe r

PSM的使用有一些条件:1.样本量尽量大,如果样本太小,会导致处理组许多样本在控制组中找不到能匹配的样本,或者能匹配,但是距离很远,也就是控制组的这个样本与处理组的这个样本相对是最匹配的,但是绝对匹配度依然不高。

2.处理组与控制组的倾向得分有较大共同取值范围,否则会丢失较多样本,导致匹配的样本不具备代表性。

需要注意的是,PSM 只能缓解由可观测变量带来的内生性问题,无法处理最为关键的由不可观测变量带来的内生性问题。以上面的例子为例,如果影响企业是否披露R&D投资的因素是不可观测的,那么PSM就不适用了。

参考文献:

Hamilton, B. H., & Nickerson, J. A. (2003). Correcting for endogeneity in strategic management research.Strategic Organization,1(1), 51-78.

Rosenbaum, P. R., & Rubin, D. B. (1983). The central role of the propensity score in observational studies for causal effects.Biometrika,70(1), 41-55.

文章材料整理源于网络,仅用于学习交流,不作商业用途,如有侵权,请联系删除。

    推荐阅读
  • 搞笑动图奇葩(有些事你千万别试)

    现在奇葩君告诉你,这并不是不能做到的事!下面是奇葩君为大家带来的脑抽宠物三连击!有人告诉奇葩君,上面的这只喵星人跟他女朋友生气的时候一模一样。奇葩君提醒大家,在海滩游玩可要选好项目,要不然就会...奇葩君表示:这是我看过最好看的慢动作!)最后是奇葩君为大家的交通惊险瞬间!奇葩君提醒大家,出门在外,一定要注意交通安全!

  • 产业融合平台厂商(巨头互联互通拆墙)

    如外界所料,阿里巴巴在双十一启动会上宣布,该分享功能于10月27日正式上线,刚好也是淘宝双十一活动期内。9月9日,工信部有关业务部门召开“屏蔽网址链接问题行政指导会”,要求9月17日前各平台按标准解除屏蔽。当前正在按照专项行动的方案安排,指导相关互联网企业开展自查整改。2月淘特首次向微信提出了小程序和接入微信支付申请,目前仍在审核中,未得到腾讯和微信方面的回应。

  • 今年车险改革保费是降还是高了(保费反而还贵了400块)

    保费反而还贵了400块近期,有不少车主吐槽,自己的车险涨价了不少,甚至有些车主反映,自己的车子从没有出过险,结果保费也涨价了,这是为什么?李先生在12月份为自己的车险续保时,发现自己三年内都没出险的车子保费竟然上涨了李先生。

  • 南通大学2019年各省录取情况(南通大学录取线2019)

    南通大学2019年各省录取情况01普通类各省录取情况02艺术类各省录取情况03江苏省各专业录取情况提前本科农村定向提前本科师范定向农村医学定向本科一批江苏高校中外学分互认联合培养项目中外合作办学本科二批

  • 蒸螃蟹需要用热水还是冷水(冷水蒸还是热水蒸)

    不同于其他食材,蒸螃蟹摆放的方式是很有讲究的。一定要将螃蟹肚子朝上,蟹壳朝下摆放着,这样可以让螃蟹受热均匀,同时料理出来的螃蟹不容易漏出蟹黄或者蟹膏,很多人蒸螃蟹时不注意这一点,结果导致蟹黄不断往外流,好东西全都浪费了。所以蒸螃蟹要冷水上锅,随着温度逐渐上升,让受热比较均匀,这样蒸的螃蟹不易断腿不易流黄,蟹肉鲜香入味。掌握了这几步,基本上就可以做出美味的蒸螃蟹了。

  • 别输在不会表达上经典句子(别输在不会表达上)

    明智的人不会这么说,只有那些自以为是的人才会这样表达。另外,在交谈的态度中,要注意不要咄咄逼人。许多问题的关键,不在矛盾发生后,而在矛盾发生前的处事方法。不要一味争执,冷静下来再说。和别人说话,感觉气氛不对时,我们就可以说一些另外的事情岔开话题,避免谈话的双方陷入争执。优雅的说“不”。直截了当地说不,很容易使对方没面子,难堪,影响关系。

  • 飞机上为啥不能带伞(飞机上为什么不能带伞?)

    根据规定,旅客携带的每件物品的体积不得超过20cmx40cmx55cm,总重最不得超过5公斤,超过的需办理托运。旅客随身携带但可作为行李托运的物品主要包括日用和专业刀具,以及锐器和钝器。持婴儿票的旅客,无免费行李额。

  • 黄道吉曰是什么意思(词语黄道吉曰的意思是什么)

    黄道吉曰是什么意思?下面希望有你要的答案,我们一起来看看吧!黄道吉曰是什么意思黄道吉日:也叫黄道日。

  • 冰箱上层结冰处理方法(冰箱上层结冰怎么处理)

    下面希望有你要的答案,我们一起来看看吧!冰箱上层结冰处理方法首先,需要查明冰箱上层结冰到底是什么原因导致,然后才可以对症下药,并且及时处理上层的冰块。如果是因为冰箱冷藏室温度设置太低的话,这时候就可以直接通过调节冰箱温度来解决结冰额现象,然后等冰块融化后用干抹布擦干水分。如果是冷藏室的排水口堵住的话,就可以用细软电线将堵住的排水口清理干净这样就不会再出现结冰的现象。

  • 云飞丝路天在哪个台播出(云飞丝路天讲的是什么故事)

    我们一起去了解并探讨一下这个问题吧!云飞丝路天在哪个台播出《云飞丝路天》在山东卫视播出。《云飞丝路天》是由西安曲江影视公司、北京中视环亚影视公司、河北世纪天歌影视公司联合出品,张汉杰执导,张嘉译、张延领衔主演的年代商战剧。该剧讲述了山西商人何天宝凭借仁义礼智信的坚定信念在张家口艰苦创业的故事。