77百科网
当前位置: 首页 生活百科

倾向得分匹配法数据分析(倾向得分匹配PSM的原理与步骤)

时间:2023-05-26 作者: 小编 阅读量: 1 栏目名: 生活百科

为此,考虑使用自助法求标准误,尽管自助标准误差也未必正确。这不能说明PSM得到了一个不显著的结果。需要注意的是,PSM只能缓解由可观测变量带来的内生性问题,无法处理最为关键的由不可观测变量带来的内生性问题。

匹配估计的思想:假如你要研究企业的R&D投入对performance的影响,匹配思想是这样的:假如有两家企业,其R&D投入明显不同,但是其他各方面都高度相同,例如公司规模,杠杆率,所属行业,公司治理结构等,那么在其他各方面都高度相同的情况下,这时就可以把公司performance的差异归因到R&D投入的差异。这种找到一个控制组的个体,使得该个体与处理组的个体在除自变量外其他各因素都相似(也就是匹配),在通过自变量的差异解释因变量差异的行为,就是匹配的思想。

一般来说,每个样本有多个属性,例如一家公司,属性有公司规模,公司年龄,杠杆率,增长率,市场占有率,治理结构相关变量,行业等,这就意味着匹配时要考虑诸多属性,也就是进行高维度匹配。一个比较好的思路是定义高维空间的距离,然后计算两个样本在高维空间的距离。

倾向得分的定义是一个个体进入处理组的概率,为什么要引入这个概念?因为如果针对多个可观察特征X进行对比匹配非常困难,所以,可将多维协变量X用一个一维变量——倾向得分P(x)来代替,这样,研究者就只需要对单一的倾向得分变量进行匹配,从而大大减少了匹配的困难。这个方法最早由Rosenbaum and Rubin(1983)提出。

PSM在stata的实现过程。

首先,如果自变量是连续变量,需要转换为二元离散变量,比如自变量是企业R&D投入,你需要找到一个临界值,把R&D投入分为高R&D投入组和低R&D投入组,临界值包括:平均数,上下三分位数,及其他分位数等,没有明确规定。在具体做时,可找一篇类似topic的好点的期刊,看看他们是怎么分的,这样在分组时也有依据。如果自变量本身就是二元离散变量,更简单,都不用分组了,直接按0-1分组。在stata上代码如下

对于离散变量:

gen dv_dum=2 //dv是指变量,dv_dum是指生成自变量的二元变量。replace dv_dum=0 if dv=0 replace dv_dum=1 if dv=1

如果你的自变量本身就是标为0和1,这一步可以不用,但是如果标为1和2或者其他符号,一定要转换为0和1.

对于连续变量:

quantities dv, gen (dv_dum) nq(3)//根据分位数产生三个虚拟变量,也就是决定选择一个三分位数(上三分位或者下三分位数)为临界值。

replace dv_dum=0 if dv_dum==1replace dv_dum=0 if dv_dum==2replace dv_dum=1 if dv_dum==3//意思是把自变量从小到大排列,最大的1/3作为较高的组,标为1,剩余较小的2/3作为较低的组,标为0.

在这一部完成后,就可以开始匹配了。

set seed 10101gen ranorder=runiform()sort ranorderpsmatch2 dv_dum 匹配变量1 匹配变量2 匹配变量3......, outcome (因变量) 匹配方法ate ties logit common

对上一条代码的解释:psmatch2是stata里的匹配命令,如果没有安装需要先安装:ssc install psmatch2;

匹配变量1 匹配变量2 匹配变量3......是指你认为应该让两者一致的变量,比如,你要研究R&D对performance的影响,你就要想想应该让这两家公司的哪些特征一致然后再来比较两家公司R&D对performance的影响。这里的匹配变量可以是控制变量,也可以不仅仅是控制变量,看你能想到什么特征,能得到什么数据。具体在选择匹配变量时,还是要看看类似topic的好点的期刊怎么选的。

匹配方法:陈强书上介绍了8种方法,你可以每一种都试试,一般来说集中方法匹配的最终结果差异不大。

ate:同时汇报ATE,ATU与ATT的结果

ties :包括所有倾向得分相同的个体

logit: 这次匹配用到的回归方法是logit回归。

common:仅对共同取值范围内的个体匹配,默认对所有个体进行匹配。

对匹配结果的解读,以陈强书为例:

这是陈强书548页的一个匹配结果,这张表关注的点不是上面变量的系数符号与显著性,关注的是ATT的difference值及其T值(实际上这个T值也可不关注)。ATT是个体在干预状态下的平均干预效应,也就是在控制其他匹配变量不变的情况下,自变量从0变为1,因变量的变化。

这里ATT的difference是1.41,意思是在其他匹配变量一致的情况下,自变量是1与自变量是0导致的因变量的差异是1.41个单位,这就是我们要求的系数。接下来根据T值确定p值,这里的T值就是个T检验,T值1.96对应的p值是0.05,一半要求大于1.96,具体可查看T检验统计表。不过Note提示了,这个表格的标准误差有两个问题,就是没有考虑倾向得分为估计所得的事实,即假设倾向得分为真实值,然后求标准误,并且该标准误假设同方差,也可能不成立。为此,考虑使用自助法求标准误,尽管自助标准误差也未必正确。

set seed 10101bootstrap r(att) r(atu) r(ate), reps(500): psmatch2dv_dum controls , outcome (Y) ties ate logit common

p值求出来了,大于0.1,不显著。这不能说明PSM得到了一个不显著的结果。刚才用的匹配法是一对一匹配,一般来说要把几种常见匹配都试试。陈强书中就把8种匹配法都试了,其中有几种得到了显著的结果。例如用核匹配得到的结果,T值大于1.96,不过这里也应该用自助法求出控制异方差的p值。

用PSM求系数的步骤已经完成了,还有一步是检验匹配结果是否平衡。

pstest Y 匹配变量1 匹配变量2 匹配变量3......, both

还是以陈强书为例,这张表格,要得到的结果是每个匹配变量在匹配后,各匹配变量的均值不存在显著差异,其标准化误差小于10%,以age为例,5.6就是匹配后样本组与控制组的age的标准化差异,小于10%。只有一个变量u74的标准化误差大于10% ,但是也不大很多,并且只有一个变量,因此这个匹配的平衡性可以接受。平衡性检验了可以在匹配前进行,也可以在匹配后进行,只要检验结果可接受。

PSM的过程在这里就可以结束了,不过有的文章还会用匹配后的数据做个回归,你主分析用的什么回归,这里就用什么回归,只不过样本变了。

匹配后的多元回归,首先要把不参与匹配的样本删除,代码:drop if _weight==.//_weight是指样本是否参与了匹配,参与了则标为数字,没参与则标为点.,因此这一步是把没参与匹配的样本去掉。xtset firm yearxtreg Y dv_dum controls, fe r

PSM的使用有一些条件:1.样本量尽量大,如果样本太小,会导致处理组许多样本在控制组中找不到能匹配的样本,或者能匹配,但是距离很远,也就是控制组的这个样本与处理组的这个样本相对是最匹配的,但是绝对匹配度依然不高。

2.处理组与控制组的倾向得分有较大共同取值范围,否则会丢失较多样本,导致匹配的样本不具备代表性。

需要注意的是,PSM 只能缓解由可观测变量带来的内生性问题,无法处理最为关键的由不可观测变量带来的内生性问题。以上面的例子为例,如果影响企业是否披露R&D投资的因素是不可观测的,那么PSM就不适用了。

参考文献:

Hamilton, B. H., & Nickerson, J. A. (2003). Correcting for endogeneity in strategic management research.Strategic Organization,1(1), 51-78.

Rosenbaum, P. R., & Rubin, D. B. (1983). The central role of the propensity score in observational studies for causal effects.Biometrika,70(1), 41-55.

文章材料整理源于网络,仅用于学习交流,不作商业用途,如有侵权,请联系删除。

    推荐阅读
  • 化妆品眼霜利润(一支眼霜打天下)

    2017年6月,丸美股份第二次递交招股书。一年后,上会前夕,证监会因为“尚有相关事项需要进一步核查”而取消审核,其IPO再次折戟。2019年4月30日,三次尝试的丸美首发申请终于获得通过;7月25日,丸美股份正式上市,如愿以偿。仅过了40个交易日,丸美市值即超过上市近20年的上海家化,并保持优势至今。丸美的综合毛利率也受益于眼霜的提振作用。截至2018年底,其主品牌“丸美”入驻1万多家日化店、1700多家大众百货和数千家美容院。

  • 科目二五次不过驾校会怎么处理(科目二五次不过驾校会如何处理)

    以下内容希望对你有帮助!科目二五次不过驾校会怎么处理任意科目,每次预约考试,都有:正常考试机会一次,当场补考机会一次。如果连续预约考试五次,均无法通过的话,之前已通过的科目成绩作废,重新从科目一开始学习并考核。如果实行上边这条规定的地区,已经把考试期限从两年有效改为三年有效。

  • 人龙传说电视剧剧情(该剧是谁主演的)

    人龙传说电视剧剧情?人龙传说电视剧剧情率性天真的龙女,偶降人间学习布云施雨,期间化身为人,她本欲嬉戏于人间,偏偏被济世为怀、品性谦厚的叶希所深深吸引。二人更展开一段稍纵即逝的凄美爱情。但“人龙相恋,必遭天遣”,诅咒应验,弄至天翻地覆,惟他们激情仍未灭。惜天意弄人,新月公主竟爱上希。《人龙传说》是1999年香港电视广播有限公司出品的古装神话剧,由罗永贤监制,陈浩民、袁洁莹主演。

  • 社区卫生服务中心送温暖义诊(健康进社区义诊暖人心)

    家住浙江金华婺城区乾西乡移民小康小区的居民叶根泉说道。近日,由金华市人民医院、婺城区卫生健康局、乾西乡卫生院组织的“走基层促健康”大型义诊巡诊活动在乾西乡移民小康社区。因此,社区联合市人民医院、乾西乡卫生院等共建单位,组织了此次义诊活动,让居民们在家门口就享受优质的医疗服务。在义诊现场,居民们热情高涨,纷纷根据自身的症状,向专家们咨询。

  • 满地捡芝麻整篓洒油是什么意思(整篓洒油满地捡芝麻的含义)

    跟着小编一起来看一看吧!满地捡芝麻整篓洒油是什么意思整篓洒油,满地捡芝麻,成语拼音:zhěnglǒusǎyóu,mǎndìjiǎnzhīmá。俗语,比喻不算大处只算小处。形容不看大处,却只注重小利。

  • 草莓生的怎么放熟(生的草莓如何催熟)

    接下来我们就一起去研究一下吧!草莓生的怎么放熟买来的草莓有点生不用担心,把它和其它已经成熟的草莓或者是熟透的水果放在一起就可以了,成熟的水果会产生一种酶,没有成熟的水果会受到这种酶的影响,就会加快成熟的速度,一般在两三天就可以吃了。需要注意的是不能把过分成熟,或者是腐烂的水果放一起,否则会导致草莓感染细菌。

  • 六一儿童节送什么书比较好(儿童节礼物选什么)

    记者从市委宣传部了解到,今年的“六一”国际儿童节前后,我市开展以“书香沁童心享受阅读的乐趣”为主题的“六一”儿童节阅读活动,将带来线上线下超200场阅读活动,为孩子们带来一套“书香大礼包”。西西弗书店则设置了“六一”少儿专区特惠,指定少儿精美图书6.1折。阅读分享专为亲子家庭准备“六一”国际儿童节前后,与阅读有关的主题活动,将在全市各区(市)县掀起高潮。评选后的照片将在今日于方庭欢乐里店揭开面纱。

  • 买椟还珠让我明白了什么道理(买椟还珠傻不傻)

    东周时期,王城洛阳的东边有个诸侯国——郑国。西周末年,周幽王荒废朝政,宠爱美女褒姒,烽火戏诸侯,不少诸侯起兵造反。当时,中原商业繁荣,王城洛阳的客商熙熙攘攘,郑国临近洛阳,生意也不差。据好事者考证,这“细子鱼一串”,其实就是用茅草穿起来的。此外,精美的瓷器,比如瓷碗、瓷盘,本身也可作为商品出售。