Memo_社会科学因果推断的理论基础

Posted on 2019-06-22 In Social Research Method , Quantitative Method Word count in article: 3.2k Reading time ≈ 11 mins.

胡安宁. 社会科学因果推断的理论基础[M]. 社会科学文献出版社, 2015.
这本书主要基于倾向值匹配（PSM），注重原理。（1）全书第1、2章为因果推论框架；（2）第3章为二分变量的PSM分析过程；（3）第4章为多变量扩展，第6章为个案扩展；（4）第5章为PSM的问题。

谢宇/梁玉成表格	处理效应恒定	处理效应存在变化
基于可观测变量	倾向值匹配(PSM)	异质性处理效应(HTE)
基于不可观测变量	内生转换(SWM)	工具变量(IV)

但近来听梁玉成老师的计算社会学，梁玉成引述了去年Judea Pearl写的新书《为什么》，认为实验虽然是获取因果机制的黄金方法，但这一范式在社会科学中无法通行，原因在于：（1）不知道社会情景有多少种实验类型；（2）不知道不同实验类型的比例。如果仅对如是否上大学会影响收入这一简单命题考虑，反事实框架可以通用，但当我们面对国家与社会等复杂命题时，仿照实验的思考就会局限，因此晚近基于贝叶斯网络的因果推论或将成为革命。

第1章社会科学中的因果推论：反事实框架与随机试验

	相关	因果
观测性研究	简单回归分析	反事实分析、格兰杰时序模型(Granger)等
实验性研究	/	随机实验

因为随机实验满足(1)随机化、(2)非参数性，随机化地分配被研究个案，使混淆变量U变成了不会和Y与X产生统计关联的随机变量U，可以进行因果推论。

“在随机实验中，选择性误差可以通过随机化（randomization）的方法克服。”（胡安宁，2015：33）

胡安宁举例了经过新、旧两种学习方法后，班级成绩是否有变化（1）因为随机化，对照组是实验组的反事实个案；（2）依赖Fisher的强零假设，成绩差异不是偶然。

	因变量分布	检验
零假设	假定的参数分布	集合的特征值，如均值检验
强零假设	经验的非参数分布	每个个案，Fisher精确P值分析

第2章倾向值匹配 [同质性]效应分析

一、二变量PSM的原理

（一）事实与反事实：四种类别

	实验组Y1(上大学的人)	对照组Y0(没上大学的人)
事实	Y1\|w=1 (上大学的人收入)	Y0\|w=0 (没上大学的人收入)
反事实	Y0\|w=1 (没上大学的人如果上的收入)	Y1\|w=0 (上大学的人如果没上的收入)

[注：Markdown使用|区分表格列，所以表格中的|使用的是ASCII字符集|]

其中，w是二分变量，1代表在实验组（上大学），0代表在对照组（没上大学）。如果 $\pi$ 即实验组中的比例， $1-\pi$ 即对照组中的比例，那么因果性关系可表示为

T=\pi[E(Y_1|w=1)-E(Y_0|w=0)]+[(1-\pi)E(Y_1|w=0)-E(Y_0|w=0)]

（二）前提：非混淆假设

1、含义

具体而言，我们希望满足以下条件，这在统计学上称为非混淆假设（unconfoundedness assumption）
$E(Y_1|w=0)=E(Y_1|w=1)$ 以及 $E(Y_0|w=0)=E(Y_1|w=0)$

在这里（1）上了大学的那些人， $E(Y_1|w=0)$ 是如果他们没上大学的收入、 $E(Y_1|w=1)$ 是我们观测到的收入；（2）没上大学的那些人， $E(Y_0|w=0)$ 是我们观测到的收入， $E(Y_0|w=1)$ 是如果他们上了大学的收入。也即是说，如果我们通过非混淆假定，认为是否上大学，对那些“事实”我们观测到读了大学的人而言，如果其没读大学，其收入和我们观测的仍然相同。这样我们便能够将因果推论的公示简化为：

T=E(Y_1|w=1)-E(Y_0|w=0)

“需要指出的是，非混淆假设也可以通过类似结构方程模型这样的图式表示出来。在这方面，珀尔（Judea Pearl）的研究是具有突破性的。如果用数学图论的方式来表示因果关系，则非混淆假设可以表达成一个后门标准（backdoor criterion）。如果混淆变量Z满足自变量X和因变量Y之间的后门标准，那么Z中没有变量是X引起的，且Z中包含所有连接X和Y的箭头，这些箭头囊括了指向X的混淆变量。”（胡安宁，2015：41）

2、方法：控制混淆变量（倾向值得分）

“随机化是统计学中畅通的办法…但我们很难做到随机化。为了满足非混淆假定，我们尽可能控制混淆变量X，并保证这些变量一旦被控制起来，w就能近似地和 $Y_1$ 或者 $Y_0$ 保持独立，换句话说，我们希望做到：
$E(Y_1|w=0,X)=E(Y_1|w=1,X)$ 以及 $E(Y_0|w=0,X)=E(Y_1|w=0,X)$ …在倾向值匹配中，所有这些X通过逻辑回归总结成为一个特定的倾向值P，而非混淆假设就是通过控制倾向值P来满足的。” （胡安宁，2015：40）

（1）邻近（nearest neighborhood matching），但有可能将并不近似的匹配到一起；（2）半径（radius matching），但问题在于半径设定是主观的；（3）核心匹配（kernel matching）；（4）分层匹配（stratification matching）。需要采取多种匹配方法进行交叉验证。

3、后续检验：敏感性分析

“很多时候我们很难知道我们是否已经控制了需要控制的所有混淆变量。正是因为如此，在完成倾向值匹配以后，我们通常需要进行敏感性分析（sensitivity analysis）。正是在这个意义上，倾向值匹配只是努力地满足反事实框架下的因果推论条件。”(胡安宁，2015：41)

论文方法	论文时间	论文原理	具体操作
罗森鲍姆界限(Rosenbaum bounds)	2002	统计量显著性检验(McNemar’s Test 秩检验等)	Gamma系数=1，潜在混淆变量U无影响；Gamma系数越大，U越重要；判断标准在于Gamma系数取值多大时，结论不显著
伊娒本斯(Imbens)	2003	基于似然函数对数值建构潜在混淆变量U，比较U与X对W与Y的偏方差解释比例	/
原田正孝(Masataka Harada)	2012	基于U、U与X预测Y的两个回归方程残差建构潜在混淆变量，比较U与X对W与Y的偏方差解释比例	/

“假设存在某个混淆变量对于人们进入大学有很大影响，那么把其忽略会对现有结论造成什么影响呢？…我们主要观察在什么样的伽马系数水平上我们的结论变得不显著。如果伽马系数接近1时我们的结论就已经不显著了，那么我们已有的结论就经不起推敲。如果在伽马系数取值很大的时候我们的结论才变得不显著，我们就能够确定我们的结论是站得住脚的。”（胡安宁，2015：83-84）
“这说明，为了使我们的结论不显著，这个被忽视的混淆变量需要强大到在这个变量上取值不同的两个人中一个人（读大学）的概率是另一个人的3.5倍。这样的混淆变量太少见了，因此我们根据已有的混淆变量建构的模型以及估计的倾向值是稳健的。”（胡安宁，2015：85）

二、比较：Heckman两步、断点回归、IV

（一）Thistlethwaite 断点回归，1960

断点回归是一种特殊情况的PSM，即恰好仅一个变量就满足了非混淆假定。

“在上面的荣誉奖励的例子中，一个人得到荣誉奖励可以理解为一个人进了实验组，而这完全取决于学生的考试分数X（分数高就有奖励，分数低就没有奖励）就和因变量 $Y_1$ （得到了奖励的学生的学术成就）以及 $Y_0$ （没有得到奖励的学生的学术成就）独立了…换句话说，回归中断设计中只有一个混淆变量X…在社会学研究中，类似的多重中断并不少见，这也使得回归中断设计应用范围受到限制。”（胡安宁，2015：50-51）

（二）Heckman 两步估计法，1979

E(y_i|y_i)=\rho\sigma_\varepsilon\frac{\phi(\frac{w_i\gamma}{\sigma_u})}{\Phi(\frac{w_i\gamma}{\sigma_u})}

“对比倾向值匹配和Heckman选择模型，二者都需要在第一步模型中构建出一个明确的个体接受某种处理的概率…都在第二步分析中考察并控制选择性误差。实际上，通过对逻辑回归模型或者Probit模型得到的预测值恰恰就是 $\frac{w_i\gamma}{\sigma_u}$ ，在这个意义上，倾向值匹配与Heckman选择模型是相通的。”（胡安宁，2015：48）

其中， $E(y_i|y_i)$ 是可观测到的。

（三）Angrist IV，1996

胡安宁引述Joshua Angrist服兵役与健康的关系，服兵役的工具变量是随机抽签结果，抽到数字低于某值服兵役，反之不服兵役。

1、工具变量的条件

（1）单位处理值稳定假设（stable unit tretment value assumption），抽签间相互独立；（2）非混淆假设，抽签结果与个体健康独立；（3）排除性假设，因果推论中排除无论如何抽签都会服兵役，或都不会服兵役的人；（4）平均因果效果非零假设；（5）单调性假设，因果推论中排除低高“数字偏偏服兵役”与“低数字偏偏不服兵役”的“叛逆者”。

2、工具变量的问题

（1）因果关系是局部平均处理效应（local average tretment effect），仅推论非“叛逆者”的“服从者”；（2）工具变量要与自变量强关联，但与其他混淆变量不相关）；（3）工具变量的随机性难以保证

“回归中断设计需要寻找一个变量完全决定个体是否进入实验组或者对照组，而工具变量的方法也需要寻找到合适的工具变量来满足上面列举的诸多条件，这些在调查数据中往往难以满足。”（胡安宁，2015：55）

（四）多元回归

（1）多元回归依赖于模型形式；PSM比较实验组与对照组的均值差异，是非参数性的；（2）多元回归存在多重共线性问题，PSM不存在；（3）多元回归可能忽视了两组的非重叠性，比如上大学的都是男性且年龄在30以上，没上大学的都是女性且年龄在30以下，这两组完全非重叠，但回归模型有系数；PSM不会忽视非重叠性，因为无法匹配倾向值。
胡安宁依次予以反驳，认为（1）考察散点图来确认模型；（2）删除变量以避免vif（3）考察联合分布、完全不重叠概率很小。

“与倾向值匹配相比，多元回归本身没有明显劣势…多元回归的结果和倾向值匹配的结果是相近的，二者都能够指出那些显著性的变量。（胡安宁，2015：198）

三、多变量PSM的原理广义倾向值匹配

四、PSM的问题

（1）非混淆假定难以满足，但这是分析前提，因此要尽可能多的控制混淆变量；（2）单位实验效果值稳定假定，即个体间相互独立假定，天主教学校对学生成绩的影响和学校人数无关，要加以考虑；（3）需要大样本支持，尽可能多地匹配对象；（4）主要用于验证理论、效果评估，变量间的因果关系要有清楚的理论支持。

余略
第4章倾向值匹配 [同质性]中介分析
一、一个中介变量
二、多个中介变量
第4章倾向值匹配 [异质性]多层次模型
一、PSM多层次原理
二、比较：Heckman MTE、非参数局部线性核心法
第5章社会科学中的因果推论：样本量问题

第1章 社会科学中的因果推论：反事实框架与随机试验

第2章 倾向值匹配 [同质性]效应分析