Prose_拟合度检验与HL检验问题

Posted on 2020-07-19 In Social Research Method , Quantitative Method Waline: Views: Word count in article: 922 Reading time ≈ 3 mins.

和同学聊起拟合度检验和Hosmer-Lemeshow检验的问题，我以前也没有仔细考虑过。社会学的论文里经常是简单看一下R-square的大小，并不关心GOF(goodness-of-fit)的检验。但在医学或公共卫生领域，这一检验则相当重要。

1、界定

首先要确定拟合度和拟合度检验是什么，我们说的是不是一个东西。
（1）第一种是针对于r方的，一般平时跑回归模型不会专门报告这个检验，单独跑两变量会报告。具体常用的也有两种，一种是卡方检验（类别），另一种是Hosmer-Lemeshow检验（连续）。
（2）第二种是模型整体的，其实是F检验和t检验。

2、具体而言

（1）r square的目的是所有解释变量x能够在多大程度解释被解释变量y。卡方检验目的是检验一个类别变量的实际分布（各类别频数）与假设分布的拟合程度；同理，HL检验在模型设置正确且样本量大的情况下，这个统计量近似是一个D.F=8的卡方统计量。一般我们认为当P值不小于检验水准时（即P>0.05），当前数据中的信息已经被充分提取，模型拟合优度较高。
（2）F检验则是所有x变量的回归系数是不是0，就是所有变量的显著程度；同理，t检验是单个变量的显著程度。
一般回归模型会报告的是F检验和adj R squared，不会专门报告rsquare的检验。当然rsquare也需要检验，在医学领域被称为模型校准度。但我认为在社科的解释里可能并不重要，因为我们一般试图探讨的是变量和变量之间是否存在关系，而不是探讨我能否用这些变量完美地预测被解释变量。

3、拓展

有关这一问题的进一步讨论，可以看一下这篇《Why I Don’t Trust the Hosmer-Lemeshow Test for Logistic Regression》文章，Paul Allison这个人，系宾夕法尼亚大学的社会学教授，从2013年到2020年对Hosmer-Lemeshow检验的回应。
他这篇文章和后面的很多答疑，基本观点是：（1）Hosmer-Lemeshow检验可能不可靠，如果检验没有通过，可以尝试加入一些交互项；（2）后续一些疑问，一般是为什么大样本没有通过Hosmer-Lemeshow检验，而小样本通过了。对于大样本而言，很细微的差异也会HL检验被放大；对于小样本而言，看Allison的建议，是加入新变量和新交互项看一下。
此外，我进一步看了Allison的会议论文（2014），他提及：
（1）加入显著的交互项，有可能改善HL检验。显著或者不显著的平方项都可能拉低HL检验的显著性，所以不建议加平方项；不显著的交互项也不建议加。
（2）有一个取巧的办法，是直接改Hosmer-Lemeshow检验的g值，一般我们默认是10，但是9、8、7之类可能会影响显著性。但是这种更改比较武断，没什么道理，有很多人批评。
（3）更进一步可以用Standardized Pearson Test、Unweighted Sum of Squares、Information Matrix Test、Stukel Test进行尝试性替代检验，但这些检验也都多少有些问题。具体可以参照Allison的会议论文。

Reference

Allison P D. Measures of Fit for Logistic Regression[C]//Proceedings of the SAS Global Forum 2014 Conference. 2014: 1-13.