Prose_拟合度检验与HL检验问题

和同学聊起拟合度检验和Hosmer-Lemeshow检验的问题,我以前也没有仔细考虑过。社会学的论文里经常是简单看一下R-square的大小,并不关心GOF(goodness-of-fit)的检验。但在医学或公共卫生领域,这一检验则相当重要。

1、界定

首先要确定拟合度和拟合度检验是什么,我们说的是不是一个东西。
(1)第一种是针对于r方的,一般平时跑回归模型不会专门报告这个检验,单独跑两变量会报告。具体常用的也有两种,一种是卡方检验(类别),另一种是Hosmer-Lemeshow检验(连续)。
(2)第二种是模型整体的,其实是F检验和t检验。

2、具体而言

(1)r square的目的是所有解释变量x能够在多大程度解释被解释变量y。卡方检验目的是检验一个类别变量的实际分布(各类别频数)与假设分布的拟合程度;同理,HL检验在模型设置正确且样本量大的情况下,这个统计量近似是一个D.F=8的卡方统计量。一般我们认为当P值不小于检验水准时(即P>0.05),当前数据中的信息已经被充分提取,模型拟合优度较高。
(2)F检验则是所有x变量的回归系数是不是0,就是所有变量的显著程度;同理,t检验是单个变量的显著程度。
一般回归模型会报告的是F检验和adj R squared,不会专门报告rsquare的检验。当然rsquare也需要检验,在医学领域被称为模型校准度。但我认为在社科的解释里可能并不重要,因为我们一般试图探讨的是变量和变量之间是否存在关系,而不是探讨我能否用这些变量完美地预测被解释变量。

3、拓展

有关这一问题的进一步讨论,可以看一下这篇《Why I Don’t Trust the Hosmer-Lemeshow Test for Logistic Regression》文章,Paul Allison这个人,系宾夕法尼亚大学的社会学教授,从2013年到2020年对Hosmer-Lemeshow检验的回应。
他这篇文章和后面的很多答疑,基本观点是:(1)Hosmer-Lemeshow检验可能不可靠,如果检验没有通过,可以尝试加入一些交互项;(2)后续一些疑问,一般是为什么大样本没有通过Hosmer-Lemeshow检验,而小样本通过了。对于大样本而言,很细微的差异也会HL检验被放大;对于小样本而言,看Allison的建议,是加入新变量和新交互项看一下。
此外,我进一步看了Allison的会议论文(2014),他提及:
(1)加入显著的交互项,有可能改善HL检验。显著或者不显著的平方项都可能拉低HL检验的显著性,所以不建议加平方项;不显著的交互项也不建议加。
(2)有一个取巧的办法,是直接改Hosmer-Lemeshow检验的g值,一般我们默认是10,但是9、8、7之类可能会影响显著性。但是这种更改比较武断,没什么道理,有很多人批评。
(3)更进一步可以用Standardized Pearson Test、Unweighted Sum of Squares、Information Matrix Test、Stukel Test进行尝试性替代检验,但这些检验也都多少有些问题。具体可以参照Allison的会议论文。

Reference

Allison P D. Measures of Fit for Logistic Regression[C]//Proceedings of the SAS Global Forum 2014 Conference. 2014: 1-13.