Prose_拟合度检验与HL检验问题
和同学聊起拟合度和Hosmer-Lemeshow检验的问题,我以前也没有仔细考虑过。社会学的论文里经常是简单看一下的大小,并不关心GOF(goodness-of-fit)的检验。但在医学或公共卫生领域,这一检验则相当重要。
1、界定
首先要确定拟合度、拟合度检验等几个概念。
(1)是衡量线性回归模型中自变量对因变量解释能力的统计量,但并没有专门的检验来评估。
(2)拟合度检验是评估模型整体的拟合情况。具体常用的拟合度检验方法有:其一是卡方拟合优度检验(分类变量),其二是Kolmogorov-Smirnov检验(连续变量),其三是Hosmer-Lemeshow检验(Logistics二分类)。
(3)F检验和t检验是评估回归模型中系数的显著性,而不是用于模型整体的拟合度检验。
2、具体而言
(1)的目的是衡量所有解释变量x在多大程度解释被解释变量y。卡方检验目的是检验一个类别变量的实际分布(各类别频数)与假设分布的拟合程度;同理,Hosmer-Lemeshow(HL)检验在模型设置正确且样本量大的情况下,这个统计量近似是一个D.F=8的卡方统计量。一般我们认为当P值不小于检验水准时(即P>0.05),当前数据中的信息已经被充分提取,模型拟合优度较高。
(2)F检验用于检验所有x变量的回归系数是否均为0,即所有变量的显著程度;同理,t检验用于检验单个变量的显著程度。
一般回归模型会报告的是F检验和adjusted 。当然也很重要,但我认为在社科的解释里可能并不重要,因为我们一般试图探讨的是变量和变量之间是否存在关系,而不是探讨我能否用这些变量完美地预测被解释变量。
(3)此外,有必要进一步区分与医学领域中的模型校准度。是衡量线性回归模型中解释变量对因变量解释能力的统计量。校准度是用来评估模型预测值与实际值的一致性,且亦通过Hosmer-Lemeshow检验等方法来评估。
3、拓展
有关这一问题的进一步讨论,可以看一下这篇《Why I Don’t Trust the Hosmer-Lemeshow Test for Logistic Regression》文章,Paul Allison这个人,系宾夕法尼亚大学的社会学教授,从2013年到2020年对Hosmer-Lemeshow检验的回应。
他这篇文章和后面的很多答疑,基本观点是:(1)Hosmer-Lemeshow检验可能不可靠,如果检验没有通过,可以尝试加入一些交互项;(2)后续一些疑问,一般是为什么大样本没有通过Hosmer-Lemeshow检验,而小样本通过了。对于大样本而言,很细微的差异也会HL检验被放大;对于小样本而言,看Allison的建议,是加入新变量和新交互项看一下。
此外,我进一步看了Allison的会议论文(2014),他提及:
(1)加入显著的交互项,有可能改善HL检验。显著或者不显著的平方项都可能拉低HL检验的显著性,所以不建议加平方项;不显著的交互项也不建议加。
(2)有一个取巧的办法,是直接改Hosmer-Lemeshow检验的g值,一般我们默认是10,但是9、8、7之类可能会影响显著性。但是这种更改比较武断,没什么道理,有很多人批评。
(3)更进一步可以用Standardized Pearson Test、Unweighted Sum of Squares、Information Matrix Test、Stukel Test进行尝试性替代检验,但这些检验也都多少有些问题。具体可以参照Allison的会议论文。
Reference
Allison P D. Measures of Fit for Logistic Regression[C]//Proceedings of the SAS Global Forum 2014 Conference. 2014: 1-13.