Prose_中国死因数据集概览

想吐槽信息较多,单独成文以便于查阅。本文简录几个我目前关注的死因数据集,以及这些数据集的基本情况。中国的数据共享真是一言难尽。六月廿一日晚,修订部分内容。

一、世界死因数据集概览

表 全球死因数据集
DatabaseCounrtyYearCNCN YearCSVNote
WHO Mortality Database2271983-2017Yes[1]1987-2000Yes需区分ICD9-ICD10
Global Burden of Disease2041990-2021Yes1990-2021Yes柳叶刀常客数据集
Human Cause-of-Death Data Series181950-2021 ---Yes欧美国家,亚洲仅含日本
CCDC--Yes1991-2021-全国、城乡、东中西
CN 历年《卫生健康统计年鉴》--Yes1990-2021Partly仅城乡,见(十一)居民病伤死亡原因

注:本文整理于2024年6月。CCDC为中国疾病预防控制中心简称。

二、中国死因数据集的历史

中国死因数据的统计历史十分复杂。我爬梳认为,死因统计大致有四次大的变化。不理解这一工作变动,很难进行下一步的死因分析。

1. 探索期:1976-1987

(1)数据:1976年,中国进行了全国第一次死因调查(1973-1975年中国恶性肿瘤死亡调查研究),提供了中国最早的全国性死因数据。1990年代初再次调研,获得了1990-1992年全国第二次死因调查数据,但对该数据的讨论不多,这可能与同期建立了更详实的死因监测系统有关。
(2)负责单位:此时期,负责单位均系1969年成立的全国肿瘤防治研究办公室。该办公室隶属于中国医学科学院肿瘤医院,2011年成建制划出,与其他办公室合并改组为国家癌症中心。
(3)疾病编码:此时期,报告尚未依据疾病编码,汇总为30类。

2. 建立期:1990-2000

(1)数据:1990年后中国开始建立了全国性的疾病监测系统,依据145个国家疾病监测点(DSP),命名为全国疾病监测网,相应年报名为《中国疾病监测年报》,这是监测系统的第一次调整,该监测数据的时间是1990-2000年。
(2)负责单位:此时期,负责单位系1981年成立的卫生部卫生防疫司(1993年国务院改组,其与地方病防治司合并为卫生部疾病控制司)、1986年成立的中国预防科学医学院(前身为1983年中国预防医学中心)。
(3)疾病编码:此时期疾病编码依据ICD9,汇总数据未与国际接轨,汇总为103类。

3. 变动期:2004-2008-2012

(1)数据:2004年后,全国疾病监测网更名为全国疾病监测系统;2005年监测点数量扩充至161个;2006年进行了全国第三次死因回顾抽样调查,并根据该调查补充登记了2004、2005年《全国疾病监测系统死因监测数据集》;2007年后,监测系统正式更名为全国死因登记报告信息系统,并按每年出版《…死因监测数据集》,2008年该监测系统升级为网络直报,有效改善数据质量,该数据集至2013年。
(2)负责单位:此时期,负责单位系2002年卫计委直属成立的中国疾病预防控制中心(CCDC)。负责单位转交的原因,我猜测可能是因2005年疾病控制司更名为疾病预防控制局,负责相对更宏观的健康规划。
(3)疾病编码:此时期疾病编码分两个阶段,第一阶段为2004-2008年,已从ICD9转为ICD10,汇总132类,但提供与GBD转换依据;第二阶段为2009年以后,沿用ICD10,且与国际接轨,直接按GBD格式汇总为160类。
(4)此时期另一数据:另一值得注意,受2003年的SARS影响,卫健委令CCDC牵头,在2004年开始试点传染病网络直报系统(NNDRS)[2]全国医院(死亡)网络直报系统,后者系尝试在全人群中建立死因监测,相应数据在《县及县以上医疗机构死亡病例监测报告》(2004-2006年)、《全国死因监测报告》(2007-2008年)被部分披露,且与全国疾病监测系统存在一定差异,但该直报数据的公开可获得范围仅为2004-2008年。目前,医院死亡直报系统似为内部数据,未见获取途径;传染病网络直报系统由疾病预防控制局下的监测预警司负责[3],但传染病网络直报系统报告的死亡数据不可作为中国传染病死因顺位依据。

4. 稳定期:2013至今

(1)数据:2013年后,该系统进一步整合,疾病监测点大幅扩充至605个,简化更名为全国死因监测系统,相应年报更名为《中国死因监测数据集》,至今未再变动。
(2)负责单位:2013年卫计委改组为卫健委,卫健委下设的统计信息中心,开始与CCDC共同编制死因数据。此外,2022年,CCDC从卫健委直属改为由疾病预防控制局管理。
(3)疾病编码:同第三期2008年以后情况。

三、中国死因数据集的问题

此外,对于CCDC编制的死因数据集有三点值得特别注意。
第一,死因监测数据与卫生统计年鉴的口径差异。1983年以后《中国卫生年鉴》开始统计,1984年后根据全国第一次死因调查提供死因数据,该卫生统计工作似仅维持两年,仅1983、1984有详实数据,1985-2002年仅提供工作进展,2003年后年鉴分为《中国卫生统计年鉴》与《中国卫生年鉴》,前者开始再次提供数据,且根据《居民病伤死亡原因年报》提供部分年份死因数据,2014年后《中国卫生年鉴》不再统计,《中国卫生统计年鉴》改为《中国卫生和计划生育统计年鉴》,且2018年后再次改为《中国卫生健康统计年鉴》。该数据问题是颗粒度很粗,且与CCDC的口径始终存在差异。值得提及,《居民病伤死亡原因年报》的负责单位系卫健委下统计信息中心监测(张玥等,2015),这里我部分理解为何卫健委2013年促成了统计信息中心与CCDC共同编制死因数据集。
第二,1990-2000年间的CCDC数据有多个版本。据我查找至少存在三个版本:

  • (1)中国政府供给WHO的数据,1987-2000年死亡人口数量与平均人口数量数据,含全国+城乡+性别的交互集(5+4=9类),该数据问题是年龄组为0、1、5-85+,不含2-4岁数据;
  • (2)《中国疾病监测年报》删截质量欠佳监测点后的数据,按分年龄、分死因死亡率数据,1991-1992年数据集含全国+城乡+性别的交互集(3+6=9类),1993-1996年选登各省市疾病分析结果或专题报告、此阶段无详细数据,1996年数据集仅含全国总(1类),1997年数据集含全国+城乡(3类)、1998-1999年数据集含全国总、全国分城乡、全国分性别(5类)。该数据问题是变动过于频繁,且年份不连续。
  • (3)CCDC平台公布了一套不具名GBD编码后的数据,该数据集内容非常丰富,含全国+城乡+东中西+性别的交互集。但我对比其二、其三数据后,猜测后者可能是未经调整的全部监测点数据,死亡漏报较高,可能是2009年后被CCDC重新编码?我向CCDC发邮件询问,被来回踢皮球几次。该数据质量有待评估。

第三,疾病编码与汇总类别变动问题。由于疾病编码的变动,如需跨期分析,第一步要做的就是统一疾病编码,但是否可以整合呢?

  • (1)2000年以前数据,接第二点。a. 1987-2000年WHO数据,疾病编码按ICD-9[4]、汇总为C001-C103;b. 1991-2000年《监测年报》,疾病编码按ICD-9、未汇总类别,c. 不具名GBD编码数据,疾病编码按ICD-10,汇总为U001-U160。
  • (2)2004-2008年数据,按《死因监测数据集》,疾病编码按ICD-10、汇总为C001-C132(共107种三级疾病),对应GBD 1990;
  • (3)2009年及以后数据,按《死因监测数据集》,疾病编码按ICD-10、汇总GBD格式U001-U160(共136种三级疾病),对应GBD 2004。

上述划分比对了GBD历史,可以发现,CCDC公布的死因数据在编码系统上显著滞后。其一,对2004-2008、2009-2021年数据两份数据可以合并,但疾病编码参考的不是GBD 2021编码(共175种三级疾病),而是GBD 2000编码。其二,由于汇总数据限制,2000年以前数据的死因无法与2004年后进行对应,尤其是WHO数据、《疾病监测》数据均不能与后续数据合并,不具名GBD数据可以,但该数据是否可用,我有很大疑问。
第四,数据共享问题。CCDC名义上共享了pdf文档,其中心人员有完整省、市数据,但实际仅公开至东中西一级。且因CCDC与GBD合作,GBD事实上也有到中国的分省一级数据,但也不共享。因此,非CCDC系统的科研者,可以使用的地方数据实际很少。俺在转录地方数据时的比对,可谓是大崩溃。

参考文献

[1] 张玥, 曲春枫, 任建松, 等. 中国肝癌发病与死亡数据集. 中华肿瘤杂志, 2015, 37(9): 705-720.
[2] 赵自雄, 赵嘉, 马家奇. 我国传染病监测信息系统发展与整合建设构想. 疾病监测, 2018, 33(5): 423-427.
[3] 曹梦迪, 王红, 石菊芳, 等. 中国人群肝癌疾病负担:多数据源证据更新整合分析. 中华流行病学杂志, 2020, 41(11): 1848-1858.


  1. 中国死因数据中,GBD数据、《中国疾病监测年报》均从1990年开始,但WHO数据从1987年开始。WHO Mortality Database所收录的中国死因数据由我国各地疾病预防控制中心对死亡登记报告卡的资料进行收集,整理后汇总到卫生部统计信息中心,卫生部统计信息中心对数据进行核查,并负责将数据提交至WHO。这个死因登记系统由原卫生部统一管理,因此数据质量较好。数据问题是样本中50%在东部地区,40%在中部地区,仅10%在西部地区,主要为城市地区和东部农村地区(张玥等,2015)。 ↩︎

  2. 如按传染病监测历史,则中国监测系统或可追溯至1959年传染病报告系统,该系统负责单位系中国医学科学院,即协和医学院。同时,受信息化影响,1986年中国预防医学科学院开始推广微机通信网络,收集法定传染病及其死亡率数据(赵自雄等,2018)。 ↩︎

  3. 题外话,传染病监测系统在疫情间的失灵其实是很有意思的组织学课题。中国的疾病监测系统的建立与运作,绝不单是医学力量的推动,这背后牵扯了复杂的政治与历史因素。 ↩︎

  4. ICD-9编码存在多个版本,需要甄别。如WHO国际编码与美国临床编码(ICD-9-CM)存在细微差异。 ↩︎