医疗数据与隐私

不视而见

新冠疫情催生出一种研究敏感病历的新方法

一篇论文于5月7日在医学研究在线数据库medRxiv上发布,指出导致新冠肺炎的病毒SARS-CoV-2在不同人群中的致死率不同,至少在英国是如此。男性患者的病死率高于女性。老年人和脱离社会的人群高于年轻人、富裕人群和有强大社会关系的人群。糖尿病控制不佳者或严重哮喘患者高于没有这些基础疾病的人。少数族裔高于白人。

这些发现都不算惊人,即便是第一点。毕竟有相当多种类的传染病的感染率都是男性高于女性。甚至吸烟者的病死率低于非吸烟者这一点虽然乍看起来抓人眼球,其实也和其他不同方法得出的研究结果一致;不过哮喘患者吸入类固醇可能起到防护作用这一点似乎值得继续研究。但这项研究的非凡之处并非其实际结论。该论文的第一作者、牛津大学的临床医生、数据学家本·高达克(Ben Goldacre)表示,它的亮点在于它用以得出结论的分析方法。论文团队并没有从替全科医生(英国的家庭医生网络)管理病患资料的公司的数据库中提取敏感的病历资料,而是开发出了一套软件,在数据储存地就地开展大规模分析。

论文研究了在英国全科医生诊所注册的约1700万人的病历及其中5683例可归因于新冠肺炎的死亡病例。全科医生是英国国家医疗服务体系(以下简称NHS)中所有非急诊就医的第一接诊点,因此拥有最完整的患者健康记录。以如此规模和详细程度研究这些记录并将个人病历与死亡原因关联起来是前所未有的。过去,单单是计划使用这类基础医疗数据都会在英国国内引起轩然大波。高达克的研究之所以能够推进,完全要归功于新冠疫情的刺激,以及他组建的这支流行病学家和数据学家团队的聪明才智。这支团队自称“安全开放合作社”(OpenSAFELY Collective)。

上锁的文件柜底部

正常情况下,仅仅是申请权限查看如此庞大的敏感医疗数据就要用掉几个月甚至几年的时间,需要通过伦理委员会、计算机网络安全检查等重重难关。开展分析和发表论文可能又需要好几个月。但眼下的情况非同寻常,实际上,OpenSAFELY团队从提出构思到发表论文只用了42天。

三方面因素促成了这样的高速。首先是英国卫生大臣马特·汉考克(Matt Hancock)签署发布通知,广泛允许NHS系统内的各类人员访问及处理与抗击新冠肺炎相关的医疗数据。这一系列“患者信息管控”(以下简称COPI)通知大大减少了数据再加工过程中的阻碍。众多了解英国政府数字化抗疫的人士大谈人们如何在调取数据遇阻时就亮出COPI通知的见闻。OpenSAFELY团队代表NHS开展研究,所以有COPI通知撑腰,得以加速推进。

不过,更重要的是在OpenSAFELY这面旗帜下积聚的政治影响力。关于电子病历的学术知识由这方面的权威——伦敦卫生与热带医学院(London School of Hygiene and Tropical Medicine)下属的一个研究团队提供。实际操作由菲尼克斯合伙公司(Phoenix Partnership,以下简称TPP)完成,这家英国公司为全科医生网络存储了约5000万人的电子病历。而高达克本人是英国医学界的名流之一。他曾经是一家全国性报纸的专栏作家,在推特上有近50万粉丝。他的个人品牌,加上他率领的牛津大学循证医学数据实验室(Evidence-Based Medicine DataLab)的数据学家及程序员,让一切臻于圆满。

当心豹子

但OpenSAFELY取得成功最重要的因素是对病历本身的处理手法。团队没有尝试复制病历,也没有从TPP的数据中心输出这些资料再做处理。相反,团队程序员编写的软件让研究人员可以直接在TPP的数据中心内开展分析。即便在那里,高达克的团队成员也不能在TPP系统中随意窥探。他们编写了一系列程序,让他们可以通过安全连接来查询患者的病历信息。团队对病历的一切查询都会生成日志,这样监视者自身也受到了监视。

由于无需复制患者病历,而且每项操作都有日志记录,OpenSAFELY团队更容易获得人们的信任。高达克的系统甚至得到了英国最激进的隐私倡导组织的支持。关注病历隐私保障的组织MedConfidential已经表达了对这种方法的支持。该组织的联合创始人之一山姆·史密斯(Sam Smith)说:“它的设计既推进研究也保护患者信息,没把两者对立起来。”医生工会英国医学协会(British Medical Association)的伦理委员会主席约翰·奇索姆(John Chisholm)表示,这项研究包含有关新冠肺炎致死“风险因素的极有价值的信息”。

这类从病历中探寻模式以提升医疗服务的研究仍处于起步阶段。但英国在这方面走在最前,有两个原因。首先,NHS的单一医疗市场造就了像TPP这样的庞大的病历管理公司。其次,NHS规定全科医生为第一级诊点,这让他们能将医疗数据一网打尽,并拥有最丰富、最规整的数据集。相比之下,在中国,人们生病后往往直接去医院,而不是找全科医生。北欧国家倒是有协调整齐的医疗记录,因此往往会成为医学研究项目的对象。但北欧国家人口不多且同质化,从研究的角度来看并不是理想的对象。美国的医疗系统由无数分散的私人医疗机构组成,尽管退伍军人事务部的医疗系统内确实有大量规整的病患数据。

所以目前而言,英国仍保持领先。高达克称,英国是“地球上唯一一个拥有完成这样的分析所需的大规模数据的国家”。新的挑战不断出现。OpenSAFELY团队将研究新冠肺炎对儿童的影响,以及吸入类固醇可能具有的保护作用。除了TPP之外,它还开始与其他病历管理公司合作,以扩大可用于分析的数据范围。

假如OpenSAFELY团队的研究方法以上述方式不断拓展而能继续奏效,其他人肯定会效仿。而高达克与其合作方为此提供了便利:他们以开源软件的形式留下了一系列工具,任何人都能从著名的代码存储库GitHub上免费下载。对这些代码稍作修改,就可以在各类数据库上开展各种查询。

广泛采用这种研究方法将产生重大的影响。电子病历系统将不只用来存储数据,还将成为医学研究基础设施中的活跃组成部分,随科研的需求而调整变化。这对于医疗人工智能的发展尤为重要,因为它需要大量精心管理的数据来足够准确地了解疾病。

新冠疫情不会永远持续。以“国家紧急状态”为名的阶段总会过去。未来想要研究病历将需要提供更具体的正当理由,而不能再依靠COPI通知这样笼统的许可。但OpenSAFELY团队表明,无需复制数据,也无需请求任何人放心交出庞大而敏感的数据集,也可能得出有趣的研究结果。通过这样的尝试,他们可能让寻找正当理由的负担变轻了一点。