从药物开发到预测健康,自美国食品药品监督管理局(FDA)批准第一款基于人工智能的医疗设备——宫颈成像工具PAPNET以来的30年间,人工智能在医学领域已经找到了丰富的应用场景。一些政治家希望,超负荷运转的卫生系统和医护人员能够通过人工智能的效率和生产力优势得到缓解。
然而,嵌入在人工智能中的偏见已经在现实中造成了实际伤害。一个数字健康助手被发现对女性的心脏病发作诊断错误,因为其症状与男性不同。“她们被告知去看心理医生,而不是急诊室,”伯明翰大学AI和数字健康技术专家刘晓轩博士说。
另一个算法系统性地低估了黑人患者的需求,因为它依赖于医疗支出数据,而黑人患者的支出较低。“这不是因为他们有较少的医疗需求,而是因为他们负担不起,”她解释道。
有偏见的训练数据导致了人工智能模型的误判,但修正数据需要的不仅仅是下游的技术干预。这首先要从数据管理开始,比如电子健康记录分类未能捕捉性别多样性和混合种族类别,导致不准确的表示。第二层是人群代表性问题,不是所有患者都会去医院就诊、参加预约或愿意分享他们的数据,这是由于信任问题。这导致了对不同人群医疗需求的理解存在差距。
“我们需要讨论社会中存在的结构性不平等,以及那些无法获得医疗服务的人。社会中存在着结构性压迫、歧视和种族主义的延续,这些权力动态导致了医疗服务的差异。”伯明翰大学数字健康临床研究研究员约瑟夫·阿尔德曼博士说。“这些不平等现象如此根深蒂固,除非有人深入探究,否则我们永远不会意识到问题。”
阿尔德曼举了一个例子,在过去的几十年里,对黑人患者的肾功能进行“种族校正”,将其肾功能评估得比其他种族高,导致一些人无法获得重要的治疗如透析和肾移植。“每当我们对那些具有模糊边界和连续变异的人类社会构造进行分类时,我们不可避免地会失去分辨率,并将人们强制归类到可能并不适合他们的类别中,”他说。
从事人工智能和健康技术工作的人并没有能力解决根本问题。“他们指出这个问题是有用的,但他们不是做决定的合适人选。这需要多利益相关者、跨学科——甚至是跨学科的方法,由政策制定者和控制预算的人来解决,”他说。
解决方案可能包括调整某些群体的诊断阈值,尽管算法建议如此,并解决超出算法之外的健康不平等问题。“我们必须假设偏见存在,除非被证明不存在,”刘晓轩说。如果不解决源头上的偏见,任何建立在这些算法基础上的健康技术都可能放大现有的偏见。
为了解决数据偏见的根本原因,阿尔德曼和刘晓轩与合作伙伴共同发起了STANDING Together(数据多样性、包容性和通用性标准)倡议,该倡议涉及58个国家和350多位来自多个学科的专家。
这是一个跨学科的方法,让传统上不会同意的人们聚集在一起,创造可行的解决方案。“有很多高调的例子表明算法出了问题,无论是在医学内外,我们不需要说服任何人这项工作的必要性,”阿尔德曼说。
该倡议采用了德尔菲共识研究方法,通过一系列问卷调查来达成对争议性话题或缺乏实证证据的话题的共识。该项目寻求专家对提高医疗数据质量和完整性的关键原则和实践的共识。
他们的出版建议是免费提供的,并鼓励透明化健康数据集的局限性和影响,以促进更明智的数据使用和限制选择。这反映了不同文化的观点。例如,东南亚等较为同质的人群不太关心种族和民族,而更关心收入和就业状况。
同样,欧洲的一些国家由于历史原因反对收集种族数据。“很明显,这将变得多么复杂和困难。我们如何创建既具体又足够普遍的建议,以覆盖全球?我们决定这些问题比我们现在需要的大得多,”刘晓轩说。
随着超过1000种FDA批准的人工智能产品,偏见问题亟待关注。尽管越来越多的干预和随机对照试验,但医疗系统仍然缺乏实施能力。像STANDING Together这样的项目可以增强对人工智能能力的信心。
未来,数据质量的挑战只会增加。人工智能系统对数据变化敏感,需要持续监控以识别和纠正缺陷和故障,模型性能可能会随时间恶化。阿尔德曼指出,这些建议是在像ChatGPT这样的技术广泛应用之前提出的。“随着技术和世界的发展,我们将需要调整这些建议。我们还需要纳入除我们使用的58个国家以外的其他社区,”他说。团队很快将发布其他语言版本的建议,以增加读者数量。
共识方法的目标不是创建一个严格的清单,而是引发一种文化转变,改变医疗人工智能的开发和实施方式,提供一条通往公平和准确的医疗人工智能的道路。
(全文结束)
声明:本文仅代表作者观点,不代表本站立场,全文内容涉及AI跨语种自动翻译。如有侵权请联系我们删除。