使没有支持性证据证
Posted: Sat Jan 04, 2025 4:45 am
正如我们之前所讨论的,算法——执行任务或解决问题的分步指令(规则),尤其是由计算机执行的指令(规则)——几十年来已广泛应用于医疗保健领域。这些算法的一个明显用途是通过基于证据的临床决策支持干预(DSI)。今天,我们看到基于数据的预测性 DSI 迅速增长,它们使用通过机器学习 (ML) 算法或其他统计方法创建的模型来分析大量现实世界数据(称为“训练数据”)以寻找模式并提出建议。虽然基于证据和预测性的 DSI 类型(模型)都可用于解决同一个问题,但它们依赖于“融入”其软件的不同逻辑。
但在探讨这两种方法之前,我们应该首先回顾一下本系列上一篇文章中提出的一个关键挑战:充分利用人工智能 (AI) 的潜力,尤其是 ML 和相关技术,同时避免这些技术带来的风险(例如对患者的潜在伤害)。在这篇博文中,我们将更深入地探讨其中一些风险是什么以及这些风险可能源自何处。
循证决策干预与预测决策支持干预
使用循证指南或其他专家共识的 DSI根据世界应如何运作提出建议。通常, 它们代表了来自高质量临床试验、观察性研究和其他研究的专家共识的实施。循证 DSI 通常是“固定规则”,本质上是一系列形成算法的“如果-那么”语句。例如,“如果女性年龄在 45-54 岁之间,并且患乳腺癌的风险处于平均水平,那么她应该每年进行一次乳房 X 线检查。”
相比之下,预测性 DSI 会根据现实世界中已识别的模式生成建议(输出)来支持决策,用 现实世界的数据填补知识空白。然后由人类来确定建议在特定环境中的相关性。 这使得预测性 DSI 成为强大的工具,因为它们至少在理论上可以用来预测该技术收集数据的任何内容 — — 该图像是否看起来像肿瘤、患者是否有可能患上特定疾病、患者是否有可能赶上下一次预约,仅举几例。部分原因是由于许多主题尚未建立专家临床指南,因此预测性 DSI 可以在循证 DSI 目前未涉及的广泛主题上提供重要指导。在最佳情况下,预测性 DSI 可以比医疗保健专业人员更早或更准确地识别数据中的模式,甚至可以发现以前未知的模式,并为医疗保健的许多方面提供决策建议。
新兴技术导致的现有风险被放大
虽然预测性 DSI 具有巨大潜力,可以改善医疗保健的许多方面,但它们也存在一些潜在风险,可能会导致不利影响或结果。这些风险可能会被放大,因为它们有可能快速“学习”并针对数百或数千名患者做出预测。具体而言,医疗保健领域的预测性 DSI 可以:
复制或放大社会、健康和医疗服务中的隐性和结构性偏见,因为这些偏见是在基础训练数据中捕获的。这可能导致不公平或有偏见的预测或建议。它还可能导致技术在用户不知情的情况下在某些患者、人群和社区中表现不同,从而可能导致患者受到伤害、健康差距扩大、歧视、资源分配决策效率低下或临床决策不明智。
放大对基础数据实践(收集、管理和使用)的伦理、法律和社 餐厅电子邮件列表 会影响的现有担忧。无论何时收集、管理和使用健康数据,都会存在信息隐私、安全和管理问题,包括与机密性、匿名性和对个人信息使用控制有关的问题(潜在的信息滥用;非例外或对抗性使用)。预测性 DSI 以新方式使用健康数据的潜力加剧了这些担忧。
强化常见的、非循证实践。虽然偏见是预测性 DSI 如何学习和强化不良实践的一个典型例子,但更普遍地说,预测性 DSI 可能会强化以某种方式做某事的倾向,因为这是一直以来的做法,即明其有益。由于预测性 DSI 是从常见的做法中学习的,不一定是最好的做法,因此使用预测性 DSI 可能会通过推荐广泛的做法(即使这些做法已经过时)来减缓新创新和最新最佳实践的采用。认知心理学表明,预测性 DSI 的建议有可能通过使其成为默认选项(默认偏见)或由于过度依赖自动化(自动化偏见)而强化广泛的做法。
医疗保健和健康结果中现存的、无法解释的差异。鉴于医疗保健领域存在着广泛关注的极端差异,即使在很小的地理区域内也是如此,直接根据来自其他地方的“混乱”现实世界数据的类似模式推断这里会发生什么是一个冒险的提议。当基础数据质量低下或完整性较差时,这种风险甚至更大。这可能导致 DSI 做出无效或不可靠的预测,特别是当基础模型根据训练数据中的模式做出预测时,这些模式与使用该模型的本地环境中的数据模式不同,有时称为稳健性。
使用“黑匣子”或不透明算法,因此无法确切说明它们如何做出决策,包括如何组合、计算或加权输入数据以产生模型的预测、分类或建议。它们还基于预测算法和模型,这些算法和模型旨在预测缺失值,而不是直接说明应采取的行动。这些方面可能会降低模型输出对最终用户的可理解性,从而很容易误解模型输出的含义,并导致预测性 DSI 在不适当的环境中使用的风险更大。
导致无效或不安全的建议,这意味着上述风险大于任何潜在的好处。
鉴于数据在预测性 DSI 中起着关键作用,软件开发中常见的数据挑战(例如质量和完整性)也会直接影响预测性 DSI 的成功开发和使用。造成损害的潜在原因也可能是由于缺乏或不一致的数据治理,或者在预测性 DSI 的整个生命周期中如何获取、管理和使用数据的政策和控制。
在 ONC,我们习惯将风险最小化的高质量预测性 DSI 称为 FAVES:公平、适当、有效、有效和安全。我们在第一篇博客文章中介绍了其中一些术语,在下一篇文章中,我们将讨论我们认为阻碍医疗保健领域预测性 DSI 优化的决定性挑战,并讨论了解和证明预测性 DSI 是 FAVES 的方法。
这是人工智能和机器学习 博客系列的一部分。
但在探讨这两种方法之前,我们应该首先回顾一下本系列上一篇文章中提出的一个关键挑战:充分利用人工智能 (AI) 的潜力,尤其是 ML 和相关技术,同时避免这些技术带来的风险(例如对患者的潜在伤害)。在这篇博文中,我们将更深入地探讨其中一些风险是什么以及这些风险可能源自何处。
循证决策干预与预测决策支持干预
使用循证指南或其他专家共识的 DSI根据世界应如何运作提出建议。通常, 它们代表了来自高质量临床试验、观察性研究和其他研究的专家共识的实施。循证 DSI 通常是“固定规则”,本质上是一系列形成算法的“如果-那么”语句。例如,“如果女性年龄在 45-54 岁之间,并且患乳腺癌的风险处于平均水平,那么她应该每年进行一次乳房 X 线检查。”
相比之下,预测性 DSI 会根据现实世界中已识别的模式生成建议(输出)来支持决策,用 现实世界的数据填补知识空白。然后由人类来确定建议在特定环境中的相关性。 这使得预测性 DSI 成为强大的工具,因为它们至少在理论上可以用来预测该技术收集数据的任何内容 — — 该图像是否看起来像肿瘤、患者是否有可能患上特定疾病、患者是否有可能赶上下一次预约,仅举几例。部分原因是由于许多主题尚未建立专家临床指南,因此预测性 DSI 可以在循证 DSI 目前未涉及的广泛主题上提供重要指导。在最佳情况下,预测性 DSI 可以比医疗保健专业人员更早或更准确地识别数据中的模式,甚至可以发现以前未知的模式,并为医疗保健的许多方面提供决策建议。
新兴技术导致的现有风险被放大
虽然预测性 DSI 具有巨大潜力,可以改善医疗保健的许多方面,但它们也存在一些潜在风险,可能会导致不利影响或结果。这些风险可能会被放大,因为它们有可能快速“学习”并针对数百或数千名患者做出预测。具体而言,医疗保健领域的预测性 DSI 可以:
复制或放大社会、健康和医疗服务中的隐性和结构性偏见,因为这些偏见是在基础训练数据中捕获的。这可能导致不公平或有偏见的预测或建议。它还可能导致技术在用户不知情的情况下在某些患者、人群和社区中表现不同,从而可能导致患者受到伤害、健康差距扩大、歧视、资源分配决策效率低下或临床决策不明智。
放大对基础数据实践(收集、管理和使用)的伦理、法律和社 餐厅电子邮件列表 会影响的现有担忧。无论何时收集、管理和使用健康数据,都会存在信息隐私、安全和管理问题,包括与机密性、匿名性和对个人信息使用控制有关的问题(潜在的信息滥用;非例外或对抗性使用)。预测性 DSI 以新方式使用健康数据的潜力加剧了这些担忧。
强化常见的、非循证实践。虽然偏见是预测性 DSI 如何学习和强化不良实践的一个典型例子,但更普遍地说,预测性 DSI 可能会强化以某种方式做某事的倾向,因为这是一直以来的做法,即明其有益。由于预测性 DSI 是从常见的做法中学习的,不一定是最好的做法,因此使用预测性 DSI 可能会通过推荐广泛的做法(即使这些做法已经过时)来减缓新创新和最新最佳实践的采用。认知心理学表明,预测性 DSI 的建议有可能通过使其成为默认选项(默认偏见)或由于过度依赖自动化(自动化偏见)而强化广泛的做法。
医疗保健和健康结果中现存的、无法解释的差异。鉴于医疗保健领域存在着广泛关注的极端差异,即使在很小的地理区域内也是如此,直接根据来自其他地方的“混乱”现实世界数据的类似模式推断这里会发生什么是一个冒险的提议。当基础数据质量低下或完整性较差时,这种风险甚至更大。这可能导致 DSI 做出无效或不可靠的预测,特别是当基础模型根据训练数据中的模式做出预测时,这些模式与使用该模型的本地环境中的数据模式不同,有时称为稳健性。
使用“黑匣子”或不透明算法,因此无法确切说明它们如何做出决策,包括如何组合、计算或加权输入数据以产生模型的预测、分类或建议。它们还基于预测算法和模型,这些算法和模型旨在预测缺失值,而不是直接说明应采取的行动。这些方面可能会降低模型输出对最终用户的可理解性,从而很容易误解模型输出的含义,并导致预测性 DSI 在不适当的环境中使用的风险更大。
导致无效或不安全的建议,这意味着上述风险大于任何潜在的好处。
鉴于数据在预测性 DSI 中起着关键作用,软件开发中常见的数据挑战(例如质量和完整性)也会直接影响预测性 DSI 的成功开发和使用。造成损害的潜在原因也可能是由于缺乏或不一致的数据治理,或者在预测性 DSI 的整个生命周期中如何获取、管理和使用数据的政策和控制。
在 ONC,我们习惯将风险最小化的高质量预测性 DSI 称为 FAVES:公平、适当、有效、有效和安全。我们在第一篇博客文章中介绍了其中一些术语,在下一篇文章中,我们将讨论我们认为阻碍医疗保健领域预测性 DSI 优化的决定性挑战,并讨论了解和证明预测性 DSI 是 FAVES 的方法。
这是人工智能和机器学习 博客系列的一部分。