医疗AI在评估未知患者时的缺陷

来源：https://www.nature.com/articles/d41586-024-00094-9

医生依靠算法进行个性化医疗，但对精神分裂症试验的分析表明，这些工具无法适应新的数据集。

一项研究发现，旨在帮助医生治疗精神分裂症患者的计算机算法不能很好地适应新的、看不见的数据。

这些工具使用人工智能(AI)在大型数据集中发现模式，并预测个人对特定治疗的反应，是精准医学的核心，在精准医学中，医疗专业人员试图为每个人量身定制治疗方法。在1月11日发表在《科学》杂志上的研究中，研究人员表明，人工智能模型可以高精度地预测接受训练的样本中的人的治疗结果。但当应用于初始样本的子集或不同的数据集时，它们的性能下降到略好于偶然性。

为了有效性，预测模型需要在不同的情况下保持一致的准确性，具有最小的偏差或随机结果。

“这是一个人们没有意识到的巨大问题，”研究合著者、康涅狄格州纽黑文耶鲁大学的精神病学家Adam Chekroud说。“这项研究基本上证明了算法需要在多个样本上进行测试。”

研究人员评估了一种常用于精神病预测模型的算法。他们使用了五项抗精神病药物临床试验的数据，涉及北美、亚洲、欧洲和非洲的1513名被诊断为精神分裂症的参与者。这些试验于2004年至2009年进行，测量了参与者在服用三种抗精神病药物中的一种之前和之后四周的症状(或比较同一药物不同剂量的效果)。

该团队训练了该算法，以预测抗精神病药物治疗四周后症状的改善。首先，研究人员在开发该算法的试验中测试了该算法的准确性——将其预测与试验中记录的实际结果进行比较——发现准确性很高。

然后，他们使用了几种方法来评估模型对新数据的泛化能力。研究人员根据一项临床试验的数据子集对其进行训练，然后将其应用于同一试验的另一个子集。他们还根据一次试验或一组试验的所有数据训练算法，然后在另一次试验中测量其性能。

该模型在这些测试中表现不佳，当应用于未经训练的数据集时，产生的预测似乎几乎是随机的。该团队使用不同的预测算法重复了实验，但得到了类似的结果。

该研究的作者表示，他们的发现突出了临床预测模型应如何在大型数据集上进行严格测试，以确保其可靠性。一项对308个精神病结果临床预测模型的系统综述2发现，只有约20%的模型在开发模型的样本之外的其他样本上进行了验证。

Chekroud说：“我们应该把它看作是药物开发。”。他解释说，许多药物在早期临床试验中显示出希望，但在后期却步履蹒跚。“我们确实必须对如何构建这些算法以及如何测试它们严格遵守纪律。我们不能只做一次就认为这是真实的。”