这项研究揭示了人工智能在医疗领域应用的现状和挑战。尽管AI在医疗领域的应用日益增多,但在临床推理方面仍显不足,这表明AI在医疗领域的应用还需要进一步的发展和完善。研究团队通过测试21种大语言模型在29个已发表的临床病例中的表现,发现当获得完整信息时,这些模型在超过90%的案例中能给出正确的最终诊断。然而,研究也指出,AI在早期诊断阶段的表现欠佳,未能提出合理的鉴别诊断,这表明AI在处理信息不充分、需要开放性推理的情境中表现较弱。
此外,研究还强调,当前的大语言模型更擅长在信息完备的情况下给出答案,但在信息不充分、需要开放性推理的情境中表现较弱。团队提出了一种名为PrIME-LLM的新指标,从提出潜在诊断、选择检查手段、给出最终诊断到制定治疗方案等多个环节对模型进行综合评价。结果显示,各模型整体评分在64%至78%之间,表现存在明显差异。
总的来说,这项研究表明,虽然AI在医疗领域的应用有其独特的优势,但在临床推理和独立承担临床诊疗任务方面,AI仍显不足。这提示我们在推广AI在医疗领域应用的同时,也需要保持谨慎,确保其不会替代医生的专业判断和经验。