近日,中国科学院合肥物质院健康所李海研究员团队开发了一种新型AI医疗诊断系统:MultiXpert。该系统能够在“零样本”(zero-shot)条件下对胸片(Chest X-Ray,CXR)进行智能诊断,意味着它无需任何标注数据,就能识别甚至从未见过的疾病,从而使AI具备更接近医生诊断思维的能力。相关研究成果发表在计算机科学与信息管理领域一区TOP期刊《Information Processing and Management》上。
胸片是临床最常用的影像学检查手段之一,用于肺炎、结节、气胸等多种疾病的筛查,但人工判读耗时且依赖专家经验。传统AI系统虽然在一些任务上能媲美专家,却又严重依赖大量人工标注的数据,难以应对新发疾病或不同医院之间的数据差异,导致模型泛化能力有限,无法满足复杂临床环境下的精准诊断的需求。
为了应对这一挑战,李海研究员团队提出了多模态双流协同增强的新思路,构建了一个无需额外标注数据即可实现零样本高精度诊断的胸片智能分析框架:MultiXpert。该模型能够同时处理图像与文字信息,并利用大语言模型和放射科专家知识优化病灶描述,实现图像与语言的深度融合,让AI在未见疾病中也能“看懂”胸片,从而更加趋近于医生的思考逻辑。具体来讲,在图像分支中,通过引入病灶感知掩码机制,MultiXpert能够在无显式标注情况下提升对潜在病灶的特征表达能力;同时,通过分层记忆矩阵实现全局解剖信息与局部病灶特征的动态平衡,显著提升模型对复杂影像的结构化理解能力。在文本分支中,联合大语言模型(ChatGPT-4o)与临床专家知识,MultiXpert能够对疾病描述进行语义校准与结构化重构,生成同时具备解剖精准性与临床标准化的病理描述文本,增强医学语义的表达一致性。最终,通过跨模态语义对齐模块实现多粒度信息的互补融合,有效提升了模型在零样本条件下的病灶识别与诊断性能。实验结果显示,MultiXpert在四个单标签公共数据集上平均AUC提升达7.5%,在零样本场景下较主流视觉语言模型平均提升3.9%。在来自十家医院的多中心私有数据上,MultiXpert较传统监督模型(如ConvNeXt)提升13.9-22.6%,充分证明了其优异的跨中心泛化性能与临床可迁移性。
该项研究为胸片零样本智能诊断提供了新的技术路径,也为医学AI从“依赖标注”迈向“自主理解”提供了新范式,标志着医疗AI在零样本学习领域的新突破。李海研究员团队长期聚焦于AI+医学影像研究,致力于推进智慧医疗的技术创新和临床转化。未来,团队将进一步拓展该模型在多病种、多模态影像(如:X光、超声、CT、MRI)中的应用,推动其在临床场景中的落地转化,助力构建更加智能、精准、可解释的医学影像分析体系。

多模态双流协同增强模型(MultiXpert)结构示意图
该论文的第一作者为中国科学技术大学2023级博士研究生王俊杰,通讯作者为健康所李海研究员和王腾飞博士。本研究得到了国家自然科学基金和安徽省重点研发项目的支持。