AI能取代医生吗?全球首项糖尿病培训大模型检测验证前瞻性研究问世

AI能取代医生吗?看看模型们是如何看病的。一位有30年1型糖尿病史的44岁女性,突感身体不适,去医院急诊,她接受了糖尿病酮症酸中毒综合治疗方案,包括输入0.9氯化钠溶液。但是,6小时内,她的临床状态并未改善。她接下去最迫切需要进行的检查是什么?
对此,ChatGPT-4.0回答“血浆乳酸测定”,ChatGPT-3.5回答“肺动脉CT血管造影”,Google Bard回答“血浆乳酸测定”,LLaMA回答“肺动脉CT血管造影”。
近期,上海体育大学、上海交通大学与清华大学合作,联合来自多个国家和学科的学者,在权威期刊《Science Bulletin》上发表了全球首个针对糖尿病培训的大型语言模型检测与前瞻性验证的研究成果。
鉴于糖尿病对全球健康构成了重大挑战,且医疗保健专业人员对糖尿病的理解水平存在差异,糖尿病培训的重要性日益凸显。大型语言模型为糖尿病培训提供了新的可能性,但它们在处理糖尿病相关查询方面的实际表现,特别是在非英语语言环境(例如中文)中,一直不甚明确。研究团队对 ChatGPT-3.5、ChatGPT-4.0 以及通义等10个国内外模型进行了基于中英双语专业考试的评估,并研究了大模型在辅助初级保健医生培训方面的效果。研究结果表明,多数模型成绩优异超过医生,且助力提升培训成绩,展现强大能力,有望重塑糖尿病护理培训格局。
根据国际糖尿病联盟的统计数据,全球糖尿病患者数量已突破5亿大关,每年的医疗开支超过万亿美元,这一沉重负担对各国医疗体系构成了巨大压力。基层医疗人员在糖尿病知识掌握方面存在显著差异,这凸显了专业培训的缺失。大型语言模型(LLM)的问世为糖尿病教育培训领域带来了新的希望。
由上海交通大学博士生导师盛斌教授和上海体育大学毛丽娟教授共同指导、上海体育大学体育工程专业博士生李灏萱参与,联合清华大学的多学科团队,携手杜克大学、约翰霍普金斯大学、墨尔本大学、新加坡眼科中心等国际顶尖学府和研究机构,组建了全球糖尿病培训智能研究团队。该研究团队精心挑选了10个备受瞩目的大型语言模型进行深入研究,这些模型包括:ChatGPT- 3.5、ChatGPT - 4.0、Google Bard、LlaMA - 7B、LlaMA2 - 7B、百度ERNIE Bot、阿里通义千问、MedGPT、Huatuo GPT以及Chinese LlaMA2 - 7B。研究团队基于中国国家初级糖尿病护理证书考试(NCE - CPDC)和英国皇家内科医学院会员内分泌及糖尿病英语专科证书考试(MRCP UK),对这些模型在糖尿病相关查询方面的性能进行了全面的评估。此外,研究团队还在NCE - CPDC考试中,对比分析了在有无ChatGPT - 4.0辅助的情况下,真实世界初级保健医生的培训效果,以此来探究大型语言模型作为医疗助手的可靠性。
根据本研究的大模型在糖尿病培训应用场景下的检测验证前瞻性研究数据分析,在NCE- CPDC考试中,ChatGPT - 4.0、阿里通义千问、百度ERNIE Bot、Google Bard、MedGPT和ChatGPT - 3.5均成功通过了测试,而LlaMA2 - 7B、HuatuoGPT、Chinese LlaMA2 - 7B和LlaMA - 7B则未能晋级。
值得关注的是ChatGPT - 4.0在NCE - CPDC(中文)考试中取得了90.98%的高分,显著超越了所有初级保健医生的平均水平。此外,该模型还能帮助大多数初级保健医生提升成绩1%至6.13%。然而,在MRCP UK英文考试中,ChatGPT - 4.0的通过率为62.50%,而Google Bard、LlaMA - 7B和LlaMA2 - 7B均未能达到及格标准。
作为研究中准确率最高的大语言模型,在安排ChatGPT - 4.0和真实初级保健医生一同参加的NCE - CPDC考试中,初级保健医生通过NCE - CPDC考试的准确率介于68.57%至81.16%之间,这一成绩明显低于同场考试中ChatGPT - 4.0所取得的84.82%。
综合分析表明,绝大多数大型语言模型(LLMs)在解答糖尿病相关问题时,均表现出深厚的知识储备和卓越的逻辑推理能力,其中以ChatGPT-4.0、阿里通义千问和百度ERNIE Bot等模型的表现尤为显著。这一现象充分证明了大型语言模型在为医疗专业人员提供基础糖尿病知识和培训方面的巨大潜力,预示着其在医疗培训领域可能引发的深刻变革。
该研究工作于2024年结束。今年年初,研究团队还对DeepSeek回答中国国家基层糖尿病防治管理指南认证考试(NCE-CPDC)试题的准确度进行了测试,发现DeepSeek的回答准确度达91.73%,略高于ChatGPT-4.0的准确度(90.98%)。最新结果显示,当前的大型语言模型在处理医学信息并提供解答方面虽然表现出色,但是针对诊疗意见的准确性和安全性上仍有瑕疵,且仍无法完全取代医生所具备的批判性思维、创新精神和创造力。
研究认为,展望未来,经过特定领域知识微调的大型语言模型有望为初级保健医生(PCPs)和糖尿病患者提供更高质量的糖尿病培训体验。该模型能够迅速整理和分析大量文本、学术论文以及糖尿病相关文献,提取关键信息,并为用户提供清晰、精炼的内容摘要。例如,将大型语言模型与深度学习模型相结合,可为医生提供更具参考价值的临床建议。此外,大型语言模型可模拟虚拟患者或教练的角色,通过生成病例研究和模拟临床情景,帮助初级保健医生提高沟通和决策技能,从而为初级糖尿病护理提供有力支持。对于糖尿病患者而言,大型语言模型能够加强医患之间的沟通,提供个性化信息,协助患者进行疾病的持续管理。
国务院参事、北京协和医学院长聘教授刘远立评价该研究,“让我们看到,科技创新给解决全球性健康问题带来了前所未有的想象空间。随着AGI技术的不断迭代和优化,LLMs必将在糖尿病以及其他重大慢病的专业培训和诊疗实践中发挥更加有效的作用,为不断提高人民的健康福祉作出新的更大贡献。”中国科学院生化细胞所研究员、国科大杭高院首席教授、中国科学院系统生物学重点实验室执行主任陈洛南评价该研究,“意义深远,不仅为糖尿病的防治带来新的思路,也为未来AI在医学教育和临床实践中的应用提供了宝贵的参考。随着技术的不断发展与迭代,未来AI在糖尿病防治领域的作用将愈加重要,尤其是在全球范围内,AI可能成为解决糖尿病这一全球健康挑战的重要力量。”
相关阅读:
- 2025-03-14 15:03:00 国内首个热力行业多场景智慧客服系统正式发布
- 2025-03-14 14:45:00 网传累计亏损超千亿!蔚来被曝裁员
- 2025-03-14 12:51:00 上海首家外商独资医院获证 德达医院有了新身份
- 2025-03-14 09:56:00 AI能取代医生吗?全球首项糖尿病培训大模型检测验证前瞻性研究问世
- 2025-03-14 09:17:00 “文科无用论”,流量陷阱造成的误读
- 2025-03-14 08:47:00 网红女歌手全国巡回演唱会后,被控制!