健康
健康频道 > > 正文

ChatGPT通过美国执业医生资格试

美国执业医师资格考试以难度大著称,而美国研究人员发现,聊天机器人ChatGPT无需经过专门训练或加强学习就能通过或接近通过这一考试。对此,有人对人工智能在临床医学的应用充满期待,有人则开始反思美国医学教育及相关考试的不足。

参与这项研究的人主要来自美国医疗保健初创企业安西布尔健康公司(AnsibleHealth)。他们在美国《科学公共图书馆·数字健康》杂志9日刊载的论文中说,他们从美国执业医师资格考试官网2022年6月发布的376个考题中筛除基于图像的问题,让ChatGPT回答剩余350道题。这些题类型多样,既有要求考生依据已有信息给患者下诊断这样的开放式问题,也有诸如判断病因之类的选择题。两名评审人员负责阅卷打分。

结果显示,在三个考试部分,去除模糊不清的回答后,ChatGPT得分率在52.4%至75%之间,而得分率60%左右即可视为通过考试。值得注意的是,ChatGPT有88.9%的主观回答包括“至少一个重要的见解”,即见解较新颖、临床上有效果且并非人人能看出来。相比之下,专门针对生物医学领域文献训练出来的一款大型语言模型PubMedGPT在类似测试中得分率刚过50%。

研究人员说,“在这个出了名难考的专业考试中达到及格分数,且在没有任何人为强化(训练)的前提下做到这一点”,这是人工智能在临床医学应用方面“值得注意的一件大事”,显示“大型语言模型可能有辅助医学教育、甚至临床决策的潜力”。

实际上,在这篇论文初稿写作过程中,ChatGPT就做出了“较大贡献”,与研究人员关系如同事般,而安西布尔健康公司的临床医生们也已在使用ChatGPT改写一些术语繁多的报告,以便患者理解。

新西兰惠灵顿维多利亚大学软件工程高级讲师西蒙·麦卡勒姆对人工智能在医学领域的应用同样乐观。他告诉法新社记者,谷歌公司一款名为Med-PaLM的人工智能医疗助手“能够向患者提供和专业全科医生一样好的建议”。随着技术不断发展,“我们可能很快会从‘谷歌医生’或‘必应(微软旗下搜索引擎的名称)护士’那里得到医学方面建议”。

不过,也有人持异议。《科学公共图书馆·数字健康》同日刊载的一篇文章题目是《ChatGPT通过美国执业医师资格考试让人们注意到医学教育的缺陷》。作者在文章中说,ChatGPT的成功,一方面反映医师考试过于强调机械记忆,对疾病机理死记硬背,“不能充分评估现代医疗实践所需技能”;另一方面反映医学教学方式僵化,易让学生误以为医学上的问题“非对即错”,而临床中“正确的”选择含义丰富,既需要医生摒弃偏见、发挥创造力、展开批判性思考,也需要考虑众多现实因素。

美国执业医师资格考试属于标准化考试,分为三部分。第一部分侧重于考察基础科学和药理学,考生通常是完成300至400小时专业学习的医学生;第二部分一般由四年级医学生参加,重点考察临床诊断推理能力、医疗管理水平和生物伦理方面内容;最后一部分考试对象是完成至少6至12个月研究生医学教育的实习医生。

ChatGPT意为“聊天生成预训练转换器”,是美国开放人工智能研究中心研发的大型语言模型,去年11月发布,由于能在数秒内按用户需求写出论文、诗歌或编程代码而引起轰动。美国科学促进会运营的全球科技新闻服务网站“尤里卡警报”说,与现有的多数聊天机器人不同,ChatGPT不能上网搜索,而是经由内部数据处理生成类似人类语言的文本。

ChatGPT涉足医疗,会替代医生吗?

从2022年末到今天,由OpenAI公司打造的ChatGPT火遍了全网,根据瑞银的一份报告,ChatGPT推出仅两个月,它在2023年1月末的月活用户已经突破了1亿,成为史上用户增长速度最快的消费级应用程序。

ChatGPT之所以这么火爆,就在于ChatGPT几乎无所不能,很多人形容它是一个真正的“六边形战士”——不仅能拿来聊天、搜索、做翻译,还能撰写诗词、论文和代码,甚至开发小游戏、参加美国高考等等。人们在社交媒体上不断地展示与ChatGPT的对话,并且伴随着各种各样的赞叹声。

关于ChatGPT的新也一直未停止,最近,ChatGPT甚至还通过了美国相当具有挑战性的三大专业考试:美国医学执业考试(USMLE)、律师资格证考试、沃顿商学院MBA考试。现在,就连医学领域,ChatGPT也开始涉足,并给出了令人惊喜的效果。

ChatGPT通过美国执业医生资格试

《美国医学会杂志》(JAMA)发表研究性简报,针对以ChatGPT为代表的在线对话人工智能模型在心血管疾病预防建议方面的使用合理性进行探讨,表示ChatGPT具有辅助临床工作的潜力,有助于加强患者教育,减少医生与患者沟通的壁垒和成本。

过程中,根据现行指南对CVD三级预防保健建议和临床医生治疗经验,研究人员设立了25个具体问题,涉及到疾病预防概念、风险因素咨询、检查结果和用药咨询等。每个问题均向ChatGPT提问3次,记录每次的回复内容。每个问题的3次回答都由1名评审员进行评定,评定结果分为合理、不合理或不靠谱,3次回答中只要有1次回答有明显医学错误,可直接判断为“不合理“。

结果显示,ChatGPT的合理概率为84%(21/25)。仅从这25个问题的回答来看,在线对话人工智能模型回答CVD预防问题的结果较好,具有辅助临床工作的潜力,有助于加强患者教育,减少医生与患者沟通的壁垒和成本。

当然,研究人员也提到尚存在诸多问题需要解决。一方面,虽然ChatGPT的合理概率达到84%,但依然存在回答不合理的概率,而这对于严肃且关乎生命的医学领域可能就会造成不良的结果,比如问ChatGPT“应该做什么运动来维持健康?”ChatGPT同时推荐了普通心血管相关活动和举重,但这并不准确,因为可能对部分患者有害。另一方面,ChatGPT的回答过于“学术范”,如果将来要用到患者教育上,实用性价值很低。

总的来说,虽然ChatGPT不是完美的,依然还有Bug存在,但仍然不可否认ChatGPT具有的颠覆性力量,基于庞大的数据进行学习的ChatGPT已经有不输于人类的学习能力,假以时日,ChatGPT可能就可以帮助医生们进行辅助临床工作,加强患者教育。而未来,虽然ChatGPT不一定会替代医生来对病人进行诊治,但未来的医疗,一定会是人机协同的医疗。

上一页3/3下一页全文

医院资讯

相关新闻