将来,我们或许能够使用大型语言模型 (LLM) 自动读取医疗记录中的临床记录,并可靠高效地提取相关信息以支持患者护理或研究。但哥伦比亚大学梅尔曼公共卫生学院最近的一项研究使用 ChatGPT-4 阅读急诊科入院记录,以确定受伤的踏板车和自行车骑手是否戴了头盔,结果发现 LLM 尚无法可靠地做到这一点。该研究结果发表在JAMA Network Open 上。
在对 2019 年至 2022 年骑自行车、踏板车或其他微型交通工具时受伤的 54,569 名患者进行急诊就诊的研究中,人工智能法学硕士 (AI LLM) 难以复制基于文本字符串搜索的方法从临床记录中提取头盔状态的结果。
只有当提示包含基于文本字符串搜索的方法中使用的所有文本时,LLM 才能表现良好。LLM 也很难在连续五天的每次试验中重复其工作,它在重复幻觉方面比在准确工作方面做得更好。当短语被否定时,它尤其吃力,例如阅读“w/o 头盔”或“unhelmeted”并报告患者戴了头盔。
大量医学相关数据以书面临床笔记的形式包含在电子病历中,这是一种非结构化数据。高效地读取和提取这些笔记中的信息对于研究非常有用。
目前,可以使用简单的字符串匹配文本搜索方法或通过更复杂的基于人工智能 (AI) 的方法(例如自然语言处理)从这些临床记录中提取信息。人们希望新的 LLM(例如 ChatGPT-4)能够更快、更可靠地提取信息。
哥伦比亚大学梅尔曼学院流行病学教授、资深作者 Andrew Rundle 博士表示:“虽然我们看到使用生成式 AI LLM 进行信息提取任务可能会提高效率,但可靠性和幻觉问题目前限制了它的实用性。”
“当我们使用包含与头盔相关的所有文本字符串的高度详细的提示时,ChatGPT-4 在某些日子可以从临床记录中提取准确的数据。但是,定义和测试提示中必须包含的所有文本所需的时间以及 ChatGPT-4 无法日复一日地复制其工作,这表明 ChatGPT-4 尚未完成这项任务。”
Rundle 及其同事利用美国消费品安全委员会国家电子伤害监测系统 2019 年至 2022 年的公开数据(以 96 家美国医院为样本),分析了在电动自行车、自行车、悬浮滑板和电动滑板车事故中受伤患者的急诊室记录。他们将 ChatGPT-4 对记录的分析结果与使用更传统的基于文本字符串的搜索生成的数据进行了比较,并且对于 400 条记录,他们将 ChatGPT 的分析与他们自己对记录中临床笔记的解读进行了比较。
这项研究建立在他们研究如何预防微型交通工具使用者(即骑自行车者、电动自行车骑手、踏板车骑手)受伤的工作基础之上。“头盔的使用是伤害严重程度的一个关键因素,但在大多数急诊科医疗记录和事故报告中,有关头盔使用的信息都隐藏在医生或 EMS 受访者撰写的临床笔记中。需要进行大量研究才能可靠、高效地获取这些信息,”该论文的主要作者、梅尔曼学院流行病学系博士后研究员凯瑟琳·伯福德 (Kathryn Burford) 说。
“我们的研究考察了法学硕士从临床笔记中提取信息的潜力,临床笔记是医疗专业人员和研究人员的丰富信息来源,”兰德尔说。“但在我们使用 ChatGPT-4 时,它无法可靠地为我们提供数据。”
合著者包括哥伦比亚大学梅尔曼公共卫生学院的 Nicole G. Itzkowitz、哥伦比亚人口研究中心的 Ashley G. Ortega 和哥伦比亚社会工作学院的 Julien O. Teitler。
标签:
免责声明:本文由用户上传,如有侵权请联系删除!