研究发现生成式人工智能尚无法可靠地读取和提取医疗记录中的临床记录信息 研究人员发现控制触觉的新方法 关于禽流感如何跨越物种障碍的新见解 对自然界超级英雄鳗草的调查启动了加州桥梁项目 研究人员精确测量铍原子的电磁屏蔽效应 手被开水烫伤了应该怎么办?(手被开水烫伤怎么处理) 儿童畸胎瘤需要手术吗(畸胎瘤需要手术吗) 16号针头是多少mm(献血针头那么粗疼吗) 假肥大型肌营养不良怎么办(假肥大型肌营养不良怎么治疗) 女人闭经以后还会怀孕吗(女人闭经了还会怀孕吗) 排卵同房后几天着床(同房后几天着床) 大姨妈来黑色血是怎么回事(大姨妈黑色血是怎么回事) 17岁吃钙片能长高吗男孩(17岁吃钙片能长高吗) 感染hpv查血能查出来吗(查血能查出梅毒吗) 腿骨折要多少天脚面才不肿(腿脚骨折多久能好) 骨癌一般都长在哪三部位图(早期骨癌一般是哪疼) 低压多少正常范围内30-40(低压多少正常) 用生姜擦头皮有生发效果吗(生姜擦龟头能延时吗) 食道癌手术全下来费用是多少钱(食道癌手术全下来费用是多少) 无痛人流手术要多久可以出院(无痛人流手术要多久) 红霉素软膏的作用和功效可以消肿吗(红霉素软膏的作用和功效) 肝癌用中药调理到底有没有用?(肝癌中药治疗有用吗) 女人骨盆前倾怎么矫正(骨盆前倾怎么矫正) 霉菌性阴炎和滴虫性阴炎的症状(滴虫性阴炎的症状) 两个月婴儿鞘膜积液会影响生育吗(2个月婴儿鞘膜积液能自愈吗) 怀孕九周做春梦宫缩会流产(孕9周做春梦导致胎停怎么办) 感冒吃什么菜好的最快最有效(感冒吃什么菜好) 四维过了胎儿心脏彩超有必要吗(胎儿心脏彩超有必要吗) 嗓子发炎怎么治疗吃什么药(嗓子发炎治疗最有效的方法) 不插管无痛胃镜怎么做的过程(无痛胃镜怎么做的过程) 缺乏维生素d会导致胎停吗(孕妇怎么补充维生素d) 舌尖疼吃什么药最见效(舌尖疼是什么原因) 有了荨麻疹如何治疗(麻疹如何治疗) 西葫芦吃了有什么好处和坏处(吃西瓜的好处和坏处) 宫颈肥大用什么药根治(宫颈肥大吃什么药效果最好) 最后一颗牙拔了是种植牙好还是镶牙好(种植牙好还是镶牙好) 丙型肝炎的主要传播途径是什么(甲肝的主要传播途径是什么) 后背长痘痘是艾滋病吗图片(后背长痘痘是艾滋病吗) 胰腺囊肿最好的治疗方法(胰腺肿瘤有良性的吗) 英达35价格(英达35的作用与功效) 高血压患者眼睛模糊什么原因(高血压引起眼睛模糊怎么办) 直肠癌如何检查发现(直肠癌如何检查) 男性包皮不割有什么影响(包皮不割的影响) 左边心脏一阵一阵的疼是怎么回事(心脏一阵一阵的疼是怎么回事) 20天的婴儿黄疸值多少算正常(婴儿黄疸值多少算正常) 孕妇可以吃山竹吗对胎儿有影响吗(孕妇可以吃山竹吗) 川乌的功效及作用是什么呢(川乌的功效及作用是什么) 糖尿病患者可以吃什么水果(糖尿病患者能吃榴莲吗) 三个月的婴儿大便发绿是怎么回事(婴儿大便发绿怎么回事) 如何给宝宝断夜奶最好呢(如何给宝宝断夜奶最好)
您的位置:首页 >行业动态 >

研究发现生成式人工智能尚无法可靠地读取和提取医疗记录中的临床记录信息

导读 将来,我们或许能够使用大型语言模型 (LLM) 自动读取医疗记录中的临床记录,并可靠高效地提取相关信息以支持患者护理或研究。但哥伦比亚...

将来,我们或许能够使用大型语言模型 (LLM) 自动读取医疗记录中的临床记录,并可靠高效地提取相关信息以支持患者护理或研究。但哥伦比亚大学梅尔曼公共卫生学院最近的一项研究使用 ChatGPT-4 阅读急诊科入院记录,以确定受伤的踏板车和自行车骑手是否戴了头盔,结果发现 LLM 尚无法可靠地做到这一点。该研究结果发表在JAMA Network Open 上。

在对 2019 年至 2022 年骑自行车、踏板车或其他微型交通工具时受伤的 54,569 名患者进行急诊就诊的研究中,人工智能法学硕士 (AI LLM) 难以复制基于文本字符串搜索的方法从临床记录中提取头盔状态的结果。

只有当提示包含基于文本字符串搜索的方法中使用的所有文本时,LLM 才能表现良好。LLM 也很难在连续五天的每次试验中重复其工作,它在重复幻觉方面比在准确工作方面做得更好。当短语被否定时,它尤其吃力,例如阅读“w/o 头盔”或“unhelmeted”并报告患者戴了头盔。

大量医学相关数据以书面临床笔记的形式包含在电子病历中,这是一种非结构化数据。高效地读取和提取这些笔记中的信息对于研究非常有用。

目前,可以使用简单的字符串匹配文本搜索方法或通过更复杂的基于人工智能 (AI) 的方法(例如自然语言处理)从这些临床记录中提取信息。人们希望新的 LLM(例如 ChatGPT-4)能够更快、更可靠地提取信息。

哥伦比亚大学梅尔曼学院流行病学教授、资深作者 Andrew Rundle 博士表示:“虽然我们看到使用生成式 AI LLM 进行信息提取任务可能会提高效率,但可靠性和幻觉问题目前限制了它的实用性。”

“当我们使用包含与头盔相关的所有文本字符串的高度详细的提示时,ChatGPT-4 在某些日子可以从临床记录中提取准确的数据。但是,定义和测试提示中必须包含的所有文本所需的时间以及 ChatGPT-4 无法日复一日地复制其工作,这表明 ChatGPT-4 尚未完成这项任务。”

Rundle 及其同事利用美国消费品安全委员会国家电子伤害监测系统 2019 年至 2022 年的公开数据(以 96 家美国医院为样本),分析了在电动自行车、自行车、悬浮滑板和电动滑板车事故中受伤患者的急诊室记录。他们将​​ ChatGPT-4 对记录的分析结果与使用更传统的基于文本字符串的搜索生成的数据进行了比较,并且对于 400 条记录,他们将 ChatGPT 的分析与他们自己对记录中临床笔记的解读进行了比较。

这项研究建立在他们研究如何预防微型交通工具使用者(即骑自行车者、电动自行车骑手、踏板车骑手)受伤的工作基础之上。“头盔的使用是伤害严重程度的一个关键因素,但在大多数急诊科医疗记录和事故报告中,有关头盔使用的信息都隐藏在医生或 EMS 受访者撰写的临床笔记中。需要进行大量研究才能可靠、高效地获取这些信息,”该论文的主要作者、梅尔曼学院流行病学系博士后研究员凯瑟琳·伯福德 (Kathryn Burford) 说。

“我们的研究考察了法学硕士从临床笔记中提取信息的潜力,临床笔记是医疗专业人员和研究人员的丰富信息来源,”兰德尔说。“但在我们使用 ChatGPT-4 时,它无法可靠地为我们提供数据。”

合著者包括哥伦比亚大学梅尔曼公共卫生学院的 Nicole G. Itzkowitz、哥伦比亚人口研究中心的 Ashley G. Ortega 和哥伦比亚社会工作学院的 Julien O. Teitler。

标签:

免责声明:本文由用户上传,如有侵权请联系删除!

最新文章