导读 人工智能工具可以快速准确地创建患者 CT 扫描或 X 射线的详细叙述报告,可以大大减轻忙碌的放射科医生的工作量。这些人工智能报告不仅...
人工智能工具可以快速准确地创建患者 CT 扫描或 X 射线的详细叙述报告,可以大大减轻忙碌的放射科医生的工作量。
这些人工智能报告不仅仅识别图像上是否存在异常,还传达了复杂的诊断信息、详细的描述、细致入微的发现和适当程度的不确定性。简而言之,它们反映了人类放射科医生如何描述他们在扫描中看到的内容。
几种能够生成详细叙述报告的人工智能模型已经开始出现。随之而来的是自动评分系统,可以定期评估这些工具,以帮助告知他们的发展并提高他们的表现。
那么,当前系统衡量人工智能模型放射学性能的效果如何?
哈佛医学院研究人员 8 月 3 日在《模式》杂志上发表的一项新研究表明,答案是好的,但并不是很好。
研究人员表示,确保评分系统的可靠性对于人工智能工具的持续改进和临床医生对它们的信任至关重要,但研究中测试的指标未能可靠地识别人工智能报告中的临床错误,其中一些错误很严重。研究人员表示,这一发现凸显了改进的迫切需要以及设计忠实准确地监控工具性能的高保真评分系统的重要性。
该团队测试了人工智能生成的叙述报告的各种评分指标。研究人员还要求六名人类放射科医生阅读人工智能生成的报告。
分析表明,与人类放射科医生相比,自动评分系统评估人工智能生成报告的能力较差。他们误解了人工智能工具所犯的临床错误,在某些情况下甚至忽视了这一错误。
标签:
免责声明:本文由用户上传,如有侵权请联系删除!