击败40%临床医生!谷歌首次验证「全科医学AI系统」,看病难真要成历史?

2023-08-17 15:50:28 来源:手机网易网 分享到:

新智元报道

编辑:LRS


(资料图片)

【新智元导读】基于100万医学数据、PaLM模型、ViT模型,谷歌全新模型Med-PaLM M成医学界大模型新sota!

「看病难」在全世界范围内都是一个难题,想要成为一位优秀的专科、全科医生不仅需要耗费大量时间来进行知识学习,还需要经历足够多的病例来获取实操经验。

如果医学AI系统足够强大,在常见病的处理上完全可以取代人类医生,医疗服务紧缺现象也会得到极大缓解。

今年4月,美国哈佛大学、斯坦福大学、耶鲁医学院、加拿大多伦多大学等多所顶尖高校、医疗机构的研究人员在Nature上联合提出了一种 ,可以灵活地编码、整合和大规模解释医学领域的多模态数据,比如文本、成像、基因组学等,有可能颠覆现有的医疗服务形式。

最近,Google Research和Google DeepMind共同发布了一篇论文,对全科医学人工智能概念进行了实现、验证。

研究人员首先策划了一个全新的多模态生物医学基准数据集MultiMedBench,包含100多万条样本,涉及14个任务,如医疗问题回答、乳腺和皮肤科图像解读、放射学报告生成和总结以及基因组变异识别。

然后提出了一个新模型Med-PaLM Multimodal(Med-PaLM M),验证了通用生物医学人工智能系统的可实现性。

Med-PaLM M 是一个大型多模态生成模型,仅用一组模型权重就可以灵活地编码和解释生物医学数据,包括临床语言、成像和基因组学数据。

在所有MultiMedBench任务中,Med-PaLM M的性能都与最先进的技术相差无几,在部分任务上甚至还超越了专用的SOTA模型。

文中还报告了该模型在零样本学习下可以泛化到新的医学概念和任务、跨任务迁移学习以及涌现出的零样本医学推理能力。

文中还进一步探究了Med-PaLM M的能力和局限性,研究人员对比了模型生成的及人类编写的胸部X光报告进行了放射科医师评估,在246份病例中,临床医生认为Med-PaLM M的报告在40.5%的样本中比放射科医生编写的要更好,也表明Med-PaLM M具有潜在的临床实用性。

MultiMedBench

为了训练和评估大模型在执行各种临床相关任务的能力,谷歌的研究人员收集了一个多任务、多模态的全科医疗基准数据集MultiMedBench

该基准由12个开源数据集以及14个独立任务组成,包含100多万条样本,涵盖了医疗问答、放射学报告、病理学、皮肤病学、胸部X光、乳房X光和基因组学等多个领域。

任务类型: 问题回答、报告生成和总结摘要、视觉问题回答、医学图像分类和基因组变异识别(genomic variant calling)

模态: 模式:文本、放射学(CT、MRI 和 X-射线)、病理学、皮肤病学、乳房X射线检查(mammography)和基因组学。

输出格式: 所有任务(包括分类任务)都是开放式生成(open-ended generation)

纯语言任务包括医学问题回答(MultiMedQA任务)和放射学报告总结,可以测试模型是否具有理解、回忆和操作医学知识的能力。

多模态任务包括医学视觉问题解答 (VQA)、医学图像分类、胸部X光报告生成和基因组变异识别,非常适合评估模型的视觉理解和多模态推理能力。

Med-PaLM M:全科生物医疗AI的概念验证

基座模型:PaLM-E

PaLM-E是一个多模态语言模型,可以处理包括文本、视觉和传感器信号等多模态的输入序列,使用了预训练的PaLM和ViT模型,在OK-VQA和VQA v2等多个视觉语言基准测试中表现出色。

PaLM-E可以灵活地在单个提示中交错显示图像、文本和传感器信号,使模型能够在完全多模态的背景下进行预测。

PaLM-E具有零样本多模态思维链(CoT)推理和少样本上下文学习等多种能力。

研究人员利用PaLM-E模型作为Med-PaLM M的基础架构,组合了128B、84B和562B三个不同参数量的PaLM-E模型。

预处理

研究人员将MultiMedBench数据集中的所有图像重新调整为224×224×3尺寸,同时保留原始长宽比,在必要时进行填充处理;对于灰度图像,沿通道维度(channel dimension)对图像进行堆叠,将灰度图像转换为三通道图像。

其他与任务相关的预处理方法,如类平衡、图像数据增强等请参阅原文。

指令任务提示、one-shot样例

想要训练一个通用生物医学人工智能模型,模型架构及参数上的统一、能够同时处理多模态、多任务的输入是很重要的。

研究人员采用指令微调的方式,为不同任务设定不同的指令,使得模型可以在统一的生成架构内执行不同类型的任务,其中任务提示由指令、相关上下文信息和问题组成。

比如在胸部X光报告生成任务中,上下文信息包括研究原因和图像方向;而在皮肤病学分类任务中,则提供与皮损图像相关的患者临床病史作为上下文。

研究人员将所有分类任务都设计成多选问题,将所有可能的类别标签作为单个答案选项提供,并提示模型生成最可能的答案作为目标输出。

对于其他生成任务,如视觉问题解答、报告生成和总结,则根据目标响应对模型进行微调。

为了使模型能够更好地遵循指令,研究人员在多数任务的提示中加入了一个纯文本的示例来调整语言模型的预测结果;对于多模态任务,将图像替换为字符串「」,在保持单图像任务计算效率的同时,还可以绕过给定文本token和多图像token之间的交叉注意力的潜在干扰。

实验结果

评估目标

1. 通用能力

研究人员在MultiMedBench上对不同规模的Med-PaLM M模型进行评估,初步了解了在不同任务中扩展ViT和语言模型组件的效果。

然后将其性能与之前的SOTA(包括专门开发的单任务、单模态的方法)和未进行生物医学微调的最新通用模型(PaLM-E)进行了对比。

2. 涌现能力

在不同任务中训练单一灵活的多模态、通用AI系统的一个潜在优势是,通过语言的组合泛化(如对新的医学概念和任务的泛化),会让模型涌现出新的能力,可以通过定性和定量实验进行探索。

3. 测量放射学报告生成质量

自然语言生成(NLG)指标无法充分评估AI模型生成的放射学报告的临床适用性,所以研究人员在MIMIC-CXR数据集上对AI模型生成的报告进行了放射科专家评估,包括与放射科专家提供的参考报告进行比较。

横扫MultiMedBench

研究人员将Med-PaLM M的性能与两类基线模型进行对比:

1. MultiMedBench基准上各项任务的先前SOTA专用模型

2. 未进行任何生物医学领域微调的基线通用模型(PaLM-E 84B)

从实验结果来看,Med-PaLM M的最佳结果(三种模型尺寸)在12个任务中的5个都实现了超越先前SOTA的性能,并且在其余任务上也展现出极有竞争力的性能表现。

值得注意的是,这些结果是在使用相同模型权重集的通用模型中取得的,没有针对特定任务进行任何架构定制或优化。

在医疗问题回答任务上,先前的SOTA模型Med-PaLM 2性能更高,但与基线PaLM模型相比,Med-PaLM M在三个问答任务上,实现了远超PaLM的性能。

不同尺寸模型的性能对比

对比12B、84B 和562B的Med-PaLM M模型性能,可以观察到:

1. 语言推理任务受益于模型规模的扩大

对于需要语言理解和推理的任务,如医学问题回答、医学视觉问题回答和放射学报告总结,将模型规模从12B扩大到562B时,性能显著提高。

2. 视觉编码器的性能是多模态任务的瓶颈

对于乳房X射线或皮肤病学图像分类等任务,需要细致入微的视觉理解能力,对语言推理的需求极低(输出仅为分类标签标记)。

可以看到,从Med-PaLM M 12B到Med-PaLM 84B,性能有所提高,但562B模型带来的性能提升却很有限,可能是因为视觉编码器在该步骤中没有进一步扩大参数量(Med-PaLM M 84B 和 562B 模型都使用相同的22B ViT作为视觉编码器),成为性能增益的瓶颈;其他干扰因素可能还包括输入图像的分辨率等。

在胸部X光报告生成任务中,从表面上看,这项任务似乎需要复杂的语言理解和推理能力,可以从更大的语言模型中受益;但从实际效果上来看,Med-PaLM M 84B模型在大多数指标上与562B模型大致相当或略微超过,可能仅仅是由于较大的模型使用了较少的训练步骤。

增加语言模型尺寸没用的另一个原因可能是,MIMIC-CXR数据集中生成胸部X光报告的输出空间相当有限,只有一组模板句子和有限数量的条件,所以在生成报告时采用检索而非生成的方式可能更好。

此外,更大的562B模型倾向于生成冗长的报告,而84B模型则相对简洁,如果在训练中没有进一步做偏好调整,可能会影响最终的评估指标。

零样本通用能力

通过评估Med-PaLM M从蒙哥马利县(Montgomery County,MC)数据集中的胸部X光图像中检测肺结核(TB)异常的能力,研究人员探究了Med-PaLM M对未知医学概念的零样本泛化能力。

可以看到,相比专门优化过的SOTA模型,不同尺寸的Med-PaLM M性能相近,在没有额外训练样本的情况下,准确率只落后不到5%

在推理方面,研究人员在MC TB数据集上定性地探索了 Med-PaLM M 的零样本思维链(CoT)能力。

与分类设置不同的是,除了是/否分类预测外,还需要用纯文本示例提示模型生成一份报告,描述在给定图像中的发现。

从实验结果中可以发现,Med-PaLM M模型可以在正确的位置识别出结核病相关的主要病变。

不过,根据放射科专家的审查,模型生成的报告中仍有一些遗漏的结果和错误,仍有改进的空间。

值得注意的是,Med-PaLM M 12B无法生成连贯的视觉条件反应,也就是说语言模型的规模在零样本CoT多模态推理能力中起着关键作用,可能是一种涌现的能力。

参考资料:

https://arxiv.org/pdf/2307.14334.pdf

标签:

击败40%临床医生!谷歌首次验证「全科医学AI系统」,看病难真要成历史?

来源:手机网易网 2023-08-17 15:50:28

济南历城:巨幅“稻田画”扮靓乡村,现在正是最佳观赏期

来源:海报新闻 2023-08-17 14:22:22

广东发布稳就业政策措施“十六条” 今年将募集6万个以上见习岗位

来源:央视新闻客户端 2023-08-17 12:57:46

pdf怎么编辑修改文字内容(pdf文件怎么编辑文字)

来源:互联网 2023-08-17 11:21:22

美联储纪要:通胀存上行风险 或需继续加息 美股全线收跌

来源:第一财经 2023-08-17 10:03:25

游戏ETF:连续3日融资净买入累计1865.6万元(08-16)

来源:东方财富Choice数据 2023-08-17 09:02:38

2023年河北省城乡居民医保筹资标准公布 个人缴费每人每年380元

来源:河北日报 2023-08-17 07:36:12

小祯和三个孩子是怎么回事 小祯离婚

来源:互联网 2023-08-17 05:28:42

重磅!深圳推出20条举措,促进民营经济做大做优做强

来源:读创 2023-08-16 23:37:07

中国地震台网自动测定:瓦努阿图群岛附近发生6.5级左右地震

来源:国际金融报网 2023-08-16 21:33:42

拒绝黄赌毒是什么意思(拒绝黄赌毒是什么歌)

来源:互联网 2023-08-16 20:03:21

中华职棒乐天桃猿队拼宣传 官兵战车都上了

来源:中评网 2023-08-16 18:27:03

八面玲珑意思是什么(八面玲珑的释义)

来源:互联网 2023-08-16 17:06:38

炎炎夏日行 家访传真情——合肥市伦先小学开展暑期家访活动

来源:安青网 2023-08-16 16:01:26

腾讯音乐,又回磨底期

来源:蓝鲸财经 2023-08-16 14:19:01

我国水土保持率提高至72.26% 水蚀风蚀“双减少”

来源:央视网 2023-08-16 13:04:16

索菲亚8月16日快速上涨

来源:东方财富Choice数据 2023-08-16 11:23:39

展现青春的朝气锐气(金台随笔)——涵养新时代中国青年的精气神①

来源:人民网-人民日报 2023-08-16 10:00:44

浙商证券:整车新一轮价格促销更多是淡季来临的一种应对

来源:金融界 2023-08-16 09:10:25

青少年如何做新时代的弘扬者

来源:互联网 2023-08-16 07:44:03

日照港(600017):8月15日北向资金增持279.33万股

来源:证券之星 2023-08-16 05:19:24

长宁外环林带生态绿道,让你尽情“森”呼吸

来源:腾讯网 2023-08-15 23:10:27

最高检、国家林草局建立协作机制,以法治合力保护林草资源

来源:环球网 2023-08-15 22:04:29

【主题教育在宁夏】实现“所有学段、所有学校、所有家庭经济困难学生”全覆盖,宁夏精准资助家庭经济困难学生

来源: 中国日报网 2023-08-15 20:34:20

增城区二手房转让纠纷税费缴纳争议咨询

来源:法务网 2023-08-15 19:09:52

机构间常设委员会呼吁尽快和谈以结束苏丹武装冲突

来源:环球网 2023-08-15 18:03:15

国际观察:美国对华投资限制令再次暴露“脱钩断链”图谋

来源:人民网 2023-08-15 17:00:01

云赛智联(600602)8月15日主力资金净卖出860.83万元

来源:证券之星 2023-08-15 15:49:53

伟星股份:加快越南工业园建设,国际业务收入增14%|中报拆解

来源:乐居财经 2023-08-15 14:18:34

创意无限,科技助力:华为学习全家桶开启大学生兴趣爱好的新篇章

来源:极客对比 2023-08-15 12:54:21

Copyright   2015-2022 华东知识产权网 版权所有  备案号:京ICP备2022016840号-41   联系邮箱:2 913 236 @qq.com