Skip to main content
Journal of Central South University Medical Sciences logoLink to Journal of Central South University Medical Sciences
. 2022 Aug 28;47(8):981–993. [Article in Chinese] doi: 10.11817/j.issn.1672-7347.2022.220376

自然语言处理在医学影像分析中的应用

Survey on natural language processing in medical image analysis

刘 正梁 1,✉,2, 贺 孟申 2, 姜 作伟 3, 吴 子豪 1, 戴 海星 1, 张 练 4, 罗 思一 5, 韩 甜乐 2, 李 响 6, 蒋 希 7, 朱 大江 8, 蔡 晓妍 3, 葛 宝 2, 刘 伟 4, 刘 军 9, 沈 定刚 10, 刘 天明 1
Editor: 陈 丽文
PMCID: PMC10950114  PMID: 36097765

Abstract

自然语言处理和医学影像的发展使深度学习模型能够在各种领域和各种数据模态中表现出出色的通用性。这些进步不仅加深了对数据的理解,而且促进了学界对最先进架构及其前景的认识。医学影像研究人员已经认识到仅针对图像研究的不足之处,以及对多模态输入进行综合分析的重要意义。但是,目前相关综述论文的缺乏不利于这个研究方向的发展。本篇综述介绍了自然语言处理和医学图像结合这一领域的背景,并分5个主题回顾现有文献的研究目标、模型架构、目标任务、实验数据和性能指标,还对该领域未来可能的发展方向进行简要描述,旨在为研究人员和医护人员提供现有学术研究的详细总结,提出理性的见解,进而促进未来的研究。

Keywords: 医学影像, 自然语言处理, 深度学习, 多模态输入


自然语言处理(natural language processing,NLP)是一个以计算方式处理和分析人类语言数据的技术领域。NLP的最新研究增强了学界对自然语言的理解从而促进了学者对该领域的探索,并在文档分类、机器翻译、文本生成和文本摘要等各种任务中有了实质性的突破。NLP领域在深度学习中的原创性方法对整个人工智能和各种应用领域都有重要贡献和影响。

NLP已被广泛应用于医学领域,包括但不限于医疗效果预测、基于临床记录的疾病诊断、针对患者的自动问答系统、自动导诊等。此外,相关行业对于整合 NLP、计算机视觉和图像分析方法进行多模态数据分析也很感兴趣。这一多学科研究方向的最新发展使得机器学习从业者能够发现和利用不同类型和模式数据之间的深层联系和交互作用。

在医学领域,科学研究和临床实践产生的数据在本质上是多模态的。例如,在临床管理中收集的数据常常包含文本、图像和音频数据。因此,结合来自不同数据域的信息对于获得有意义的科学发现至关重要。换言之,将NLP方法与医学图像方法结合使用,能够最大限度地利用此类多模态数据。

然而,作为一个新领域,现有的结合NLP 和医学图像分析的研究比较有限。并且,本领域也缺乏全面的和高质量的综述论文。因此,笔者希望本篇综述能够帮助研究人员和医护人员及时了解这方面的动态,提供有价值的行业评估和研究汇总,并最终促进这个领域的发展。

1. 研究背景

在现实生活中,人脑天然能够处理多模态、多渠道的信息。一个人能够轻松地将视觉、听觉和文字乃至触觉信息结合起来作出判断。比如,在对话中理解对方的心里想法和心情是典型的结合脸部表情、肢体动作(皆为视觉信息),和对话内容(文字信息)作出判断的一种过程。如果此对话发生在一个场景中,比如观看足球比赛,人们还能够结合听觉信息(如喝彩声和欢呼声)作出更加准确的判断。显然,处理、理解和运用多模态信息不仅可行,在许多场景中更是比仅依赖单渠道、单模态信息而作出的判断可靠。在机器学习领域,科研人员也从这种现象获取灵感,试图结合多模态的数据信息帮助机器学习模型完成任务。早在1989年,Yuhas等[1]就以基本形态的前馈神经网络模型对音频和视频双模态的演讲数据进行自动元音识别。在2010年代,借助互联网普及和硬件算力进步的东风,多模态机器学习得到了发展。例如,Antol等[2]在2015年提出一个用来处理视觉问答(visual question answering,VQA)任务的语言-视觉模型。在此任务中,一个模型需要结合文字和图片信息来用自然语言回答问题(问题本身也是文字)。他们的模型本质上是对文本和图片信息分别做嵌入(embedding),也就是将这些信息表达为向量形式。在合适的向量空间中,这些信息可以被合理结合起来,然后用于预测和回归任务。在该研究中,VGGNet[3](一种卷积网络模型的变体)被用于图片的嵌入,而Bag of Words[4](一种基于词频的文本嵌入方法)和LSTM[5](一种循环神经网络的变体)被用于文本嵌入,最后,一个多层感知器(MLP)被用来处理这些结合后的嵌入。值得注意的是,这项研究的思路反映了多模态模型的基本框架。换句话说,他们的工作意义在于,无论使用什么模型,无论如何实现数据的嵌入,只要能够有机地将多模态信息在高维空间结合起来,就能够对这些向量进行有效的处理,最后实现分类或者回归任务。在这一时期,基于相似思路的多模态融合也被应用于结合图片信息预测语义相似性[6],结合电影海报和简介进行电影分类[7]等工作,为机器学习的落地和实用化作出了贡献。Bengio团队[8]于2014提出了Seq2Seq(sequence to sequence)模型,该模型最早被应用于机器翻译领域,后凭借其在生成任务中的出色表现,也成为解决其他生成问题的一个极佳的思路。Seq2Seq模型首先将源句子中的字词进行嵌入,输入循环神经网络获得源句的特征表示,这一部分称为编码器(encoder);然后用循环神经网络,循环输出目标句子的字词,这一部分称为解码器(decoder)。用编码端的表征,在解码端完成序列生成任务,可以实现完全端到端训练,进而用来完成生成任务。但此时的Seq2Seq主要基于RNN[9],存在长距离依赖问题,即当输入序列比较长时,模型容易失去对位置靠前字词的记忆。于是Bengio团队[10]在2015年提出了注意力(attention)机制,用以改进Seq2Seq模型。在训练模型时,注意力可以告知模型应该更加注意哪些词语,同时减少对不重要词的注意,在一定程度上可以缓解长距离依赖问题。

然而,多模态学习的大规模、便捷化和多样化应用发生在2017年以后。这些近期进步的核心基础[11-12]是大名鼎鼎的transformer架构[13]。自2017年以来,transformer架构在NLP和计算机视觉领域都获得了广泛的成功。当前,transformer及其变形[13-14]在NLP领域中大放异彩,成为当前NLP领域中的基础模型和事实上的默认选择。Transformer的诞生是基于机器翻译领域的现实需要。机器翻译的本质是把一种语言解码为另一种语言,同时保留必要的结构和语义相似性。Transformer本质上是一个Seq2Seq架构模型,因此它也由encoder和decoder两部分组成。在这种架构中,encoder部分将语句转化为向量形式;而在decoder部分则根据词向量和位置信息,结合注意力机制,预测每一个指数位置的词及其出现的概率(比如,在中文翻译成英文的过程中,对于每一个中文单词,找出与该位置的这个中文词在语义空间里最接近的英文词)。这种seq2seq流程起源于机器翻译,但是可以扩展到其他的NLP任务中(这一流程由NLP中新锐的BERT模型[14]及其变种发扬光大),因为这种结构迫使模型深入理解文本中的词汇和词汇出现的上下文/场景(context)。值得指出的是,transformer使用了所谓的多头自注意力机制来帮助理解上下文,放弃了RNN等循环神经网络的时序处理方法,引入位置编码以代表位置信息。简单来说,这种多头注意力机制的变体试图描述词和词之间的关系,计算句子中词与词之间的attention(即词与词之间互相关注和关联的程度),使得每个词都有全局的语义信息,这在很大程度上解决了长距离依赖问题,同时多头有利于学习不同方面的信息。例如,在机器翻译中,如果我们需要将“I love you”翻译为“我爱你”,理想状况下“I”和“我”应该有很高的关联性(同理适用于“love”和“爱”等词-词对子)。显然,词本身和其位置信息(“I”和“我”都是句子中的第一个词)都是计算attention权重中需要考量的重点对象,transformer也正是在大规模文本学习中理解训练文本以及词和词之间的关系。Vaswani等[13]于2017年提出的transformer模型在WMT 2014 English-German的翻译任务中超过以往所有模型的性能,达到目前的最高水平(state of the art),作者证明了该模型在大规模数据和有限数据上的稳定性以及在其他任务中的泛化能力。

Transformer架构的特点使得它在应用于NLP任务时有着得天独厚的优势,因为transformer模型通过嵌入方法,可以将文字进行编码,将数据从高维空间降到低维空间进行分析训练。在对序列数据进行位置编码处理之后,可以解决长距离依赖问题;以多头自注意力机制为计算核心,可以在训练过程中进行并行计算;针对NLP数据中的一词多义问题可以建立多个语义空间进行学习,减少训练时间。总而言之,相较于之前NLP领域常用的RNN[15],LSTM[5]等方法,transformer有显著的优越性,并且经受了大量实践的检验[11-12,16]

在计算机视觉领域,transformer的变型vision transformer (ViT)[17]也受到了广泛的欢迎。事实上,vision transformer的衍生模型在ImageNet[18],MSCOCO[19]等主要的计算机视觉benchmark中排行前列。例如,当前的ImageNet准确率冠军CoCa[20]即是transformer的一种变型(其主要改进包括跨文本和图像的注意力机制等)。值得注意的是,计算机视觉领域的transformer模型在工作原理上与NLP领域的transformer模型是非常近似的。在本质上,vision transformer将NLP领域的基本分析单位(词),替换成图像领域的基本分析单位(像素)。一张图片可以被分解为以像素为基本单位(例如,按照选定的像素大小把一张图片从左至右,从上到下分割即可获得类似于NLP中的“句子”),然后其像素各通道的数值和位置信息可以被输入一个transformer进行嵌入,最后应用于图像分类等下游任务。当然,此过程中的很多细节可以被优化。例如,vision transformer就以16像素×16像素为单位进行图片的切割并计算这些“图块内”像素之间的“注意力”来减少计算量。近些年来涌现出了许多不同的适用于特定场景的模型改型和优化手段。

鉴于transformer的性能优越性,以及transformer架构对包括图像和文本在内的多模态数据的适应性(换句话说,研究人员不需要改动多少代码即可同时处理多模态数据),transformer也自然成为了研究多模态数据的优先选择。因此,笔者将基于transformer的研究归纳本领域的近期进展,同时介绍一些医学图像与NLP结合的相关应用方法。

2. 本文的综述范围和文献采集过程

在这篇综述论文的工作中,我们主要关心下列主题:1)适用于医学图像分析的新型 NLP 理论和模型的开发和验证;2)多模态 (NLP 数据和成像数据)的深度学习或表征学习模型;3)图像生成和文本生成模型在医学影像中的应用;4)为医学影像开发的 NLP 任务;5)与医学影像相关的知识图谱——NLP 集成。

这些研究主题都对医学影像领域的发展有重大意义,同时与NLP息息相关。因此,深入调研这些相关方向的论文是这篇综述工作的基石。另外,不论是NLP还是图像处理,整个深度学习领域的发展速度很快,最先进的成果也时常在更新。因此,为了呈现这个领域的最新动态,笔者重点关注和采集2021年以后发表的相关文献,以及一些在此之前发表的有重大价值的论文。

我们使用百度学术和Google Scholar作为主要的文献来源。首先,由1名作者统一筛选出一些关键词来获取相关的理论、模型、数据、任务及评估方法。之后,由5名作者分别测试并筛选掉多余的关键词或者增添合适的关键词。最后,所有作者统一检验和确认最后的文献集(表1)。

表1.

各主题的主要搜索关键词

Table 1 Key words for each topic

主题 关键词
直接适用于医学图像分析的新型 NLP理论和模型的开发和验证 transformer, NLP + medical imaging methods, NLP models in medical imaging
多模态(NLP数据和成像数据)的 深度学习或表征学习模型 multimodal medical imaging, text + medical imaging, multimodal biomedical machine learning, multimodal fusion, multimodal fusion models, multimodal fusion in medical imaging, combining NLP with medical imaging
生成模型在医学影像中的应用 generative models in medical imaging, text generation + medical imaging, medical image generation + NLP
为医学影像开发的NLP任务 medical NLP tasks, NLP tasks in medical imaging, NLP in medical imaging, NLP tasks in radiology
与医学影像相关的知识图谱—— NLP集成 knowledge graph + NLP + medical imaging, knowledge graph + medical imaging, knowledge + medical imaging, knowledge infusion + medical imaging

3. 多模态医学影像研究成果

3.1. 适用于医学影像分析的NLP理论和模型

在医学影像(MRI,CT等)分析过程中,同NLP中的许多数据和任务结构一样,医学影像数据也存在维度高、分辨率高、需要关注序列位置信息、需要根据全局信息进行综合分析等特点。在数据特点方面,医学影像数据与NLP数据存在一定的相似性,这也正是transformer及其变型模型[17, 21-22]能够在医学影像分析领域取得成功的原因。近年来各项研究也证明了这一点。

在医学影像分割领域,Chen等[24]首次提出了将transformer与U-Net结合的模型TransUnet。该模型将图像特征视为序列来编码进行全局上下文特征的学习。在Synapse Multi-Organ[25]数据集上,作者使用了30次腹部CT扫描结果中3 779张轴向对比临床CT图像,最终Dice相似系数(dice similarity coefficient,DSC)[26]和豪斯多夫距离(hausdorff distance,HD)[27]分别达到0.774 8和31.69 mm。Cao等[22, 28]首次将Swin-Transformer与U-Net结合提出Swin-Unet[28]模型,在Synapse Multi-Organ数据集上,达到0.7913的DSC和21.55的HD;并且在Automated Cardiac Diagnosis Challenge[29]数据集上,作者将数据集分为70个训练样本、10个验证样本和20个测试样本,DSC达到 0.90。Jiang等[30]提出了自监督模型SMIT,使用包含3 643次患者CT扫描结果中602 708张图像进行预训练,并将预训练的网络微调后应用于BTCV数据集[25],DSC达到0.848。现今,医学影像分割模型训练仍依赖于大型标记数据,尽管已在自监督方向进行探索,但医疗数据增强方法也很重要,未来需研究者努力探索。

在医学影像配准方向,Korkmaz等[31]提出了一种基于零样本对抗学习和交叉注意transformer的方 法——SLATER,在来自从图像中抽取信息(information extraction from images,IXI)的Single-Coil Brain MRI(http://brain-development.org/ixi-dataset/)数据集中划分25名受试者进行训练,5名用于验证,10名用于测试;在fastMRI[32]数据集上使用100名受试者用于训练,10名用于验证,40名用于测试。最终在IXI数据集上T1配准至T2的峰值信噪比(peak-signal-to-noise ratio,PSNR)[33]达到39.9,结构相似性指数(structural similarity index measure,SSIM)[33]达到97.7%,T2配准至T1的PSNR达到38.7,SSIM达到97.9%;在fastMRI数据集上,T1配准至T2的PSNR达到36.2,SSIM达到94.6%,T2配准至T1的PSNR达到38.0,SSIM达到95.3%。Liu等[34]使用新的补丁对比策略,结合Swin-Transformer提出了一种新的模型PC-SwinMorph,并在CANDI[35]数据集和LONI Probabilistic Brain Atlas (LPBA40)[36]数据集上进行训练,平均Dice系数分别达到0.812和0.791的效果;Chen等[37]结合卷积和Vision-Transformer的优点,提出了一个新的无监督配准架构,作者声称在内部数据集上,新的架构达到了性能最佳的效果,dice得分达0.726。现今,研究者通过联合不同视觉模型缓解图像定位信息不足的问题,但仍需要针对医学影像特点的视觉模型以提供详细的定位信息。

在医学影像分类方向,Wang等[38]通过结合卷积神经网络和transformer设计了一个新的混合模型TransPath,此模型以自监督方式在TCGA[39]和PAIP[40]数据集上进行预训练,并在MHIST[41],NCT-CRC-HE[42],PatchCamelyon[43]3个数据集上进行下游微调,准确度指标分别达到89.68%,95.85%和89.91%。Dai等[44]结合CNN和transformer提取了图像的低级特征并且建立模态的远距离依赖关系,提出了TransMed模型,作者称这是第一个将transformer应用于多模态医学影像分类上的工作。他们将TransMed应用于PGT[44]数据集和MRNet[45]数据集,在PGT数据集中按照7꞉1꞉2的比例划分训练集、验证集和测试集;在MRNet数据集上按照1 130꞉120꞉120划分训练集、验证集和测试集。最终在PGT数据集上达到88.9%的准确度,在MRNet数据集上达到85.%的准确度。Jang等[46]使用多平面和多切片transformer结合3D卷积神经网络和2D卷积神经网络,提出了一种三维医学影像分类器M3T。在ADNI[47]、AIBL[48]和OASIS数据集[49]上,准确度达到93.21%,93.27%和85.26%的结果。现今,医学影像分类适用的病症仍然有限,需拓展到更多的病症上,以辅助医疗诊断。

在医学影像重建方向,Feng等[50]提出了一种用于联合MRI重建和超分辨率的端到端模型T2Net,作者在公共IXI数据集和临床数据集上评估当前模型,SSIM分别为0.872和0.841。Guo等[51]提出了一种循环变压器模型ReconFormer用于MRI重建,并在HPKS[52]和fastMRI数据集上达到了优异的效果,SSIM分别为0.9788和0.7383。现今,为了保证重建的清晰度,医疗重建方法依赖于数据增强方法,以获得高分辨率图像,这也导致学习参数很多,如何对模型减重和让模型调参是改进方向。

在医学影像去噪方向,Wang等[53]提出一个用于低剂量CT去噪的模型CTformer,并且在Mayo LDCT数据集[54]上进行实验,SSIM达到0.9121的优秀效果。据作者称CTformer是第一个用于低剂量CT去噪的纯transformer模型。Luthra等[56]结合可学习的Sobel-Feldman算子和transformer提出了一种新的架构Eformer[56],并且在AAPM数据集[54]上实验,得到SSIM为0.9861这一具有竞争力的结果。

Transformer及其变型以及NLP领域中的多种训练范式(例如MASK训练、预训练结合下游微调、迁移学习等)在医学影像分析的各个方向都取得了具有竞争力的结果,并且在医学影像的高分辨率分析、序列上下文理解等方向,更是显现出巨大的优势,充分证明了NLP数据和医学影像数据具有相似的数据特点。NLP领域技术应用于医学影像处理是有意义的,由以上结果得到启发,未来我们可以根据NLP的数据特征和方法分析医学影像数据的特征,深入理解人体数据的内部特征,例如利用NLP中多语义学习方法来分析人体中存在的多功能脑区;结合NLP中的语义情感分析来辅助诊断医学影像中疾病的病变程度。笔者认为,当前NLP方法与医学影像分析的方式将会给医疗诊断、大脑认知研究等提供巨大的帮助。

3.2. 多模态(NLP 数据和成像数据)的深度学习或表征学习模型

除了直接将transformer及其衍生型这类源自NLP的理论模型应用到医学影像上,另一种有意义的工作是借鉴transformer开发出方法来处理多模态数据,特别是以“图像+N”(此处的“N”可以是医疗记录之类的文本数据,也可以是音频,血液和尿液检查等实验室结果,还可以是基因数据,等等)为形式出现的数据组合。迄今,多模态的深度学习主要集中在多模态融合,而笔者特别关注图像和文本的融合。此外,也关注一些表征学习。

在多模态融合方向,Li等[57]提出一个可用于广泛的视觉和语言建模的框架,旨在捕捉图像和相关文本中的丰富语义,在视觉问答、视觉推理等任务上取得了很好的效果,属于世界先进水平。Khare等[58]提出一个针对医学问答任务的多模态预训练模型,该模型以自监督的方式减少医学问答任务中对图片注释的依赖,该模型在医学问答任务上达到最先进的水平。Kim等[59]提出一个无卷积处理视觉输入的视觉-语言transformer模型,该模型极大降低了视觉特征提取的复杂度,大大提高了模型速度。现今的研究缺乏医疗多模态预训练模型的内容,医疗多模态预训练模型可以帮助更好地编码图像或文本。

在表征学习方向,Zhou等[60]提出一个无需医学标注的放射影像预训练方法——REFERS,该方法使用放射影像自带的影像报告来作为监督信息进行预训练,实验结果表明:REFERS的性能不但优于其他迁移学习和自监督学习的方法,甚至超过了完全使用人工标签进行监督训练得到的预训练模型。Yuan等[61]开发了一种学习视觉表征的方法,该方法以模态内和模态间的对比相似度为训练目标,增强获得的视觉表征。实验结果表明该方法在多标签图像分类和跨模态检索任务中有效。

多模态融合已能够有机地结合多模态,特别是文本和图像数据。这些工作或用于增强某一个模态相关的任务,或用于完成多模态的任务(如VQA)。在表征学习方面,多模态融合也促进了这个领域的发展,突破了之前的一些极限。多模态之间的对比学习也为未来此细分领域的发展提供了新思路。

3.3. 生成模型在医学影像中的应用

文本生成的目的是希望生成可读的自然语言文本,把文本生成技术应用在医学影像中,实现自动生成报告及其摘要,有助于减轻放射科医师的负担,并显著促进临床自动化。与通用领域数据不同,同体态下的医学影像相似度非常高,并且医学影像中的细微结构并不像自然图像中那样无关紧要,在相似度很高的背景中的细微变化可能代表着某种病变;不仅医学影像如此,医学影像报告中个别词语的变化也可能意味着疾病的发展。这都表明需要把通用领域的模型根据医学影像数据的特点进行适应性调整,近年来一些研究也证明了这一点。

在医学影像生成报告方面,Chen等[62]首次提出用一个记忆矩阵来记录图像与文本之间的对齐和交互关系,将增强跨模态的映射视为促进医学影像生成报告的关键,作者将IU X-RAY[63]数据集按照7꞉1꞉2的比例划分训练集、验证集和测试集,BLEU 4个样本的评分分别为0.470、0.304、0.219和0.165,评价指标METEOR[64]和ROUGE-L[65]分别为0.187和0.371;将MIMIC-CXR[66]按其通用方法划分训练集、验证集和测试集,BLEU 4个样本的评分为0.353、0.218、0.145和0.103,METEOR和ROUGE-L为0.142和0.277,在这两个数据集上作者都得到了最优结果。Wang等[67]开发了一种新方法来显示量化视觉和文本域中的模型不确定性,以辅助完成放射学报告生成任务,作者把IU X-Ray和COV-CTR[68]两个公共数据集都按照7꞉1꞉2的比例划分训练集、验证集和测试集,用BLEU(n=4)评分在IU X-Ray上进行测试,4个样本的评分为0.497、0.357、0.279和0.225,METEOR和ROUGE-L指标为0.217和0.408;用同样的评价指标在COV-CTR上测试,BLEU 4个样本的评分为0.753、0.680、0.620和0.569,METEOR和ROUGE-L评价指标为0.437和0.730。Nooralahzadeh等[69]开发了一个简单但有效的渐进式文本生成模型,即模型并不一次性生成完整报告,而是先从图像生成相应的概念词,然后再生成连贯的文本。作者采用Chen等[62]的划分方法,在IU X-Ray数据集上BLEU 4个样本的评分为0.486、0.317、0.232和0.173,METEOR和ROUGE-L评价指标为0.192和0.390;在MIMIC-CXR数据集上述6个评价指标得到了0.378、0.232、0.154、0.107、0.145和0.272的结果。Yan等[70]提出了一种针对生成胸部X线片报告的弱监督对比学习的框架。作者把MIMIC-ABN划分为26 946个训练样本,3 801个验证样本和3 269个测试样本,模型在BLEU-1、BLEU-4、METEOR及ROUGE-L 4个指标上分别得到0.256、0.067、0.100及0.241的结果,在Precision、Recall和F-1上达到0.332、0.309和0.300;作者把MIMIC-CXR划分为222 758个训练样本、18 08个验证样本和3 269个测试样本,模型在同样的评价指标上得到0.373、0.107、0.144、0.274和0.385、0.274和0.294的结果。Yan等[71]提出利用记忆对齐的知识图来增强临床报告生成的准确度,在IU X-Ray数据集测试了模型性能,在BLEU、METEOR、ROUGE及CIDEr评价指标上分别得到0.265、0.378、0.353及0.523的结果;他们在MIMIC-CXR数据集上测试了模型性能,在BLEU、METEOR、ROUGE及CIDEr评价指标上分别得到0.137、0.284、0.228及0.120的结果。现今,在这些视觉-语言模型中,视觉模型很难提取到适合医学影像的细粒度或者多粒度的特征,这需要研究者们开发出适合医学影像的视觉特征提取器。

在影像报告生成摘要方面,Cai等[72]在胸部X线片放射学领域开发了一个预训练语言模型ChestXRayBERT。具体来说,作者首先收集了放射学相关的科学论文作为预训练语料库,并在其上预训练,然后将OPENI和MIMIC-CXR两个数据集合并在一起,再将其分为179 328个训练样本,1 813个验证样本和1 829个测试样本,BLEU 3个样本的评分为0.285、0.144和0.061,得到0.413、0.286和0.415的ROUGE-1、R-2和R-L。Hu等[73]设计了一个词图引导的放射学报告摘要模型WGSUM,在OPENI[74]数据集上按照2 400꞉292꞉576划分训练集、验证集和测试集,最终在OPENI数据集上达到0.643 2、0.554 8和0.639 7的ROUGE-1、R-2和R-L;在MIMIC-CXR上采用通用的划分和按8꞉1꞉1的比例随机划分两种策略,模型分别得到0.483 7、0.333 4和0.466 8的R-1、R-2和R-L以及0.563 8、0.447 5和0.553 2的R-1、R-2和R-L。近期,Cai等[75]提出一个基于SciBERT[76](一种基于BERT[14]的使用自然科学和工科类文献训练的语言模型)的语义增强的摘要模型,应用在2019冠状病毒病(corona virus 2019,COVID-19)论文数据集(主要为医学影像类文章)上,在COVID-19摘要数据集上得到0.4456、0.1889和0.3653的ROUGE-1、ROUGE-2和ROUGE-L,达到了世界先进水平。现今,医疗文本摘要模型难以提取适合医疗文本的细粒度特征,这难以适应医疗文本信息量大、准确度要求高的特点。由此,也可看出,医疗文本摘要模型有极大的研究价值,一旦解决了这个问题,其他领域的摘要问题也能通过迁移学习解决。

受益于生成对抗网络(generative adversarial network,GAN)[77]的发展,图像生成发展成了一个较为成熟的领域[78]。基于此,以文本为输入的图像生成技术也有一定的发展,例如近期较为流行的由OpenAI推出的DALL·E模型[79],可以实现以自由形式自然语言作为输入的描述来生成对应图片的功能。但是,当前在医学影像中非常缺乏能用NLP生成医疗图像的工作。目前,只有两篇论文涉及到了这一点。Spinks和Moens[80]提出通过检验图像生成的好坏来评估不同方法的文本嵌入的效果。这是一个非常有趣的思路,尽管他们的工作重点不是图像生成,但此文已在NLP相关会议上公开。他们基于Chest X-Ray数据集[53]使用StackGan[81](任何GAN模型均可)生成X线图片,并使用GAN领域常见的Wasserstein Metric[82-83]来评估生成图像的质量。Yang等[84]提出的XRayGan模型更贴合医学影像界的需求。他们也自称是史上第一个从文本(放射科诊断报告)生成X线图像的工作。这是当前这个细分领域唯一也是最先进的模型,解决了从文本信息空间获取信息构建多角度放射影像的问题。可以看出,从文本生成可靠且可用的医学影像是一个困难的工作,但是同时也有很大的研究价值。

无论是从文本生成图片,还是从图像生成对应的文本,在医学影像领域都有很重要的应用价值。从图像生成文本已经较为成熟,但是从文本生成医学图像还有待提高。双向生成将大大提高多模态数据的相通相连,因此它是未来重要的发展方向。

3.4. 为医学影像开发的NLP任务

NLP的广泛应用促使传统上与语言信息处理无关的领域(例如医学影像)认识到NLP技术的价值。反过来说,受到transformer及其衍生模型等跨模态模型成功的启发,NLP研究人员也对医学影像领域产生了兴趣。近年来,NLP专家设计了针对医学影像研究需求的NLP任务和解决方案,解决了许多单靠图像无法解决,或者无法与图像处理建立直接联系的实际问题,与医学影像技术相辅相成。

Heilbrun等[85]使用了ConTextNLP[86](一种基于语言规则的NLP算法)来找出放射科报告中的重要信息。Steinkamp等[87]则发现基于语义规则的NLP算法和基于深度学习的模型(例如transformer)均可帮助医师作出包括额外增加影像检查等在内的诊疗决策。Rezayi等[88]开发了一个基于临床记录和放射科及肿瘤科期刊论文的语言模型(ClinicalRadioBERT),在他们和合作医院采集的癌症治疗命名实体识别(Cancer NER)数据集上取得了比缺乏领域适应性的传统BERT模型更优异的效果。另外,这个具有领域适应性的语言模型在非癌症数据的基准(如NCBI-disease[89]和BC2GM[90])上与BioBERT[91],这个细分方向领先的模型持平,证明该模型对领域外数据的适应性。

除了肿瘤科,一些其他医学分支也对将NLP技术应用于医学影像有所研究。在心血管病领域,Berman等[92]使用较传统的NLP手段从心血管科医疗记录中预测包括高血压、血脂异常、冠状动脉疾病等在内的心血管共病来辅助影像或者实验室诊断。Reading Turchioe等[93]发表了一篇心血管科应用NLP的综述,并指出现有的与医学影像相关的文献基本是针对超声心动图报告中重要信息的挖掘,并且通过NLP能够找出与多种感兴趣区域相关的信息。

有一些NLP任务则是有趣且具有创新性的。Donnelly等[94]利用LSTM[5]对不同医师医疗记录的风格差异进行判断并分类,并对此类写作风格差异的正负面影响作出评价(其主要观点是差异较大的记录风格可能会影响医护和医患之间的沟通,并影响包括影像诊断和分析在内的流程的可靠性)。他们[95]还进一步提出,NLP不但有助于放射科导诊、放射结果分析,放射影像的辅助诊疗等相对传统的流程,还可以激发放射科医师教育、根据患者文化背景定制放射科报告等新型应用。多模态理论模型的发展为设计适用于放射科的NLP任务和创新性应用提供了坚实的基础。

3.5. 与医学影像相关的知识图谱——NLP 集成

知识图谱是描述实体以及实体之间关系的图谱。实体通常是图谱中的节点,而它们之间的关系通常是图谱中的连接。一些比较著名的(广义上的)知识图谱包括Google knowledge graph[96],Amazon product graph[97],DBpedia[98],Wikidata[99],WordNet[100]等。

由于知识图谱将实体与实体之间关系以图的形式表示,其天然地包含了结构化的语义信息。因此,知识图谱能够更好地整合相关领域的知识。在医学影像报告生成方面,通过嵌入先验医学领域的知识图谱,可以显著改善生成模型在下游任务中的表现[101]

与自然图像文本生成相比,医学影像报告生成不仅需要更准确的专业术语和更高的细粒度,而且要具备准确识别和描述异常区域的病理特征和异常情况的能力。Yan等[71]提出了记忆对齐知识图谱(memory-aligned knowledge graph),将来自异常区域的记忆特征根据视觉特征对齐后,与全局记忆嵌入整合来学习异常区域图嵌入以生成报告。作者在IU X-ray[63]和MIMIC CXR数据集上进行了报告质量和临床准确性测试,将IU X-RAY数据集按照7꞉1꞉2的比例划分训练集、验证集和测试集,模型在BLEU、METEOR、ROUGE和CIDEr4个指标上分别得到了0.265、0.378、0.353和0.523的结果;将MIMIC-CXR按其通用划分方法划分训练集、验证集和测试集,在上述4个指标上分别得到了0.137、0.284、0.228和0.120的结果。Li等[102]提出了知识驱动的编码、检索、转述(knowledge-driven encode, retrieve, paraphrase)方法,先根据先验医学领域知识图谱将视觉特征编码为异常知识图谱,再根据检测到的异常检索文本模板,最后根据具体病例改写模板。作者在IU X-ray[63]和CX-CHR[103]数据集上进行测试,在IU X-Ray数据集上,模型在CIDEr,ROUGE-L和BLEU-1这3个指标上分别得到0.280、0.339和0.482的结果;在CX-CHR数据集上,模型在上述3个指标上分别得到2.850、0.618和0.673的结果。为了减少对图像-报告匹配数据的依赖,Liu等[104]提出了无监督知识图谱自动编码器(knowledge graph auto-encoder),将知识图谱作为共享的隐空间来连接视觉与文本空间,知识驱动的编码器将医学影像与报告投射到这个隐空间,知识驱动的解码器再根据隐空间中的坐标生成医学报告。作者在IU X-ray[63]和MIMIC -CXR数据集上进行测试,在IU X-Ray数据集上,模型在BLEU-1,METEOR和ROUGE-L 3个指标上分别得到0.512、0.195和0.383的结果;在MIMIC-CXR数据集上,模型在上述3个指标上分别得到0.369、0.153和0.295的结果。知识图谱作为先验知识刻画了数据的内在特性,用其对模型加以引导、补充,能使模型更快获取数据中的关键信息,根据医疗数据的特点构建合适的图,应该是一个改进方向。

知识图谱的常用方式是作为外部专家知识注入模型学习过程,帮助机器学习模型更好、更精准地理解数据并得出有效结论。医学影像研究需要很强的专业知识和经验,因此将专家的知识(特别是以知识图谱的形式)融合进模型是很有实践价值的研究方向。

4. 结 语

综合最新的研究成果来看,NLP和医学影像结合是一个方兴未艾的新领域,有很大的科研潜力和临床价值,也有很多的研究机会。NLP领域的最新理论成果,特别是transformer架构和其衍生模型,正在逐渐成为医学影像分析的主力,这些模型在医学影像领域正在逐渐替代或者深度整合/融合基于U-Net的诸多CNN模型。多模态融合的应用前景广阔,现有的多模态融合成果相较于依赖单一模态数据更具性能的优越性和应用的广泛性。值得指出的是,transformer模型也简化了多模态融合的实施过程。NLP不仅为医学影像研究提供了模型和理论,更提供了契合实际的新型NLP任务和应用,促进了放射科学和影像处理的创新研究,也全面方便了医护人员和患者(比如通过眼动跟踪数据来融合医师对图像数据的诊断和诊断报告的生成[105])。医学影像研究与主要基于语义的知识图谱的融合是一个非常新的子领域,在利用先验知识领域强化已有的模型方面潜力很大。

总之,NLP与医学影像结合是一个建立在近几年机器学习领域理论进步的一个创新发展方向。我们相信这是一个朝阳领域,会伴随着通用机器学习的发展而更加完善、全面和成熟,并最终推动造福于医患的临床应用。最后,我们也期待NLP 与医学影像融合方法的发展会促进NLP本身和相关人工智能方法的进步。

基金资助

湖南省医学影像临床医学研究中心(2020SK4001);湖南省科技领军人才项目(2021RC4016);中南大学国防科技协同创新重大项目培育专项(2021gfcx05)。

This work was supported by the Clinical Research Center For Medical Imaging in Hunan Province (2020SK4001), the Science and Technology Innovation Program of Hunan Province (2021RC4016), and the National Defense Science and Technology Collaborative Innovation Major Project of Central South University (2021gfcx05), China.

利益冲突声明

作者声称无任何利益冲突。

作者贡献

刘正梁 数据采集,写作,协调;贺孟申、姜作伟、张练、罗思一 数据采集,写作;吴子豪、戴海星 写作;韩甜乐 数据采集;李响、蒋希、朱大江、蔡晓妍、葛宝、沈定刚 指导;刘伟、刘军 医学指导;刘天明 总指导和监督。所有作者阅读并同意最终的文本。

原文网址

http://xbyxb.csu.edu.cn/xbwk/fileup/PDF/202208981.pdf

参考文献

  • 1. Yuhas BP, Goldstein MH, Sejnowski TJ. Integration of acoustic and visual speech signals using neural networks[J]. IEEE Commun Mag, 1989, 27(11): 65-71. 10.1109/35.41402. [DOI] [Google Scholar]
  • 2. Antol S, Agrawal A, Lu JS, et al. VQA: visual question answering[C]//2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 2425-2433. 10.1109/ICCV.2015.279. [DOI] [Google Scholar]
  • 3. Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[EB/OL]. arXiv: 1409. 1556[cs.CV] (2015-04-10)[2022-07-08]. 10.48550/arXiv.1409.1556. [DOI]
  • 4. Qader WA, Ameen MM, Ahmed BI . An overview of bag of Words;Importance, implementation, applications , and challenges[C]//2019 International Engineering Conference (IEC). Erbil, Iraq: IEEE, 2019: 200-204. 10.1109/IEC47844.2019.8950616. [DOI] [Google Scholar]
  • 5. Hochreiter S, Schmidhuber J. Long short-term memory[J]. Neural Comput, 1997, 9(8): 1735-1780. 10.1162/neco.1997.9.8.1735. [DOI] [PubMed] [Google Scholar]
  • 6. Kiela D, Bottou L. Learning image embeddings using convolutional neural networks for improved multi-modal semantics[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Doha, Qatar. Stroudsburg, PA, USA: Association for Computational Linguistics, 2014: 36-45. [Google Scholar]
  • 7. Arevalo J, Solorio T, Montes-y-Gómez M, et al. Gated multimodal units for information fusion[EB/OL]. arXiv: 1702. 01992[stat.ML] (2017-02-07)[2022-07-08]. https://arxiv.org/abs/1702.01992.
  • 8. Cho K, van Merrienboer B, Gulcehre C, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Doha, Qatar. Stroudsburg, PA, USA: Association for Computational Linguistics, 2014: 1724-1734. [Google Scholar]
  • 9. Zaremba W, Sutskever I, Vinyals O. Recurrent neural network regularization[EB/OL]. arXiv preprint arXiv: 1409. 2329(2015-02-19)[2022-07-08]. 10.48550/arXiv.1409.2329 [DOI] [Google Scholar]
  • 10. Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate[EB/OL]. arXiv preprint arXiv: 1409. 0473(2016-05-19)[2022-07-08]. 10.48550/arXiv.1409.0473. [DOI] [Google Scholar]
  • 11. Du Y, Liu Z, Li J, et al. A survey of vision-language pre-trained models[EB/OL]. arXiv preprint arXiv: 2202. 10936. (2022-07-16)[2022-07-28]. 10.48550/arXiv.2202.10936 [DOI] [Google Scholar]
  • 12. Xu P, Zhu X, Clifton D A. Multimodal learning with transformers: A Survey[EB/OL]. arXiv preprint arXiv: 2206. 06488 (2022-06-13)[2022-07-08]. 10.48550/arXiv.2206.06488. [DOI] [Google Scholar]
  • 13. Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[EB/OL]. arXiv: 1706. 03762v5 [cs.CL](2017-12-16)[2022-07-08]. 10.48550/arXiv.1706.03762. [DOI] [Google Scholar]
  • 14. Devlin J, Chang MW, Lee K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[EB/OL]. arXiv: 1810. 04805 [cs](2019-05-14)[2021-10-13]. 10.48550/arXiv.1810.04805. [DOI] [Google Scholar]
  • 15. Rumelhart DE, Hinton GE, Williams RJ. Learning internal representations by error propagation[M]. Readings in Cognitive Science, 1988: 399-421. 10.1016/B978-1-4832-1446-7.50035-2. [DOI] [Google Scholar]
  • 16. Bugliarello E, Cotterell R, Okazaki N, et al. Multimodal pretraining unmasked: a meta-analysis and a unified framework of vision-and-language BERTs[J]. Trans Assoc Comput Linguist, 2021, 9: 978-994. 10.1162/tacl_a_00408. [DOI] [Google Scholar]
  • 17. Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 Words: Transformers for image recognition at scale[EB/OL]. arXiv: 2010. 11929 [cs](2021-06-03)[2022-07-08]. 10.48550/arXiv.2010.11929. [DOI] [Google Scholar]
  • 18. Deng J, Dong W, Socher R, et al. ImageNet: a large-scale hierarchical image database[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, FL, USA: IEEE, 2009: 248-255. 10.1109/CVPR.2009.5206848. [DOI] [Google Scholar]
  • 19. Lin TY, Maire M, Belongie S, et al. Microsoft COCO: common objects in context[C]//Fleet D, Pajdla T, Schiele B, et al. eds. Computer Vision—ECCV 2014. Lecture Notes in Computer Science, vol 8693. Cham: Springer, 2014. 10.1007/978-3-319-10602-1_48. [DOI] [Google Scholar]
  • 20. Chen Z, Shen Y, Song Y, et al. Cross-modal memory networks for radiology report generation[EB/OL]. arXiv preprint arXiv: 2204. 13258(2022-04-28)[2022-07-08]. 10.48550/arXiv.2204.13258 [DOI] [Google Scholar]
  • 21. He KM, Chen XL, Xie SN, et al. Masked autoencoders are scalable vision learners[EB/OL]. 2021: arXiv: 2111. 06377[cs.CV](2021-12-19)[2022-07-08]. 10.48550/arXiv.2111.06377. [DOI]
  • 22. Liu Z, Lin YT, Cao Y, et al. Swin transformer: hierarchical vision transformer using shifted windows[C]//IEEE/CVF International Conference on Computer Vision (ICCV). Montreal, Canada: IEEE, 2021: 9992-10002. 10.1109/ICCV48922.2021.00986. [DOI] [Google Scholar]
  • 23. Ronneberger O, Fischer P, Brox T. U-net: convolutional networks for biomedical image segmentation[C]//Navab N, Hornegger J, Wells W, et al. eds. Medical Image Computing and Computer-Assisted Intervention—MICCAI 2015. Lecture Notes in Computer Science, vol 9351. Cham: Springer, 2015: 234-241. 10.1007/978-3-319-24574-4_28. [DOI] [Google Scholar]
  • 24. Chen JN, Lu YY, Yu QH, et al. TransUNet: transformers make strong encoders for medical image segmentation[EB/OL]. arXiv: 2102. 04306[cs.CV](2022-02-08)[2022-07-08]. 10.48550/arXiv.2102.04306. [DOI]
  • 25. Landman B, Xu Z, Igelsias J, et al. Miccai multi-atlas labeling beyond the cranial vault-workshop and challenge[C]. MICCAI 2015. Munich, Germany: 2015. 10.7303/syn3193805. [DOI] [Google Scholar]
  • 26. Cao H, Wang YY, Chen J, et al. Swin-unet: unet-like pure transformer for medical image segmentation[EB/OL]. arXiv: 2105. 05537[eess.IV] (2021-05-12)[2022-07-08]. 10.48550/arXiv.2105.05537. [DOI]
  • 27. Zou KH, Warfield SK, Bharatha A, et al. Statistical validation of image segmentation quality based on a spatial overlap index[J]. Acad Radiol, 2004, 11(2): 178-189. 10.1016/s1076-6332(03)00671-8. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 28. Huttenlocher DP, Klanderman GA, Rucklidge WJ. Comparing images using the Hausdorff distance[J]. IEEE Trans Pattern Anal Mach Intell, 1993, 15(9): 850-863. 10.1109/34.232073. [DOI] [Google Scholar]
  • 29. Bernard O, Lalande A, Zotti C, et al. Deep learning techniques for automatic MRI cardiac multi-structures segmentation and diagnosis: is the problem solved? [J]. IEEE Trans Med Imaging, 2018, 37(11): 2514-2525. 10.1109/TMI.2018.2837502. [DOI] [PubMed] [Google Scholar]
  • 30. Jiang J, Tyagi N, Tringale K, et al. Self-supervised 3D anatomy segmentation using self-distilled masked image transformer (SMIT)[EB/OL]. arXiv: 2205. 10342v1 [eess.IV](2022-05-20). [2022-07-08]. 10.48550/arXiv.2205.10342. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 31. Korkmaz Y, Dar SUH, Yurt M, et al. Unsupervised MRI reconstruction via zero-shot learned adversarial transformers[J]. IEEE Trans Med Imaging, 2022, 41(7): 1747-1763. 10.1109/TMI.2022.3147426. [DOI] [PubMed] [Google Scholar]
  • 32. Zbontar J, Knoll F, Sriram A, et al. fastMRI: an open dataset and benchmarks for accelerated MRI[EB/OL]. arXiv: 1811. 08839[cs.CV] (2019-12-11)[2022-07-08]. 10.48550/arXiv.1811.08839. [DOI]
  • 33. Horé A, Ziou D. Image quality metrics: PSNR vs. SSIM[C]//2010 20th International Conference on Pattern Recognition. Istanbul, Turkey: IEEE, 2010: 2366-2369. 10.1109/ICPR.2010.579. [DOI] [Google Scholar]
  • 34. Liu LH, Huang ZN, Liò P, et al. PC-SwinMorph: patch representation for unsupervised medical image registration and segmentation[EB/OL]. arXiv: 2203. 05684[cs.CV](2022-07-20)[2022-07-28]. 10.48550/arXiv.2203.05684 [DOI]
  • 35. Kennedy DN, Haselgrove C, Hodge SM, et al. CANDIShare: a resource for pediatric neuroimaging data[J]. Neuroinformatics, 2012, 10(3): 319-322. 10.1007/s12021-011-9133-y. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 36. Shattuck DW, Mirza M, Adisetiyo V, et al. Construction of a 3D probabilistic atlas of human cortical structures[J]. NeuroImage, 2008, 39(3): 1064-1080. 10.1016/j.neuroimage.2007.09.031. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 37. Chen JY, He YF, Frey E, et al. ViT-V-net: vision transformer for unsupervised volumetric medical image registration[EB/OL]. arXiv: 2104. 06468v1 [eess.IV](2021-04-13)[2022-06-21]. 10.48550/arXiv.2104.06468. [DOI] [Google Scholar]
  • 38. Wang X, Yang S, Zhang J, et al. TransPath: Transformer-based self-supervised learning for histopathological image classification[M/OL]//De Bruijne M, Cattin P C, Cotin S, et al. Medical Image Computing and Computer Assisted Intervention—MICCAI 2021: vol. 12908. Cham: Springer, 2021: 186-195 [2022-06-21]. https://link.springer.com/10.1007/978-3-030-87237-3_18. [Google Scholar]
  • 39. Tomczak K, Czerwińska P, Wiznerowicz M. The Cancer Genome Atlas (TCGA): an immeasurable source of knowledge[J]. Contemp Oncol (Pozn), 2015, 19(1A): A68-A77. 10.5114/wo.2014.47136. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 40. Kim YJ, Jang H, Lee K, et al. PAIP 2019: liver cancer segmentation challenge[J]. Med Image Anal, 2021, 67: 101854. 10.1016/j.media.2020.101854. [DOI] [PubMed] [Google Scholar]
  • 41. Wei J, Suriawinata A, Ren B, et al. A petri dish for histopathology image analysis[C]//International Conference on Artificial Intelligence in Medicine. Cham: Springer, 2021: 11-24. [Google Scholar]
  • 42. Nikolas KJ, Niels H, Alexander M. 100, 000 Histological images of human colorectal cancer and healthy tissue (v0.1) [Data set][EB/OL]. (2018-04-07)[2022-06-13]. 10.5281/zenodo.1214456. [DOI] [Google Scholar]
  • 43. Veeling BS, Linmans J, Winkens J, et al. Rotation equivariant CNNs for digital pathology[M]//Medical Image Computing Computer Assisted Intervention—MICCAI 2018. Cham: Springer, 2018: 210-218. 10.1007/978-3-030-00934-2_24. [DOI] [Google Scholar]
  • 44. Dai Y, Gao YF, Liu FY. TransMed: transformers advance multi-modal medical image classification[J]. Diagnostics (Basel), 2021, 11(8): 1384. 10.3390/diagnostics11081384. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 45. Bien N, Rajpurkar P, Ball RL, et al. Deep-learning-assisted diagnosis for knee magnetic resonance imaging: development and retrospective validation of MRNet[J/OL]. PLoS Med, 2018, 15(11): e1002699 [2022-06-13]. 10.1371/journal.pmed.1002699. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 46. Jang J, Hwang D. M3T: Three-dimensional medical image classifier using multi-plane and multi-slice transformer[C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2022: 20718-20729. https://openaccess.thecvf.com/content/CVPR2022/html/Jang_M3T_Three-Dimensional_Medical_Image_Classifier_Using_Multi-Plane_and_Multi-Slice_Transformer_CVPR_2022_paper.html. [Google Scholar]
  • 47. Petersen RC, Aisen PS, Beckett LA, et al. Alzheimer’s disease neuroimaging initiative (ADNI): clinical characterization[J]. Neurology, 2010, 74(3): 201-209. 10.1212/WNL.0b013e3181cb3e25. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 48. Ellis KA, Bush AI, Darby D, et al. The Australian Imaging, Biomarkers and Lifestyle (AIBL) study of aging: methodology and baseline characteristics of 1112 individuals recruited for a longitudinal study of Alzheimer’s disease[J]. Int Psychogeriatr, 2009, 21(4): 672-687. 10.1017/S1041610209009405. [DOI] [PubMed] [Google Scholar]
  • 49. Marcus DS, Wang TH, Parker J, et al. Open Access Series of Imaging Studies (OASIS): cross-sectional MRI data in young, middle aged, nondemented, and demented older adults[J]. J Cogn Neurosci, 2007, 19(9): 1498-1507. 10.1162/jocn.2007.19.9.1498. [DOI] [PubMed] [Google Scholar]
  • 50. Feng C M, Yan Y, Fu H, et al. Task transformer network for joint MRI Reconstruction and super-resolution[M/OL]//De Bruijne M, Cattin PC, Cotin S, et al. Medical Image Computing and Computer Assisted Intervention—MICCAI 2021: vol. 12906. Cham: Springer, 2021: 307-317 [2022-06-21]. https://link.springer.com/10.1007/978-3-030-87231-1_30. [Google Scholar]
  • 51. Guo PF, Mei YQ, Zhou JY, et al. ReconFormer: accelerated MRI reconstruction using recurrent transformer[EB/OL]. arXiv: 2201. 09376v2 [eess.IV](2022-01-28)[2022-06-21]. 10.48550/arXiv.2201.09376. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 52. Jiang S, Eberhart CG, Lim M, et al. Identifying recurrent malignant glioma after treatment using amide proton transfer-weighted MR imaging: a validation study with image-guided stereotactic biopsy[J]. Clin Cancer Res, 2019, 25(2): 552-561. 10.1158/1078-0432.ccr-18-1233. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 53. Wang D, Fan F, Wu Z, et al. CTformer: Convolution-free token2token dilated vision transformer for low-dose CT denoising[EB/OL]. arXiv: 2202. 13517v1 [eess.IV](2022-02-28)[2022-06-22]. 10.48550/arXiv.2202.13517. [DOI] [PubMed] [Google Scholar]
  • 54. McCollough CH, Bartley AC, Carter RE, et al. Low-dose CT for the detection and classification of metastatic liver lesions: results of the 2016 Low Dose CT Grand Challenge[J/OL]. Med Phys, 2017, 44(10): e339-e352[2022-06-22]. 10.1002/mp.12345. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 55. Sobel I, Feldman G. A 3×3. Isotropic Gradient Operator for Image Processing [Z]. A Talk at the Stanford Artificial Project, 1968.
  • 56. Luthra A, Sulakhe H, Mittal T, et al. Eformer: edge enhancement based transformer for medical image denoising[EB/OL]. arXiv: 2109. 08044v2(2021-11-09)[2022-07-09]. 10.48550/arXiv.2109.08044 [DOI] [Google Scholar]
  • 57. Li LH, Yatskar M, Yin D, et al. VisualBERT: a simple and performant baseline for vision and language[EB/OL]. arXiv: 1908. 03557v1 [cs.CV](2019-08-09) [2022-07-09]. 10.48550/arXiv.1908.03557. [DOI] [Google Scholar]
  • 58. Khare Y, Bagal V, Mathew M, et al. MMBERT: multimodal BERT pretraining for improved medical VQA[C]//2021 IEEE 18th International Symposium on Biomedical Imaging. Nice, France: IEEE, 2021: 1033-1036. 10.1109/ISBI48211.2021.9434063. [DOI] [Google Scholar]
  • 59. Kim W, Son B, Kim I. Vilt: Vision-and-language transformer without convolution or region supervision[EB/OL]. arXiv: 2102. 03334v2 [stat.ML](2021-06-10) [2022-07-22]. 10.48550/arXiv.2102.03334. [DOI] [Google Scholar]
  • 60. Zhou HY, Chen XY, Zhang YH, et al. Generalized radiograph representation learning via cross-supervision between images and free-text radiology reports[J]. Nat Mach Intell, 2022, 4(1): 32-40. 10.1038/s42256-021-00425-9. [DOI] [Google Scholar]
  • 61. Yuan X, Lin Z, Kuen J, et al. Multimodal contrastive training for visual representation learning[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, TN, USA: IEEE, 2021: 6991-7000. 10.1109/CVPR46437.2021.00692. [DOI] [Google Scholar]
  • 62. Chen ZH, Song Y, Chang TH, et al. Generating radiology reports via memory-driven transformer[EB/OL]. arXiv, 2010. 16056 (2022-04-28)[2022-06-09]. 10.48550/arXiv.2010.16056 [DOI] [Google Scholar]
  • 63. Demner-Fushman D, Kohli MD, Rosenman MB, et al. Preparing a collection of radiology examinations for distribution and retrieval[J]. J Am Med Inform Assoc, 2016, 23(2): 304-310. 10.1093/jamia/ocv080. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 64. Banerjee S, Lavie A. METEOR: An automatic metric for MT evaluation with improved correlation with human judgments[C]// Proceedings of the acl workshop on intrinsic and extrinsic evaluation measures for machine translation and/or summarization. 2005: 65-72. [Google Scholar]
  • 65. Lin CY. Rouge: A package for automatic evaluation of summaries[C]//Text Summarization Branches Out, Post-Conference Workshop of ACL 2004, Barcelona, Spain: 2004: 74-81. [Google Scholar]
  • 66. Johnson AEW, Pollard TJ, Berkowitz SJ, et al. MIMIC-CXR, a de-identified publicly available database of chest radiographs with free-text reports[J]. Sci Data, 2019, 6(1): 317. 10.1038/s41597-019-0322-0. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 67. Wang YX, Lin ZH, Tian J, et al. Trust it or not: Confidence-guided radiology report generation[EB/OL]. arXiv: 2106. 10887v3[cs.CV] (2022-02-03)[2022-07-08]. 10.48550/arXiv.2106.10887 [DOI] [Google Scholar]
  • 68. Li MJ, Wang FY, Chang XJ, et al. Auxiliary signal-guided knowledge encoder-decoder for medical report generatio[EB/OL]. arXiv: 2006. 03744v1[cs.CV] (2020-06-06)[2022-07-08]. 10.48550/arXiv.2006.03744. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 69. Nooralahzadeh F, Perez Gonzalez N, Frauenfelder T, et al. Progressive transformer-based generation of radiology reports[C]//Findings of the Association for Computational Linguistics: EMNLP 2021. Punta Cana, Dominican Republic. Stroudsburg, PA, USA: Association for Computational Linguistics, 2021. [Google Scholar]
  • 70. Yan A, He ZX, Lu X, et al. Weakly supervised contrastive learning for chest X-ray report generation[EB/OL]. arXiv: 2109. 12242[cs.CL](2021-09-25)[2022-07-08]. https://arxiv.org/abs/2109.12242.
  • 71. Yan SX. Memory-aligned knowledge graph for clinically accurate radiology image report generation[C]//Proceedings of the 21st Workshop on Biomedical Language Processing. Dublin, Ireland. Stroudsburg, PA, USA: Association for Computational Linguistics, 2022: 116-122. [Google Scholar]
  • 72. Cai XY, Liu S, Han JW, et al. ChestXRayBERT: a pretrained language model for chest radiology report summarization[J/OL]. IEEE Trans Multimedia, 2021, 1 [2022-07-18]. 10.1109/tmm.2021.3132724. [DOI] [Google Scholar]
  • 73. Hu J, Li J, Chen Z, et al. Word graph guided summarization for radiology findings[EB/OL]. arXiv: 2112. 09925v1[cs.CL] (2021-12-18)[2022-07-08]. 10.48550/arXiv.2112.09925 [DOI] [Google Scholar]
  • 74. Demner-Fushman D, Antani S, Simpson M, et al. Design and development of a multimodal biomedical information retrieval system[J]. J Comput Sci Eng, 2012, 6(2): 168-177. 10.5626/jcse.2012.6.2.168. [DOI] [Google Scholar]
  • 75. Cai XY, Liu S, Yang LB, et al. COVIDSum: a linguistically enriched SciBERT-based summarization model for COVID-19 scientific papers[J]. J Biomed Inform, 2022, 127: 103999. 10.1016/j.jbi.2022.103999. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 76. Beltagy I, Lo K, Cohan A. SciBERT: a pretrained language model for scientific text[EB/OL]. arXiv: 1903. 10676[cs.CL](2019-09-10)[2022-07-08]. 10.48550/arXiv.1903.10676. [DOI]
  • 77. Goodfellow IJ, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems, Volume 2. New York, USA: ACM, 2014: 2672-2680. https://dl.acm.org/doi/10.5555/2969033.2969125. [Google Scholar]
  • 78. Luo SB. A survey on multimodal deep learning for image synthesis: Applications, methods, datasets, evaluation metrics, and results comparison[C]//2021 the 5th International Conference on Innovation in Artificial Intelligence. Xiamen China. New York, USA: ACM, 2021: 108-120. [Google Scholar]
  • 79. Ramesh A, Pavlov M, Goh G, et al. Zero-shot text-to-image generation[EB/OL]. arXiv: 2102. 12092[cs.CV](2021-02-26)[2022-07-08]. 10.48550/arXiv.2102.12092 [DOI]
  • 80. Spinks G, Moens MF. Evaluating textual representations through image generation[C]//Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP. Brussels, Belgium. Stroudsburg, PA, USA: Association for Computational Linguistics, 2018: 30-39. [Google Scholar]
  • 81. Zhang H, Xu T, Li HS, et al. StackGAN: text to photo-realistic image synthesis with stacked generative adversarial networks[C]//2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017: 5908-5916. 10.1109/ICCV.2017.629. [DOI] [Google Scholar]
  • 82. Rubner Y, Tomasi C, Guibas LJ. The earth mover’s distance as a metric for image retrieval[J]. Int J Comput Vis, 2000, 40(2): 99-121. [Google Scholar]
  • 83. Panaretos VM, Zemel Y. Statistical aspects of Wasserstein distances[J]. Annu Rev Stat Appl, 2019, 6: 405-431. 10.1146/annurev-statistics-030718-104938. [DOI] [Google Scholar]
  • 84. Yang XY, Gireesh N, Xing E, et al. XRayGAN: consistency-preserving generation of X-ray images from radiology reports[EB/OL]. arXiv: 2006. 10552v1[eess.IV](2020-06-17)[2022-07-08]. 10.48550/arXiv.2006.10552. [DOI] [Google Scholar]
  • 85. Heilbrun ME, Chapman BE, Narasimhan E, et al. Feasibility of natural language processing-assisted auditing of critical findings in chest radiology[J]. J Am Coll Radiol, 2019, 16(9 Pt B): 1299-1304. 10.1016/j.jacr.2019.05.038. [DOI] [PubMed] [Google Scholar]
  • 86. Harkema H, Dowling JN, Thornblade T, et al. ConText: an algorithm for determining negation, experiencer, and temporal status from clinical reports[J]. J Biomed Inform, 2009, 42(5): 839-851. 10.1016/j.jbi.2009.05.002. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 87. Steinkamp JM, Cook T. Basic artificial intelligence techniques: natural language processing of radiology reports[J]. Radiologic Clinics, 2021, 59(6): 919-931. [DOI] [PubMed] [Google Scholar]
  • 88. Rezayi S, Dai H, Liu Z, et al. Clinicalradiobert: Knowledge-infused few shot learning for clinical notes named entity recognition[C/OL]//The 13th International Workshop on Machine Learning in Medical Imaging (MLMI 2022. WashingtonDC, USA: MLG (2022-08-15)[2022-08-20]. http://www.mlgworkshop.org/2022. [Google Scholar]
  • 89. Doğan RI, Leaman R, Lu ZY. NCBI disease corpus: a resource for disease name recognition and concept normalization[J]. J Biomed Inform, 2014, 47: 1-10. 10.1016/j.jbi.2013.12.006. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 90. Smith L, Tanabe LK, Ando RJN, et al. Overview of BioCreative II gene mention recognition[J]. Genome Biol, 2008, 9(Suppl 2): S2. 10.1186/gb-2008-9-s2-s2. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 91. Lee J, Yoon W, Kim S, et al. BioBERT: a pre-trained biomedical language representation model for biomedical text mining[J]. Bioinformatics, 2020, 36(4): 1234-1240. 10.1093/bioinformatics/btz682. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 92. Berman AN, Biery DW, Ginder C, et al. Natural language processing for the assessment of cardiovascular disease comorbidities: the cardio-Canary comorbidity project[J]. Clin Cardiol, 2021, 44(9): 1296-1304. 10.1002/clc.23687. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 93. Reading Turchioe M, Volodarskiy A, Pathak J, et al. Systematic review of current natural language processing methods and applications in cardiology[J]. Heart, 2022, 108(12): 909-916. 10.1136/heartjnl-2021-319769. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 94. Donnelly LF, Grzeszczuk R, Guimaraes CV, et al. Using a natural language processing and machine learning algorithm program to analyze inter-radiologist report style variation and compare variation between radiologists when using highly structured versus more free text reporting[J]. Curr Probl Diagn Radiol, 2019, 48(6): 524-530. 10.1067/j.cpradiol.2018.09.005. [DOI] [PubMed] [Google Scholar]
  • 95. Donnelly LF, Grzeszczuk R, Guimaraes CV. Use of natural language processing (NLP) in evaluation of radiology reports: an update on applications and technology advances[J]. Semin Ultrasound CT MR, 2022, 43(2): 176-181. 10.1053/j.sult.2022.02.007. [DOI] [PubMed] [Google Scholar]
  • 96. Steiner T, Verborgh R, Troncy R, et al. Adding realtime coverage to the google knowledge graph[C/OL]//ISWC 2012, 11th International Semantic Web Conference, Boston, USA: [s.n.], 2012 (2012-11-11)[2022-07-08]. https://www.eurecom.fr/en/publication/3807. [Google Scholar]
  • 97. Dong XL, He X, Kan A, et al. AutoKnow: self-driving knowledge collection for products of thousands of types[C]//KDD '20: Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. [s.n.], 2020: 2724-2734. 10.1145/3394486.3403323. [DOI] [Google Scholar]
  • 98. Auer S, Bizer C, Koblarov , et al DBpedia: A nucleus for a web of opern data//The Semantic Web. ISWC ASWC 2007 2007. Lecture Notes in Computer Science, vol 4825. Springer, , HeidelbergBerlin. 2007: 722-735. 10.1007/978-3-540-76298-0_52. [DOI] [Google Scholar]
  • 99. Vrandečić D, Krötzsch M. Wikidata: a free collaborative knowledgebase[J]. Commun ACM, 2014, 57(10): 78-85. [Google Scholar]
  • 100. Miller GA. WordNet: a lexical database for English[J]. Commun ACM, 1995, 38(11): 39-41. [Google Scholar]
  • 101. Wang S, Lin MQ, Ghosal T, et al. Knowledge graph applications in medical imaging analysis: a scoping review[J]. Health Data Sci, 2022, 2022: 9841548. 10.34133/2022/9841548. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 102. Li CY, Liang XD, Hu ZT, et al. Knowledge-driven encode, retrieve, paraphrase for medical image report generation[J]. Proc AAAI Conf Artif Intell, 2019, 33: 6666-6673. 10.1609/aaai.v33i01.33016666. [DOI] [Google Scholar]
  • 103. Li CY, Liang XD, Hu ZT, et al. Hybrid retrieval-generation reinforced agent for medical image report generation[EB/OL]. arXiv: 1805. 08298[cs.CV]. https://arxiv.org/abs/1805.08298
  • 104. Liu FL, You CY, Wu X, et al. Auto-encoding knowledge graph for unsupervised medical report generation[EB/OL]. arXiv: 2111. 04318[cs.LG] (2018-11-24)[2022-07-08]. 10.48550/arXiv.2111.04318. [DOI]
  • 105. Yan A, He ZX, Lu X, et al. Weakly supervised contrastive learning for chest X-ray report generation[EB/OL]. arXiv: 2109. 12242[cs.CL](2021-09-25)[2022-07-08]. 10.48550/arXiv.2109.12242. [DOI]

Articles from Journal of Central South University Medical Sciences are provided here courtesy of Central South University

RESOURCES