Skip to main content
Sheng Wu Yi Xue Gong Cheng Xue Za Zhi = Journal of Biomedical Engineering logoLink to Sheng Wu Yi Xue Gong Cheng Xue Za Zhi = Journal of Biomedical Engineering
. 2024 Feb 25;41(1):60–69. [Article in Chinese] doi: 10.7507/1001-5515.202304001

基于记忆驱动的多模态医学影像报告自动生成研究

Research on automatic generation of multimodal medical image reports based on memory driven

素霞 邢 1,*, 俊泽 方 1, 子涵 鞠 1, 正 郭 1, 瑜 王 1
PMCID: PMC10894734  PMID: 38403605

Abstract

医学影像报告自动生成任务面临疾病类型多样、报告描述缺乏专业性和流畅性等多重挑战。为解决以上问题,本文提出一种基于记忆驱动的多模态医学影像报告自动生成方法(mMIRmd),首先使用基于移位窗口的层次视觉转换器(Swin-Transformer)提取患者医学影像的多视角视觉特征,通过基于转换器的双向编码模型(BERT)提取病史信息的语义特征,然后将多模态特征进行融合,提高模型对不同疾病类型的识别能力。其次,使用医学文本预训练的词向量词典对视觉特征标签进行编码,以提高生成报告的专业性。最后,在解码器中引入记忆驱动模块,解决医学影像数据中的长距离依赖关系。本研究在印第安纳大学收集的胸部X光数据集(IU X-Ray)和麻省理工学院联合马萨诸塞州总医院发布的重症监护X光医疗数据集(MIMIC-CXR)上进行验证。实验结果表明,本文所提方法能更好地关注患病区域,提高生成报告的准确性与流畅性,可以辅助放射科医生快速完成医学影像报告的撰写。

Keywords: 多模态特征融合, 记忆驱动, 报告自动生成, 医学影像

0. 引言

医学影像报告自动生成技术可以辅助医生迅速关注异常区域,减少撰写报告所需的时间,从而提高工作效率[1-5]。目前,医学影像报告自动生成主要采用两种模型结构,分别是基于深度学习的编码器—解码器结构,包括:卷积神经网络(convolutional neural networks,CNN)、循环神经网络(recurrent neural network,RNN)、CNN与RNN结合网络(CNN-RNN)以及基于注意力机制的转换器(transformer)结构[6-7]。相较于CNN-RNN,tansformer的注意力机制拥有更强的特征学习能力,能够加权计算输入数据中每个节点之间的关联,且善于捕捉较长间隔的语义关联[8-9]。Alfarghaly等[10]成功将transformer应用于医学影像报告自动生成领域后,受到广泛关注[11-12]。Srinivasan等[13]提出基于transformer的等级网络(hierarchical net,HN),使用疾病标签和多头注意力(multi-head attention,MHA)实现了分层的医学影像报告自动生成方法,提高了报告的准确性和可解释性,但对于特定疾病的泛化能力有待提升。Liu等[14]提出探索提炼后验和先验知识模型(posterior-and-prior knowledge exploring-and-distilling,PPKED),首先确定异常区域和疾病类型,再利用先验知识进行报告书写,有效减轻了文本数据的偏见,但在处理复杂病例时还存在知识不完备的问题。Li等[15]提出一种自引导框架模型(self-guided framework,SGF),可以从无疾病标签的医学影像报告中获取专业知识,并提取相关的细颗粒视觉特征来提升报告的精确度,但存在对语义理解依赖性不足的问题。You等[16]提出一种可以将视觉区域和疾病标签分层对齐的对齐层次注意力和多粒度transformer(align hierarchical attention and multi-grained transformer,AlignTransformer),通过先预测疾病标签,再将其与视觉区域分层对齐的方法学习多粒度视觉特征,解决视觉偏差问题,但有时生成的报告并不流畅。Chen等[17]提出一种跨模态记忆网络(cross-modal memory networks,CMN),该网络利用记忆存储器保留特征信息,通过建立视觉与文本的联系,解决图文多模态映射,但对于复杂的或罕见的病例,模型缺乏足够的泛化能力。

以上研究成果表明,基于transformer及其改进模型的研究在医学影像报告自动生成任务中取得了优异表现,但同时,此类模型在识别和描述疾病特征方面还有一定的局限性,对罕见疾病的识别普遍较差,且由于模型对医学术语、解剖结构或病变特点等方面理解不够深入,导致对疾病的描述不够专业,模型有时还会生成语句不通顺或难以理解的文本,影响报告的理解和使用。基于以上问题,本文提出了一种基于记忆驱动的多模态医学影像报告自动生成方法(multimodal medical imaging report based on memory drive,mMIRmd),以改善医学影像报告自动生成的质量,着重解决疾病识别准确性、疾病描述专业性和报告文本流畅性等方面的问题,减少放射科医生撰写报告的负担,辅助临床医生实现准确诊断。

1. 数据驱动的多模态医学影像报告自动生成方法

图1所示,展示了本文所提mMIRmd模型的整体结构,该模型包括视觉特征编码器、语义特征编码器和基于记忆驱动的解码器三个部分。视觉特征编码器,负责提取并融合正、侧面两张影像的视觉特征,并预测每种疾病标签对应的概率。语义特征编码器,负责提取病史信息中的语义特征。将视觉特征、编码后的预测标签概率和语义特征拼接后,输入基于记忆驱动的解码器。基于记忆驱动的解码器,负责将上述拼接特征解码并生成医学影像报告。

图 1.

图 1

The architecture of mMIRmd model

mMIRmd模型整体结构图

1.1. 数据集

本文采用公开使用的印第安纳大学(Indiana University,IU)收集的胸部X光(X-Ray)数据集(IU X-Ray)和麻省理工学院(Massachusetts Institute of Technology)联合马萨诸塞州总医院(Massachusetts General Hospital)发布的重症监护X光医疗数据集(medical information mart for intensive care chest X-Ray,MIMIC-CXR)[18-19]

其中,IU X-Ray数据集包含7 470张正、侧面胸部X光影像和3 955份影像报告。所有影像均被自动或人工进行标注。MIMIC-CXR中的数据包括来自65 379位患者的377 110张多视角的胸部X光影像和227 827份影像报告,并以14个胸部疾病专业术语作为结构化标签,使用自动标记器根据影像报告文本对X光影像进行标注。每个标签分为未提及(记为空白)、正类(记为“1”)、负类(记为“0”)和不确定(记为“−1”)等4种情况。

1.2. 视觉特征编码器

本文使用基于移位窗口的层次视觉transformer(hierarchical vision transformer using shifted windows,Swin-Transformer)作为视觉特征编码器[20]。Swin-Transformer的分级注意力机制、窗口化设计和多层次特征交互使得模型能够更好地捕捉医学影像中的细节与处理分布不均匀的特征,并能够同时关注整体特征和局部特征,在医学影像视觉特征提取任务中取得了优异的表现。

数据集中每个病例包含正、侧面两个视角的医学影像X1X2,通过Swin-Transformer分别提取两张影像的视觉特征,通过对应位置取最大值实现特征融合,使用平均池化层聚合特征图,以激活函数为S型生长曲线(sigmoid)的全连接层作为分类器预测每个疾病标签的概率分布。每个标签均为独立的二分类问题,损失函数LT为每个标签的二分类交叉熵之和,如式(1)所示:

1.2. 1

式中,Inline graphicInline graphic 分别代表真实标签和预测标签,其中 Inline graphicInline graphict为标签个数。采用词嵌入词典对视觉特征编码器生成的标签进行编码,该词典使用医学文本进行预训练。编码后的标签词向量与标签概率分布相乘得到标签词嵌入。

1.3. 语义特征编码器

医学影像报告通常文本较长,包含丰富的疾病信息内容。基于transformer的双向编码模型(bidirectional encoder representations from transformers,BERT)具有强大的语义理解能力以及迁移学习优势,其双向transformer的结构可以捕捉文本之间的长距离关系,有助于解决医学影像报告长文本的理解问题[21]。因此,本文选用BERT作为语义特征编码器对患者病史信息进行编码。

在使用BERT模型提取病史信息的语义特征过程中,移除模型中每个序列的特殊分类嵌入标记,直接使用最后一个隐藏层的全部输出作为语义特征,更完整地保留语义信息,且有利于解码器中注意力机制对语义特征的理解。

1.4. 基于记忆驱动的解码器

蒸馏生成式预训练transformer(distil generative pre-trained transformer,distilGPT-2)对预训练生成式transformer(generative pre-trained transformer,GPT-2)进行了知识蒸馏,在保持模型性能基本不变的前提下削减了34%的参数,从而有效提升模型训练和推理的效率,使模型可以在相对较低的计算资源下生成高质量的医学影像报告,因此本文选择distilGPT-2作为解码器,用于生成完整的医学影像报告[22]。此外,在医学影像报告自动生成任务中需要考虑大量专业背景知识,以确保生成的报告完整准确。记忆驱动模块可以从真实报告中提取重要的片段和关键词,使解码器能够更好地关注并记录关键特征,从而提升生成报告的准确性和专业性[23]。基于记忆驱动的解码器结构如图2所示。

图 2.

图 2

Memory-driven decoder architecture

基于记忆驱动的解码器结构图

记忆驱动模块通过记忆矩阵M记录医学影像报告中经常出现的医学术语和表述方式,并随着模型训练不断进行更新。在t时刻,上一时刻的记忆矩阵Mt − 1作为记忆驱动模块的输入,真实报告词嵌入X通过MHA输入到记忆矩阵中,MHA的输出Zt − 1如式(2)所示:

1.4. 2

其中,柔性最大(softmax)作为归一化指数函数,T为转置符号,X t − 1为上一步输出的嵌入,[Mt − 1; Xt − 1]是Mt − 1Xt − 1的点积拼接,Inline graphic 在第0时刻随机初始化参数,LmD分别为记忆矩阵的长度和维度,且与报告词嵌入维度一致,Inline graphicInline graphicInline graphic 为参数矩阵,MHA中记忆矩阵作为查询矩阵(query,Q)(以符号Q表示),记忆矩阵与医学影像报告拼接作为键矩阵(key,K)(以符号K表示)和值矩阵(value,V)(以符号V表示)。与transformer结构类似,在注意力层后加入前馈神经网络,并采用残差连接,以提高模型的拟合能力,避免出现梯度消失和梯度爆炸[7]。随着模型训练的进行,医学影像报告中的信息会不断更新到记忆矩阵中,然而这种迭代更新的方式容易导致之前信息被覆盖,并产生无用的冗余信息,对模型性能造成负面影响。对此,记忆驱动模块引入门机制来决定哪些信息应该保留或更新[24]

图2所示,使用条件归一化替代原distilGPT-2解码器中的层归一化,通过学习参数的变化量而非参数本身来提高模型的泛化性,并防止其影响过多的模型参数进而影响核心信息的生成。

在解码器中将视觉特征、编码后的预测标签概率和语义特征在空间维度进行拼接作为多模态特征。使用字节对编码(byte pair encoding,BPE)的方式对真实报告进行编码,在序列起始与末尾处分别添加相应标记,并使用补零操作将向量填充至最大序列长度。真实报告经词嵌入后同多模态特征一起输入到distilGPT-2的MHA。MHA由n个头组成,且每个头中使用归一化的点乘注意力,如式(3)所示:

1.4. 3

其中,Atti(·)(i=1, ···, n)为每个头使用的归一化点乘注意力,MHA(·) 为MHA最终的输出,Inline graphic 是词嵌入后的真实报告,Lx是真实的序列长度,按每个批大小中的最大长度填充,F是视觉特征、编码后的预测标签概率和语义特征拼接后的多模态特征,Inline graphicInline graphicInline graphicInline graphic 均为可训练参数。真实报告作为Q,多模态特征与真实报告拼接作为KV输入distilGPT-2,令模型有效关注和理解特征中蕴含的多模态信息。解码器使用真实报告单词和预测单词间的交叉熵作为损失函数,并对所有单词的损失取平均值,损失函数LG如式(4)所示:

1.4. 4

其中,Inline graphicInline graphic 分别代表真实报告和预测标签,其中,Inline graphicInline graphicl为报告长度,m是词嵌入词典大小。最终,模型以端到端的形式训练,损失函数为标签分类损失函数LT与解码器损失函数LG之和。

1.5. 迁移学习

与自然图像相比,医学影像获取和标注成本较高,受患者隐私等因素限制,高质量的大规模医学影像数据难以获取,模型性能依然存在较大提升空间。迁移学习方法将在大规模数据集中训练的模型应用于下游任务,为模型提供丰富的先验特征,有效降低对数据量的依赖。

本文使用在自然图像和文本数据中预训练的模型参数初始化多视角视觉编码器、语义编码器和解码器三部分,具体步骤如下:① 分别获取在自然图像数据集中训练的Swin-Transformer、医学文本数据库预训练的BERT和网页文本数据集预训练的distilGPT2模型参数[25]。② 针对本文模型调整预训练参数,医学影像是通道数为1的灰度图像,需将Swin-Transformer模型第一个卷积层输入通道数设置为1且不进行迁移。多模态特征通过注意力层输入distilGPT2,为避免预训练参数对输入特征造成影响,仅初始化真实报告相关的权重参数。③ 移除预训练模型分类器,使用模型主干初始化本文模型各部分,分类器和其他参数使用随机初始化。④ 在医学影像报告数据集中训练迁移后的模型,并对迁移部分使用更小学习率,有助于在训练过程中保留先验信息,促进模型学习新特征。

2. 数据处理和评价指标

2.1. 数据处理

在数据清洗和预处理阶段,只保留包含正、侧面两视角影像以及完整的病史信息、报告内容和相关标签的样本。报告和病史均转换为小写,删除其中涉及患者个人信息的单词,只生成“发现”部分的报告内容[26]。对IU X-Ray中的标签进行合并和去重,并删除正样本数小于25的标签[11],最终得到105个标签,按7∶2∶1划分训练集、验证集和测试集。MIMIC-CXR中将不确定的标签统一作为正类,以降低漏诊几率,按官方提供的划分方式划分数据集。

2.2. 评价指标

本文采用广泛应用于自然语言生成领域的评价指标来评估模型生成的医学影像报告质量。这些指标包括:双语互译质量评估辅助工具(bilingual evaluation understudy-ngram,BLEU-n)、生成单词的最长公共子序列的召回率(recall-oriented understudy for gisting evaluation-longest common subsequence,ROUGE-L)和显式顺序翻译评价指标(metric for evaluation of translation with explicit ORdering,METEOR)[27-29],得分越高代表生成报告的质量越高。

其中,BLEU-n通过N元模型(n-grams)划分文本,计算生成报告与真实报告间划分文本的共现程度,从而衡量生成报告的总体水平,划分较少的文本数量可以反映生成报告的准确性,较高则更能体现生成报告的流畅性。ROUGE-L通过比较生成文本和真实文本之间最长公共子序列的长度,以及这个长度在真实文本中的最大可能长度,量化生成文本与真实文本之间的相似度。METEOR根据同义词、词干和复述计算两个句子的相似度,能够准确反映生成文本的质量。

3. 实验结果与分析

3.1. 实施细节

在训练过程中,所有医学影像被缩小至384 × 384大小,在每张影像训练前进行随机裁剪、随机旋转、灰度变换等数据增强,确保每次训练的输入数据都具有一定的差异性,以模拟临床真实情景。使用自适应矩估计优化器(adaptive moment estimation,Adam)优化模型,权重衰减为5 × 10−5,初始学习率为1 × 10−3,并采用余弦退火学习率衰减[30],批大小设置为4,IU X-Ray和MIMIC-CXR数据集分别在模型中训练100轮次和20轮次。IU X-Ray数据集验证和测试阶段使用束宽(beam size)为5的束搜索策略生成报告,在样本全部训练5轮时,在验证集中进行一次测试,并选择BLEU-nn = 1, 2, 3, 4)得分最高的模型用于测试集。

本研究编程语言为Python3.7(Python Software Foundation,荷兰),深度学习框架是PyTorch(Facebook,美国),图形处理器(graphics processing unit,GPU)硬件为NVIDIA GeForce RTX 3090(NVIDIA,美国)。

3.2. 定量分析

mMIRmd模型训练过程曲线如图3所示,其中IU X-Ray 数据集共训练100轮次,每5轮次记录一次;MIMIC-CXR数据集共训练20轮次,每1轮次记录一次。随着训练的进行,模型各项指标准确率逐渐提升,最终趋于收敛。在IU X-Ray和MIMIC-CXR 数据集上BLEU-1、BLEU-2、BLEU-3、BLEU-4、ROUGE-L和METEOR最高分别达到0.492、0.379、0.320、0.265、0.407、0.236和0.467、0.358、0.281、0.245、0.382、0.211。

图 3.

图 3

Training process curves in IU X-Ray and MIMIC-CXR datasets

IU X-Ray和MIMIC-CXR数据集训练过程曲线

表1所示,为验证mMIRmd模型的有效性和泛化性,与CNN-RNN[7]、transformer[12]以及基于transformer的HN[14]、PPKED[15]、SGF[16]、AlignTransformer[17]、使用记忆存储器的CMN[18]在IU X-Ray和MIMIC-CXR数据集中的结果进行对比,加粗字体代表最优性能。

表 1. Quantitative comparison of report generation performance of mMIRmd model.

mMIRmd模型生成报告性能定量表

数据集 模型 BLEU-1 BLEU-2 BLEU-3 BLEU-4 ROUGE-L METEOR
IU X-Ray CNN-RNN 0.316 0.211 0.140 0.095 0.267 0.157
transformer 0.414 0.262 0.183 0.137 0.335 0.172
HN 0.464 0.301 0.212 0.158
PPKED 0.483 0.315 0.224 0.168 0.376
CMN 0.475 0.309 0.222 0.170 0.375 0.191
SGF 0.467 0. 334 0.261 0.215 0.415 0.201
AlignTransformer 0.484 0.313 0.225 0.173 0.379 0.204
多模态模型 0.485 0.369 0.295 0.254 0.401 0.228
mMIRmd 0.492 0.379 0.320 0.265 0.407 0.236
MIMIC-CXR CNN-RNN 0.299 0.184 0.121 0.084 0.263 0.124
transformer 0.314 0.192 0.127 0.090 0.265 0.125
PPKED 0.360 0.224 0.149 0.106 0.284 0.149
CMN 0.353 0.218 0.148 0.106 0.278 0.142
AlignTransformer 0.378 0.235 0.156 0.112 0.283 0.158
多模态模型 0.459 0.351 0.273 0.241 0.376 0.207
mMIRmd 0.467 0.358 0.281 0.245 0.382 0.211

本文模型在两个数据集的所有评价指标中均取得了最高分。其中,BLEU-3、BLEU-4得分显著超过其他方法,证明本文模型在文本流畅性上的优势。BLEU-1、BLEU-2、ROUGE-L、METEOR得分同样高于其他方法,证明多模态特征融合方法能够更好关注疾病区域,生成正确的标签信息,使报告各项指标有明显提升。

在多模态模型基础上,引入记忆驱动组成mMIRmd模型后,模型的所有评价指标得分均有提升,证明记忆驱动模块和条件归一化对于提高模型生成报告的质量起到了积极作用,记忆驱动模块记录的关键信息有效提升数据的长距离依赖性,使得报告准确性和流畅性均得到一定程度的提升。

3.3. 消融实验

消融实验包括单视角影像(single vision,SV)、多视角影像(multi-perspective vision, MV)、疾病标签(disease tag,T)、病史信息(medical history information,I)四种模态单独或组合输入解码器。如表2所示,使用多视角影像结合疾病标签和病史信息的方法(MV+T+I),在所有评价指标上取得了最高分,以加粗字体显示。与单视角影像输入相比,多视角影像包含更全面的视觉特征,从而显著提升了所有评价指标得分。添加疾病标签有助于引导模型生成正确的报告,对生成的医学影像报告精度起到积极作用,BLEU-1、BLEU-2和BLEU-3得分均有小幅提升。病史信息为模型提供了多模态输入,大幅提升了模型的所有评价指标。这表明病史信息与当前疾病状态存在密切联系,多模态特征提取和融合对医学影像报告准确性和流畅性的提升起到了显著效果。

表 2. Ablation experiment.

消融实验

模态 BLEU-1 BLEU-2 BLEU-3 BLEU-4 ROUGE-L METEOR
疾病标签 0.221 0.133 0.089 0.059 0.267 0.118
单视角影像 0.376 0.238 0.172 0.129 0.284 0.156
多视角影像 0.411 0.293 0.216 0.176 0.332 0.190
多视角影像+疾病标签 0.418 0.301 0.219 0.176 0.330 0.191
MV+T+I 0.485 0.369 0.295 0.254 0.401 0.228

3.4. 迁移学习实验结果

迁移学习对模型性能的影响实验在IU X-Ray数据集中进行。如表3所示,展示了Swin-Transformer[20]、101层深度残差网络(residual network 101,ResNet101)[31]、121层稠密连接卷积网络(densely connected convolutional networks 121,Densenet121)[32]、视觉transformer(vision transformer)[33]4种模型在迁移学习前后对多标签分类的结果,实验以单张影像作为输入。观察实验结果可知,即使自然图像与医学影像间存在较大差异,自然图像预训练的模型迁移学习至医学影像任务中仍能有效提升模型特征提取性能。与CNN模型相比,transformer模型提升幅度更大,使用迁移学习训练的Swin-Transformer在相同模型体量下获得了最高得分,以加粗字体显示。

表 3. The impact of transfer learning on the performance of model image feature extraction.

迁移学习对模型图像特征提取性能影响

模型 未经迁移 自然图像
ResNet101 0.559 0.589
DenseNet121 0.561 0.598
vision transformer 0.556 0.774
Swin-Transformer 0.584 0.786

语义编码器BERT和解码器distilGPT2的迁移学习效果以生成医学影像报告的质量为标准,实验结果如表4所示,分别为随机初始化模型参数(initialized without,w/o)、自然文本预训练(pre-trained,Pre)参数迁移学习和医学文本(biomedical text pre-trained,Bio)迁移学习,最佳结果以加粗字体显示。

表 4. The impact of transfer learning on the performance of semantic encoders and decoders.

迁移学习对语义编码器和解码器的性能影响

模型 BLEU-1 BLEU-2 BLEU-3 BLEU-4 ROUGE-L METEOR
BERT distilGPT2
w/o Pre 0.443 0.323 0.259 0.218 0.374 0.212
Pre Pre 0.469 0.349 0.286 0.247 0.397 0.226
Bio w/o 0.483 0.357 0.271 0.226 0.387 0.204
Bio Pre 0.485 0.369 0.295 0.254 0.401 0.228

表4所示,语义编码器BERT使用迁移学习能够提升病史信息特征提取质量,模型生成的医学影像报告在所有评价指标中均获得更高得分,使用医学文本预训练的BERT更有助于模型理解医学相关术语和表达,报告质量得到进一步提升。在解码器distilGPT2中使用迁移学习的方法令BLEU-1得分有小幅提升,BLEU-2、BLEU-3、BLEU-4、ROUGE-L和METEOR的提升幅度更大,表明预训练模型能够使生成的报告更加流畅,这得益于迁移学习带来的丰富先验知识,模型通过自然文本学习相关语法和表达方式,经医学影像报告的微调,生成更贴近人类表达习惯的报告内容。

3.5. 定性分析

图4所示,展示了输入的正、侧面医学影像、mMIRmd模型的异常区域可视化、真实报告和两种模型生成的部分医学影像报告,加粗字体代表正确描述的部分,红色字体为加入记忆驱动模块后额外生成的正确描述,使用梯度定位的深层网络可视化方法(gradient-weighted class activation mapping,Grad-CAM)[34],并与未加入记忆驱动的多模态模型进行对比。观察实验结果可知,多模态模型能够重点关注异常区域。例如,模型对“脊柱退行性改变(degenerative changes are in the spine)”等疾病能够正确判断,也能生成“局灶性(focal)”等对疾病状态的描述,证明了模型的有效性。然而对“轻度主动脉弯曲(there is mild tortuosity to the descending thorcic aorta)”等早期或性状不明显的病变难以准确识别,且与真实报告相比,生成的报告在疾病的描述方式上仍存在一定差异。

图 4.

图 4

Qualitative comparison of report generation performance of mMIRmd model

定性比较mMIRmd模型生成报告性能

mMIRmd模型能够正确生成“空腔疾病(airspace disease)”、“肺血管系统(pulmonary vascularity)”等专业医学术语,生成报告在表述专业性和语言逻辑性方面有所提升,对正常器官的描述也更加全面,例如能正确处理“局灶性(focal)”和“胸腔积液(pleural effusion)”间的修饰关系,证明了记忆驱动的有效性。与多模态模型相比,mMIRmd模型生成的“心脏大小和肺血管分布在正常范围内(heart size and pulmonary vascularity appear within normal limits)”能够对位置进行准确描述,但没有对“轻度主动脉弯曲(there is mild tortuosity to the descending thorcic aorta)”进行说明。同时,mMIRmd模型生成的报告与真实报告长度更加贴合,语句也更加通顺流畅。由此可见,模型生成报告的精度有所提升,能够清晰地表达出大部分病变的具体位置和属性,通过异常区域可视化也显示模型生成报告时能正确关注有意义的区域,但对情况复杂的患病情况以及特征不明显疾病的识别和判断仍然存在欠缺。

4. 结论

针对医学影像疾病类型多样、报告描述缺乏专业性和流畅性等问题开展医学影像报告自动生成研究,本文提出mMIRmd模型,通过多模态特征融合和记忆驱动的方法,有效提升生成报告的质量,异常区域可视化的引入进一步增强了模型的可解释性,能够反映疾病所在的具体位置。

本文的主要工作包括以下三方面:① 设计了一种能够同时提取医学影像视觉特征、病史信息语义特征以及融合编码后标签概率的多模态融合模型,提高了模型识别病变的能力。② 在Swin-Transformer编码器中使用医学文本预训练的词典对视觉特征标签进行编码,提高了生成报告的专业性。③ 通过在distilGPT-2解码器中加入记忆驱动模块,解决了医学影像数据的长依赖关系,提高了报告生成的流畅性。然而,与医生撰写的报告相比,生成报告在患病细节的描述方面仍然存在一些欠缺,模型的疾病识别能力和泛化能力仍有提升空间。

重要声明

利益冲突声明:本文全体作者均声明不存在利益冲突。

作者贡献声明:邢素霞主要负责论文思路和实验设计;方俊泽主要负责算法实现和论文写作;鞠子涵主要负责实验设计和平台搭建;郭正、王瑜主要负责论文修订和分析记录。

Funding Statement

国家自然科学基金项目(61671028);北京市自然科学基金项目(KZ202110011015)

National Natural Science Foundation of China; Beijing Municipal Education Commission

References

  • 1.张物华, 李锵, 关欣 基于多尺度卷积神经网络的X光图像中肺炎病灶检测. 激光与光电子学进展. 2020;57(8):179–186. [Google Scholar]
  • 2.黄欣, 方钰, 顾梦丹 基于卷积神经网络的 X 线胸片疾病分类研究. 系统仿真学报. 2020;32(6):1188–1194. [Google Scholar]
  • 3.Messina P, Pino P, Parra D, et al. A survey on deep learning and explainability for automatic report generation from medical images. ACM Computing Surveys, 2020, arXiv: 2010.10563.
  • 4.Rajpurkar P, Irvin J, Zhu K, et al. CheXNet: radiologist-level pneumonia detection on chest X-rays with deep learning. arXiv preprint, 2017, arXiv: 1711.05225.
  • 5.Demner-Fushman D, Kohli M D, Rosenman M B, et al Preparing a collection of radiology examinations for distribution and retrieval. Journal of the American Medical Informatics Association. 2016;23(2):304–310. doi: 10.1093/jamia/ocv080. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 6.Vinyals O, Toshev A, Bengio S, et al. Show and tell: a neural image caption generator//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, IEEE, 2015: 3156-3164.
  • 7.Li C Y, Liang X, Hu Z, et al. Hybrid retrieval-generation reinforced agent for medical image report generation//Proceedings of the 32nd International Conference on Neural Information Processing Systems(NIPS’18), 2018: 1537-1547.
  • 8.Han K, Wang Y, Chen H, et al A survey on vision transformer. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2023;45(1):87–110. doi: 10.1109/TPAMI.2022.3152247. [DOI] [PubMed] [Google Scholar]
  • 9.He X, Yang Y, Shi B, et al VD-SAN: visual-densely semantic attention network for image caption generation. Neurocomputing. 2019;328:48–55. doi: 10.1016/j.neucom.2018.02.106. [DOI] [Google Scholar]
  • 10.Alfarghaly O, Khaled R, Elkorany A, et al Automated radiology report generation using conditioned transformers. Informatics in Medicine Unlocked. 2021;24:100557. doi: 10.1016/j.imu.2021.100557. [DOI] [Google Scholar]
  • 11.Valanarasu J M J, Oza P, Hacihaliloglu I, et al. Medical transformer: gated axial-attention for medical image segmentation//Medical Image Computing and Computer Assisted Intervention (MICCAI 2021), Springer, 2021: 36-46.
  • 12.Hou B, Kaissis G, Summers R M, et al. Ratchet: medical transformer for chest X-ray diagnosis and reporting//Medical Image Computing and Computer Assisted Intervention (MICCAI 2021), Springer, 2021: 293-303.
  • 13.Srinivasan P, Thapar D, Bhavsar A, et al. Hierarchical X-ray report generation via pathology tags and multi head attention//Proceedings of the Asian Conference on Computer Vision (ACCV 2020), Springer, 2020: 600-616.
  • 14.Liu F, Wu X, Ge S, et al. Exploring and distilling posterior and prior knowledge for radiology report generation// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, IEEE, 2021: 13753-13762.
  • 15.Li J, Li S, Hu Y, et al. A self-guided framework for radiology report generation//Medical Image Computing and Computer Assisted Intervention (MICCAI 2022), Springer, 2022: 588-598.
  • 16.You D, Liu F, Ge S, et al. Aligntransformer: Hierarchical alignment of visual regions and disease tags for medical report generation.//Medical Image Computing and Computer Assisted Intervention (MICCAI 2021), Springer, 2021: 72-82.
  • 17.Chen Z, Shen Y, Song Y, et al. Cross-modal memory networks for radiology report generation// The Joint Conference of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (ACL-IJCNLP 2021), 2022. arXiv: 2204.13258.
  • 18.Wang X, Peng Y, Lu L, et al. ChestX-ray8: hospital-scale chest X-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, IEEE, 2017: 2097-2106.
  • 19.Johnson A E W, Pollard T J, Berkowitz S J, et al MIMIC-CXR, a de-identified publicly available database of chest radiographs with free-text reports. Scientific Data. 2019;6(1):317. doi: 10.1038/s41597-019-0322-0. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 20.Liu Z, Lin Y, Cao Y, et al. Swin transformer: hierarchical vision transformer using shifted windows// Proceedings of the IEEE/CVF international conference on computer vision, IEEE, 2021, 10012-10022.
  • 21.Devlin J, Chang M W, Lee K, et al. Bert: pre-training of deep bidirectional transformers for language understanding// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, ACL Anthology, 2019: 4171-4186.
  • 22.Silva Barbon R, Akabane A T Towards transfer learning techniques-BERT, DistilBERT, BERTimbau, and DistilBERTimbau for automatic text classification from different languages: a case study. Sensors. 2022;22(21):8184. doi: 10.3390/s22218184. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 23.Chen Z, Song Y, Chang T H, et al. Generating radiology reports via memory-driven transformer// Conference on Empirical Methods in Natural Language Processing (EMNLP-2020), 2020. arXiv: 2010.16056.
  • 24.Lee D, Tian Z, Xue L, et al. Enhancing content preservation in text style transfer using reverse attention and conditional layer normalization// The Joint Conference of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (ACL-IJCNLP 2021), 2021. arXiv: 2108.00449.
  • 25.Lee J, Yoon W, Kim S, et al BioBERT: a pre-trained biomedical language representation model for biomedical text mining. Bioinformatics. 2020;36(4):1234–1240. doi: 10.1093/bioinformatics/btz682. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 26.Yang S, Wu X, Ge S, et al Radiology report generation with a learned knowledge base and multi-modal alignment. Medical Image Analysis. 2023;86:102798. doi: 10.1016/j.media.2023.102798. [DOI] [PubMed] [Google Scholar]
  • 27.Papineni K, Roukos S, Ward T, et al. BLEU: a method for automatic evaluation of machine translation// Proceedings of the Annual Meeting of the Association for Computational Linguistics, ACL, 2002: 311-318.
  • 28.Banerjee S, Lavie A. METEOR: an automatic metric for MT evaluation with improved correlation with human judgments//Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization, Association for Computational Linguistics, 2005: 65-72.
  • 29.Lin C Y. ROUGE: a package for automatic evaluation of summaries. Text summarization branches out, Association for Computational Linguistics, 2004: 74-81.
  • 30.He Tong, Zhang Zhi, Zhang Hang, et al. Bag of tricks for image classification with convolutional neural networks// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, IEEE, 2019: 558-567.
  • 31.He K, Zhang X, Ren S, et al. Deep residual learning for image recognition//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, IEEE, 2016: 770-778.
  • 32.Huang Gao, Liu Zhuang,Van Der Maaten L, et al. Densely connected convolutional networks// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, IEEE, 2017: 2261-2269.
  • 33.Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: transformers for image recognition at scale//International Conference on Learning Representations, ICLR, 2021: 1-22.
  • 34.Selvaraju RR, Cogswell M, Das A, et al. Grad-cam: Visual explanations from deep networks via gradient-based localization.//Proceedings of the IEEE International Conference on Computer Vision, IEEE, 2017: 618-626.

Articles from Sheng Wu Yi Xue Gong Cheng Xue Za Zhi = Journal of Biomedical Engineering are provided here courtesy of West China Hospital of Sichuan University

RESOURCES