Skip to main content
Sheng Wu Yi Xue Gong Cheng Xue Za Zhi = Journal of Biomedical Engineering logoLink to Sheng Wu Yi Xue Gong Cheng Xue Za Zhi = Journal of Biomedical Engineering
. 2022 Oct 25;39(5):876–886. [Article in Chinese] doi: 10.7507/1001-5515.202204011

基于视觉变换器的级联多阶层医学影像配准方法

Cascaded multi-level medical image registration method based on transformer

Yingjie PAN 1, Yuanzhi CHENG 1,2,*, Hao LIU 1, Cao SHI 1
PMCID: PMC9927705  PMID: 36310476

Abstract

In deep learning-based image registration, the deformable region with complex anatomical structures is an important factor affecting the accuracy of network registration. However, it is difficult for existing methods to pay attention to complex anatomical regions of images. At the same time, the receptive field of the convolutional neural network is limited by the size of its convolution kernel, and it is difficult to learn the relationship between the voxels with far spatial location, making it difficult to deal with the large region deformation problem. Aiming at the above two problems, this paper proposes a cascaded multi-level registration network model based on transformer, and equipped it with a difficult deformable region perceptron based on mean square error. The difficult deformation perceptron uses sliding window and floating window techniques to retrieve the registered images, obtain the difficult deformation coefficient of each voxel, and identify the regions with the worst registration effect. In this study, the cascaded multi-level registration network model adopts the difficult deformation perceptron for hierarchical connection, and the self-attention mechanism is used to extract global features in the basic registration network to optimize the registration results of different scales. The experimental results show that the method proposed in this paper can perform progressive registration of complex deformation regions, thereby optimizing the registration results of brain medical images, which has a good auxiliary effect on the clinical diagnosis of doctors.

Keywords: Medical imaging, Multi-level registration, Difficult deformation perception, Cascading network, Self-attention mechanism

引言

可形变医学图像配准作为医学影像处理和分析的一项基础性任务,其目标是找到参考图像和待配准图像间体素的位移关系,识别并对齐图像中相同或者相似的解剖结构,精确的医学影像配准是一项具有挑战性的工作。

基于深度学习的可形变医学图像配准,按照网络的训练策略大体分为两类:监督学习方法和无监督学习方法。基于监督学习的配准方法,需要在训练网络时提供待配准图像对的标准位移形变场,但标准位移形变场需首先通过传统配准方法获得,这使监督学习网络的配准精度难以超越传统方法[1]。为了解决监督学习中标签限制问题,大量研究人员开始研究无监督学习的配准方法。Jaderberg等[2]提出了一种空间变换网络(spatial transformer networks,STN),该网络支持神经网络的反向传播,直接使用形变场扭曲待配准图像,STN的发布启发了许多无监督图像配准方法。Balakrishnan等[3]通过结合U型网络[4]和STN开发了体素变形网络(voxelmorph,VM),以无监督学习的方式对核磁共振成像(magnetic resonance imaging,MRI)脑图谱进行配准,该方法仅通过优化自定义的损失函数就可以实现图像配准。图像中小形变区域通常通过单次配准即可实现对齐,而大形变区域往往需要多次配准才能对齐。在Zhao等[5]提出的递归级联网络中,级联网络的思想被证明可以优化图像配准的结果,但级联网络的每层网络都需要输入参考图像和待配准图像,这造成已经对齐的较小形变区域再次参与网络运算,步骤冗余没有意义。为解决此问题,Kim等[6]提出循环体素变形网络(cyclemorph,CM),利用循环一致性进行多尺度配准,逐步优化形变场。Huang等[7]尝试将网络的中间特征重采样以识别感兴趣区域,这种依赖中间特征结果的识别策略在网络训练早期极易出现误判和漏判感兴趣区域的问题。基于以上研究结果,本文方法采用级联多阶层网络进行多尺度配准,通过选定的策略识别对齐最差的区域,保证识别结果的稳定性。

卷积神经网络(convolutional neural network,CNN)被广泛应用于图像配准领域,但卷积运算的感受野受卷积核尺寸的限制,难以学习图像的全局特征。Li等[8]在其研究中发现,随着卷积层的加深,距离较远的体素点之间的相互影响会迅速衰减,这使得CNN很难学习图像中的全局特征关系。拥有自注意力机制的视觉变换器(Transformer)的出现有效解决了CNN无法有效提取图像全局特征的问题[9],例如Liu等[10]提出拥有移位窗口的层次化Transformer,其计算量只与窗口数量呈线性关系,改善了计算代价高昂的问题。Chen等[11]首次应用Transformer进行无监督配准研究,与V型分割网络结合[12],并在后续任务中扩展了当前模型,提出变形网络(transmorph,TM)捕获待配准图像对之间的语义关系,在定量结果上证明了其提出的架构的有效性和先进性[13]。但将Transformer应用于医学图像配准的研究目前仍处于起步阶段。

针对上述问题,本文提出了一种基于Transformer的级联多阶层配准网络模型进行医学影像配准。该模型包括:① 对原始MRI脑图谱进行标准预处理操作。② 构建CNN提取局部特征和Transformer提取全局特征的基础配准网络。③ 使用困难形变感知机提取复杂形变区域,采用多阶层方法级联多个基础配准网络,渐进优化不同尺度的配准结果,解决图像配准中的复杂形变问题。综上所述,课题组期望本文提出的方法可以渐进优化配准结果,提升图像的配准精度,今后能够帮助医生在临床诊断中做出更加准确的判断。

1. 方法

1.1. 总体架构

局部是整体的一部分,在计算机视觉领域,整体图像可以看作由多个局部图像组成,局部图像质量的提升可以提高整体图像的质量。对齐较好的区域受参考图像的限制,即使再优化也很难带来整体配准性能的显著提升,相反,对齐较差的区域可优化空间较大,进行再优化可以显著提高整体配准性能。基于Transformer的级联多阶层配准网络模型采用一种基于困难形变系数(difficult deformation coefficient,DDC)的困难形变感知机筛选图像中对齐较差的区域,以分阶层的方式优化不同尺度的对齐较差区域。此模型中对齐较差的区域是相对于图像中其他局部区域而言的,在本文中也被称为困难形变区域,当整体配准结果较好时,多阶层配准网络依然可以选择图像的最困难形变区域进行优化。该模型的总体架构如图1所示。

图 1.

图 1

Cascaded multi-level registration network model

级联多阶层配准网络模型

级联多阶层配准网络模型拥有三个阶层子网络和一个形变场融合模块。每个阶层子网络的基础配准网络的结构相同,输入为待配准图像对,输出为形变场。在前两个阶层子网络中,基础配准网络生成的形变场首先会输入空间转换网络生成配准后的图像,随该图像和参考图像一起输入困难形变感知机筛选出困难形变区域,该区域将输入下一阶层子网络进行精细配准。最终,多个阶层子网络生成的不同尺度的形变场经嵌入融合后生成最终的形变场φ。级联多阶层配准网络模型的初始输入是图像尺度为Inline graphic的待配准图像对,按照整体到局部的原则,第一阶层子网络应筛选大尺寸的困难形变区域,其图像尺度设置为Inline graphic,第二阶层子网络应筛选小尺寸的困难形变区域,便于第三阶层子网络对图像细节进行调整,所以该阶层筛选的图像尺度设置为Inline graphic

在形变场融合模块,多个阶层子网络生成的形变场根据困难形变感知机记录的空间位置进行嵌入融合。为了将全局和局部形变场合成为一个形变场,嵌入融合使用组合的方法,首先从所有生成的形变场中选取尺度较小的两个形变场,两个形变场中尺度大的形变场作为本次计算的全局形变场,再使用复合恶魔(Demons)算法扭曲全局和局部形变场得到计算结果,并根据记录的空间位置将该结果和局部形变场相加[14]得到计算结果,该结果将和其他形变场以迭代的方式执行上述操作得到φ

1.2. 基础配准网络

Transformer可以有效提取全局信息,但其计算成本高昂,如果其直接应用于高分辨率的三维(three-dimensional,3D)医学图像,会存在显存爆炸问题导致模型无法训练,目前主流的方法是使用重采样减小图像尺寸从而降低模型整体计算成本。虽然重采样方法降低了模型计算成本,但这一方法存在局部信息丢失问题,而CNN拥有很强的局部信息提取能力并且计算成本较低,可以应用于高分辨率图像,很好地弥补了Transformer的缺陷。基础配准网络将CNN应用于高分辨率特征图提取图像的局部特征,Transformer应用于低分辨率特征图提取图像的全局特征,并在形变场生成前,额外添加参考图像的特征,增强网络对图像间差异的理解能力。

基础配准网络分为三个模块:CNN编码器-解码器、Transformer编码器-解码器和特征指导模块,如图2所示。

图 2.

图 2

Basic registration network

基础配准网络

1.2.1. CNN编码器-解码器

在高分辨率特征处理阶段,卷积操作可以更好地学习图像的局部特征关系。CNN编码器-解码器左侧为编码器,右侧为解码器,假设输入图像尺寸为Inline graphic,编码器和解码器均使用4个卷积核尺寸为3的3D卷积层提取图像局部特征,改变特征图尺寸和通道数。解码器中经上采样的特征图通过跳跃连接与编码器输出的特征图级联,跳跃连接会跳跃神经网络中的某些层,并将一层的输出作为下一层的输入,能够帮助网络获得更加精细的细节特征,同时可以解决模型训练过程中的梯度消失问题。每个卷积层之后都有一个整流线性单元(rectified linear units,ReLU)激活函数,ReLU 是一个分段线性函数,能够帮助网络更好地挖掘特征关系,拟合训练数据。

1.2.2. Transformer编码器-解码器

在低分辨率特征处理阶段,网络使用Transformer学习网络学习图像的全局特征关系。Transformer编码器-解码器首先使用一个卷积层将特征图尺寸变为Inline graphic(其中C为设置的通道数),随后该特征图输入由Transformer模块、图像块合并层、转置卷积层串联的V型结构,并将相同分辨率级别的特征图跳跃连接。Transformer模块不改变特征图的尺寸,使用基于体积的多头自注意力机制(volume-based multi-headedself-attention,V-MSA)进行特征提取,V-MSA通过计算查询-键-值向量学习输入序列间的相关性 [15-16]。图像块合并层用于图像下采样操作,它连接8个相邻位置的图像块向量,并应用一个线性层产生2倍通道数的输出,经过上述操作特征图尺寸减半,通道数翻倍[10]。转置卷积层的步长为2,用于将低分辨率特征图上采样映射成高分辨率特征图,相比于向上插值采样 + 卷积,转置卷积拥有更高的执行效率[17]

1.2.3. 特征指导模块

在特征指导模块部分,参考图像的特征可以更好地指导复杂网络学习图像映射关系,首先使用一个步长为1的转置卷积层用来消除转置卷积核大小为奇数可能带来的网格棋盘效应,并用一个卷积层单独提取参考图像特征,随后使用一个卷积层融合来自参考图像和CNN解码器的特征图,最后使用一个卷积层将特征映射为形变场。

1.3. 困难形变感知机

图像中困难形变区域是影响整体配准结果的主要原因,为了筛选图像中困难形变区域,本文提出了一种基于DDC的困难形变感知机,将其作为多阶层方法的桥接装置。由于无法通过形变场直接衡量困难形变程度,该模块采用滑动窗口和浮动窗口扫描图像,计算并比较DDC的大小以筛选困难形变区域。图像中相似度较低的区域往往也是对齐效果较差的区域,DDC的计算基于局部图像块的均方误差(mean square error,MSE)评分[18],该系数[式(1)中,以符号DDC(·)表示]衡量了图像中所有体素点的平均困难形变程度,其数值越大,则感知机认为该区域图像差异越大、越难形变对齐。具有较大解剖差异的图像块很难对齐,应尽量选取器官结构信息丰富的图像块,为了使感知机聚焦有更多前景体素的有价值区域,滑动窗口会统计当前窗口的前景体素数,并除以当前窗口中的体素总数得到前景比重,用常量加上该比重作为MSE评分[式(2)中,以符号MSE(·)表示]的权重系数,其定义如式(1)和式(2)所示:

1.3. 1
1.3. 2

其中,Inline graphic代表FLML所有体素点的DDC,Inline graphic代表FLML所有体素点的MSE评分,FL为参考图像的局部图像块,ML为已配准图像的局部图像块,N为图像体素总数,NF为前景体素数,p为体素位置,Inline graphic为图像域。

感知机会自动记录已扫描过图像块的DCC最大值以及其在图像中的位置信息,当窗口扫描到其他图像块时,会比较其系数大小,若当前图像块的DDC大于已记录的最大值,则会更新该最大值和窗口位置信息,最终选取该系数值最大的区域作当前图像的最困难形变区域输入下一阶层子网络。窗口的尺寸是预先设定的,当图像中存在多个不同区域大小的复杂形变区域时,相较于大区域,小区域对窗口DDC的影响较弱,同时,DDC代表了局部区域的困难形变程度,感知机会根据该系数选择当前图像中的困难形变程度最大的区域。若使用步长为1滑动窗口遍历整幅图像,其计算代价较为高昂,为了减小计算量,感知机采用滑动窗口和浮动窗口结合的方式,分两个阶段对图像进行扫描检查。困难形变感知机工作原理如图3所示。

图 3.

图 3

The working principle of the difficult deformation perceptron

困难形变感知机工作原理图

第一阶段为滑动遍历阶段,该阶段目标是选取配准对齐较差的区域,通过一个3D滑动窗口遍历整幅图并计算DDC,遍历完成后,记录第一阶段该系数的最大值以及图像块的位置信息。本阶段滑动窗口的步长设置为5,图3中蓝色实线立方体表示本阶段遍历检测的滑动窗口示例,红色实线立方体表示本阶段的选中窗口。

第二阶段为空间浮动阶段,该阶段目标是检查记录图像块周围区域的困难形变程度,得到最困难形变区域及其位置信息。在第一阶段记录的空间位置处,浮动窗口以滑动遍历阶段记录的图像块为基准进行浮动检查,沿每个坐标轴有3种图像块偏移选择,即可选择沿坐标轴正方向或负方向分别偏移浮动步长的体素点位,或者选择不偏移,3D坐标系排列共计27个方向(包括三个坐标系均不偏移的情况,图3中仅展示4个方向)的空间浮动,空间浮动完成后,感知机会更新DDC的最大值以及图像块的位置信息。之后减小步长并重复上述操作,两次浮动的步长依次设置为3和1。图3中的深红色实线立方体为本阶段选中的最终窗口,橙色、蓝色、绿色虚线立方体分别表示仅沿Y轴正方向、仅沿X轴负方向、仅沿Z轴正方向偏移浮动步长的浮动窗口示例。

在本文的方法中,滑动窗口和浮动窗口的尺寸是可变的,但由于Tansformer配准网络在处理图像时须最小采样到原图像尺寸的Inline graphic,计算过程需要线性投影对图像进行分块处理[9],这要求筛选的图像尺寸必须是32的倍数。按照多阶层配准网络模型的结构设计,第一阶层感知机的窗口尺寸设置为Inline graphic,第二阶层感知机的窗口尺寸设置为Inline graphic

1.4. 空间变换网络

为了获取经过形变场变形的图像,采用STN对待配准图像进行空间变换,STN是一个支持反向传播的可微分模块,它根据基础配准网络提供的形变场φ对输入图像进行空间扭曲。对于待配准图像M的每一个体素p,其扭曲后的体素p'计算公式为Inline graphicu(p)为p的空间位移。p'的大小不一定是整数,但图像中的体素必须在整数位置处定义,为解决此问题,本文使用适合3D图像的三线性插值法对体素点进行重新计算。进行体素变换的公式如式(3)所示:

1.4. 3

其中,q表示选定的体素点,Inline graphic表示p'相邻位置体素,d为选定的迭代方向,xyz分别表示3D坐标系的三个迭代方向,I(·)表示已选定的三线性插值方法。

1.5. 损失函数

无监督学习的方法无需在损失函数中提供标签信息,在训练过程中直接通过最小化损失函数即可得到最优形变场。本模型的损失函数由两部分组成:一部分使用图像相似损失项,减小图像间差异;另一部分使用扩散正则化对形变场进行平滑性约束[4]。模型的总体损失函数如式(4)所示:

1.5. 4

其中,Inline graphic为模型的总体损失函数,F表示参考图像,M表示待配准的图像,Inline graphic使用MSE度量图像的线性相似度,λ1是为该项的权重系数,其大小通常设置为1。Inline graphic是保持φ平滑的正则化项,λ2为该项的权重系数。总体损失函数优化的主要目标为减小图像间差异,正则化项对总体损失函数的贡献应显著小于图像相似损失项。对于脑部MRI配准,Balakrishnan等[3]的研究中报告该权重系数设置为0.02是最佳值,因此本文中正则化权重系数λ2大小设置为0.02。Inline graphic的定义如式(5)所示:

1.5. 5

由于最小化Inline graphic可能会导致网络生成一个不平滑的φ,所以本文使用扩散正则化平滑φInline graphic的定义如式(6)所示:

1.5. 6

其中,Δu(p)表示φp的空间位移的前向差分,差分结果反映了离散位移值之间的变化,形变场中可能会存异常值,相比于后向差分,前向差分更能鼓励某一点的位移值相似于其相邻位置的值,Δu(p)的定义如式(7)所示:

1.5. 7

2. 实验

2.1. 数据集

本文所使用数据集,包括:神经影像学实验室的洛尼概率脑图谱(Loniprobabilistic brain atlas 40,LPBA40),该图谱来自公开数据库阿尔茨海默病神经影像学倡议(Alzheimer’s disease neuroimaging initiative,ADNI)(网址为:https://ida.loni.usc.edu/[19];青年、中年、非痴呆老年和痴呆老年受试者的横断面 MRI影像数据集,来自公开数据库开放获取影像研究系列(open access series of imaging studie-1,OASIS-1)(网址为:https://www.oasis-brains.org/[20]。LPBA40包含40个受试者的纵向弛豫时间加权MRI脑图像和分割图,其分割图标注了大脑56个解剖结构(不包括小脑和脑干)。OASIS-1包含414个受试者的纵向弛豫时间加权MRI脑图像和分割图,其分割图标注大脑35个主要解剖结构,包括大脑皮质、灰质、白质和脑脊液等。

使用MRI图像处理开源软件Freesurfer(v7.1.0,MIT Health HST,美国)对数据集进行颅骨去除、仿射对齐、图像归一化、图像裁剪等标准预处理操作[21],图像裁剪后大小为Inline graphic。LPBA40数据集通过不重复的两两配对生成760个待配准图像组,OASIS-1数据集随机配对生成600个待配准图像组。两个数据集的训练集、验证集和测试集均按照7∶1∶2的比例分配。

2.2. 实验配置

对比方法采用对称归一化(symmetric normalization,SYN)[22]、CM、VM和TM。在14种典型非线性形变算法中,SYN是性能最好的配准算法之一[23],同时它是一种基于迭代的传统配准算法,本文使用高级归一化工具软件包实现[24],实验中每个级别的最大迭代次数分别设置为160、80、40。CM是使用循环一致性的多尺度配准模型,超参数αβλ分别对应其损失函数中循环损失、身份损失和形变场正则化的权重,本文使用Kim等[6]报告的最佳值,超参数αβλ分别设置为0.1、0.5和1。VM是一种目前较为流行的无监督可形变配准方法,使用CNN预测形变场,本文使用该方法的2号变体进行对比实验[4]。TM是在Transformer基础上开发的一种无监督配准网络,对于脑部MRI配准,本文使用其推荐的默认参数设置。

级联多阶层配准网络模型的神经元丢弃率设置为0.3,通道数C设置为64,训练的批尺寸设置为1,初始学习率为1 × 10−4,学习率衰减策略采用衰减率为0.9的指数衰减策略,训练迭代次数设置为250,优化器为自适应矩估计(adaptive moment estimation,Adam)优化器。本文采用数据集提供的分割图来评估各个配准方法的效果。

本文方法训练模型的实验设备配置如下:深度学习框架(PyTorch 1.8.0,FAIR,美国) [25],独立显卡(Nvidia Geforce RTX 3090,Nvidia,美国),处理器(IntelCore i9-10900K CPU@3.70GHz,Intel,美国)。

2.3. 评估指标

本文采用戴斯相似系数(Dice similarity coefficient,DSC)计算分割图的相似度[26],DSC量化了分割图中解剖结构之间的体积重叠程度,DSC值越高,说明图像重叠程度越高,配准性能越好。DSC[式(8)中,以符号DSC(·)表示]的定义如式(8)所示:

2.3. 8

其中,Inline graphic表示SFSM的DSC,SF表示参考分割图,SM表示配准后的分割图,SFSM表示两分割图样本的交集。

同时,使用负雅可比行列式(negative Jacobian determinant,NJD)对预测的形变场进行平滑度评价[27],NJD系数[式(9)中,以符号NJD(·)表示]越接近0时,形变场的平均折叠程度越小,形变场越平滑。对于φ中每个p,NJD系数的定义如式(9)所示:

2.3. 9

其中,Inline graphic表示φp处的NJD系数, ijz分别表示3D坐标系中pInline graphicInline graphicInline graphic三个方向的坐标。

在图像的相似性评估上,使用三个指标对图像的相似性进行评价,这些指标分别是均方误差平方根(root mean square error,RMSE)[18]、结构相似性(structural similarity,SSIM)[28]、互信息(mutual information,MI)[29]。若图像的RMSE越高、SSIM和MI越低,代表图像相似性越差。对于FM,RMSE[式(10)中,以符号RMSE(·)表示]的定义如式(10)所示:

2.3. 10

其中,Inline graphic表示FM的RMSE值,用来衡量图像的标准误差。

SSIM[式(11)中,以符号SSIM(·)表示]的具体计算过程如式(11)~式(14)所示:

2.3. 11
2.3. 12
2.3. 13
2.3. 14

其中,Inline graphic主要关注FM的边缘和纹理的结构相似性,以衡量图像的相似程度,Inline graphicInline graphicInline graphic分别代表亮度比较、对比度比较和结构比较。μFμM代表FM的平均值,σFσM代表FM的标准差,σFM代表FM的协方差,c1c2c3为非零常数,避免分母为零带来的系统错误,abc均设置为1。

MI[式(15)中,以符号MI(·)表示]的定义如式(15)所示:

2.3. 15

其中,Inline graphic表示图像FM相互包含的信息量,图像匹配程度越高该值越大,Inline graphicFM的联合概率密度函数,Inline graphicInline graphic为分别表示FM的边缘概率密度函数。

2.4. 结果分析

2.4.1. 配准精度

本研究量化了实验中所有方法在两个数据集上的平均DSC和NJD系数,结果如表1所示。根据表1结果,本文方法在两个数据集上的平均DSC均高于对比方法,提供了更好的图像配准质量,同时生成形变场NJD系数在LPBA40数据集上低于对比方法,在OASIS-1数据集上略高于对比方法。如图4所示,举例说明了所有方法的可视化配准结果,包括图像的细节放大图、分割图(包括四个解剖结构皮质、灰质、白质和脑脊液的分割结果)和分割细节,本文使用的方法生成的扭曲图像和分割图在外观上更加接近于原始参考图像及其分割图。解剖结构的箱线图计算了所有方法在OASIS-1数据集上的各个解剖标签的平均DSC,其中左脑和右脑中的相同解剖结构被合并成一个结构进行计算,具体结果如图5所示,纵坐标为DSC,横坐标为解剖结构类别。统计结果显示,本文提出的方法取得了最好的配准效果。

表 1. Comparison of registration results of different methods.

不同方法的配准结果比较

方法 LPBA40 OASIS-1
DSC NJD(%) DSC NJD(%)
原始图像 0.538 ± 0.050 0.576 ± 0.065
SYN 0.687 ± 0.025 < 0.000001 0.768 ± 0.033 0.000156
CM 0.668 ± 0.046 0.060 322 0.779 ± 0.034 0.424 978
VM 0.660 ± 0.044 0.042571 0.791 ± 0.027 0.294273
TM 0.673 ± 0.047 0.040855 0.804 ± 0.024 0.278083
本文方法 0.689 ± 0.048 0.036250 0.812 ± 0.023 0.299963
图 4.

图 4

Visual examples of registration results for different methods

不同方法的配准结果的可视化示例

图 5.

图 5

Boxplots of anatomical structures grouped

解剖结构分组绘制的箱线图

2.4.2. 阶层对比

本文方法设置的阶层数为3,理论上,阶层数的设置是任意的,为了验证多阶层的方法可以实现对形变场的逐步优化,本研究尝试使用更多阶层进行实验,但由于本文的基础配准网络对图像尺寸存在限制(必须为32的倍数),同时第一阶层子网络已经筛选了大尺寸的困难形变区域,导致本研究仅能在第二阶层和第三阶层子网络中间增加图像尺度为Inline graphic的阶层子网络,因此,本研究使用4阶层子网络进行实验,对训练好的最佳预训练模型进行微调训练,对比了使用不同阶层数子网络生成的形变场扭曲分割图的平均DSC,如表2所示,可以发现随着阶层的增多,平均DSC在不断提高,证明多阶层方法可以实现对图像的渐进优化配准,提升配准效果。如图6所示,对不同阶层子网络关注的困难形变区域及该区域的配准结果和形变场进行可视化展示,实线框出的区域代表当前阶层子网络筛选的困难形变区域,不同阶层由不同颜色的实线框进行标注。

表 2. Comparison of registration results using different levels of deformation fields.

不同阶层数形变场的配准结果比较

阶层数 LPBA40 OASIS-1
DSC DSC
第一阶层 0.685 ± 0.045 0.799 ± 0.024
第二阶层 0.688 ± 0.048 0.811 ± 0.023
第三阶层 0.689 ± 0.050 0.813 ± 0.024
第四阶层 0.690 ± 0.050 0.814 ± 0.026
图 6.

图 6

Comparative examples of regions of interest concerned by different levels

不同阶层关注的感兴趣区域对比示例图

2.4.3. 感兴趣区域识别

困难形变感知机的识别结果直接影响了后续阶层能否关注到图像中有价值信息的区域,但形变场的评价指标没有金标准,无法直接判断所选区域的复杂性,因此本研究使用OASIS-1测试集进行实验,对第一阶层子网络中感知机识别前后的图像进行相似度评估,进而判断感知机能否识别图像的困难形变区域,对比结果如表3所示,其中全局图像代表已配准图像对,局部图像代表经过识别后困难形变区域。参数结果显示,局部图像的结构相似度更差,互相包含的信息量低于全局图像,证明该感知机可以识别困难形变区域。

表 3. Image similarity comparison results.

图像相似性对比结果

图像类型 RMSE SSIM MI
全局图像 0.025 415 0.918 959 0.764 806
局部图像 0.045 127 0.811 169 0.686 444

3. 结论

本文介绍了一种基于Transformer的级联多阶层医学影像配准方法。该方法首先基于Transformer构建了基础配准网络,有效地融合图像的全局信息和局部信息,同时配备了一种基于DDC的困难形变感知机,可以识别并裁剪图像的感兴趣区域。然后以困难形变感知机为桥接方法,级联了三个包含基础配准网络的阶层子网络,并且采用嵌入融合的方式生成形变场,构建了基于Transformer的级联多阶层配准网络模型。实验结果表明,与当前流行的无监督配准方法相比,本文方法可以渐进地优化配准结果,解决图像的复杂形变问题,提升配准精度,帮助医生做出更准确的临床诊断,促进计算机辅助医疗技术的发展。但目前本文的方法只适用于单模态图像配准,在后续工作中会考虑将该方法扩展到多模态图像配准。

重要声明

利益冲突声明:本文全体作者均声明不存在利益冲突。

作者贡献声明:潘英杰负责本研究的算法设计、程序编写、实验数据处理和论文撰写;程远志是本研究的负责人,指导实验设计和论文写作,提出修改意见;刘豪和史操负责论文修改和数据分析。

Funding Statement

国家自然科学基金资助项目(61806107,61702135)

National Natural Science Foundation of China

References

  • 1.Haskins G, Kruger U, Yan Pingkun. Deep learning in medical image registration: a survey. arXiv: 1903.02026, 2020. https://doi.org/10.48550/arXiv.1903.02026.
  • 2.Jaderberg M, Simonyan K, Zisserman A, et al. Spatial transformer networks//the 28th International Conference on Neural Information Processing Systems-Volume 2 (NIPS), 2015. https://doi.org/10.48550/arXiv.1506.02025.
  • 3.Balakrishnan G, Zhao A, Sabuncu M R, et al. An unsupervised learning model for deformable medical image registration//Proceedings of the IEEE conference on computer vision and pattern recognition(CVPR). 2018. https://doi.org/10.48550/arXiv.1802.02604.
  • 4.Ronneberger O, Fischer P, Brox T. U-net: convolutional networks for biomedical image segmentation//International Conference on Medical image computing and computer-assisted intervention(MICCAI), Cham: Springer, 2015: 234-241.
  • 5.Zhao Shengyu, Dong Yue, Chang E I, et al. Recursive cascaded networks for unsupervised medical image registration//Proceedings of the IEEE/CVF International Conference on Computer Vision(ICCV). 2019: 10600-10610. https://doi.org/10.48550/arXiv.1907.12353.
  • 6.Kim B, Kim D H, Park S H, et al CycleMorph: cycle consistent unsupervised deformable image registration. Med Image Anal. 2021;71:102036. doi: 10.1016/j.media.2021.102036. [DOI] [PubMed] [Google Scholar]
  • 7.Huang Y, Ahmad S, Fan J, et al Difficulty-aware hierarchical convolutional neural networks for deformable registration of brain MR images. Med Image Anal. 2021;67:101817. doi: 10.1016/j.media.2020.101817. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 8.Li Shaohua, Sui Xiuchao, Luo Xiangde, et al. Medical image segmentation using squeeze-and-expansion transformers. arXiv: 2105.09511, 2021. https://doi.org/10.48550/arXiv.2105.09511.
  • 9.Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16 × 16 words: transformers for image recognition at scale. arXiv: 2010.11929, 2020. https://doi.org/10.48550/arXiv.2010.11929.
  • 10.Liu Z, Lin Y, Cao Y, et al. Swin transformer: Hierarchical vision transformer using shifted windows//The IEEE/CVF International Conference on Computer Vision(ICCV). 2021: 10012-10022.
  • 11.Chen Junyu, He Yufan, Frey E C, et al. ViT-V-Net: vision transformer for unsupervised volumetric medical image registration. arXiv: 2104.06468, 2021. https://doi.org/10.48550/arXiv.2104.06468.
  • 12.Milletari F, Navab N, Ahmadi S A V-net: fully convolutional neural networks for volumetric medical image segmentation//2016 fourth international conference on 3D vision (3DV) IEEE. 2016:565–571. [Google Scholar]
  • 13.Chen Junyu, Du Yong, He Yufan, et al. TransMorph: Transformer for unsupervised medical image registration. arXiv: 2111.10480, 2021. https://doi.org/10.48550/arXiv.2111.10480.
  • 14.Vercauteren T, Pennec X, Perchant A, et al. Diffeomorphic demons: efficient non-parametric image registration. Neuroimage, 2009, 45(1 Suppl): S61-S72.
  • 15.Zhou H Y, Guo J, Zhang Y, et al. nnFormer: interleaved transformer for volumetric segmentation. arXiv: 2109.03201, 2021. https://doi.org/10.48550/arXiv.2109.03201.
  • 16.Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need// 31st Conference on Neural Information Processing Systems (NIPS 2017), Long Beach: NIPS, 2017: 6000-6010.
  • 17.Zeiler M D, Taylor G W, Fergus R Adaptive deconvolutional networks for mid and high level feature learning//2011 International Conference on Computer Vision (ICCV) Barcelona: IEEE. 2011:12491108. [Google Scholar]
  • 18.Allen D M Mean square error of prediction as a criterion for selecting variables. Technometrics. 1971;13(3):469–475. doi: 10.1080/00401706.1971.10488811. [DOI] [Google Scholar]
  • 19.Shattuck DW, Mirza M, Adisetiyo V, et al Construction of a 3D probabilistic atlas of human cortical structures. Neuroimage. 2008;39(3):1064–1080. doi: 10.1016/j.neuroimage.2007.09.031. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 20.Marcus DS, Wang TH, Parker J, et al Open Access Series of Imaging Studies (OASIS): cross-sectional MRI data in young, middle aged, nondemented, and demented older adults. J Cogn Neurosci. 2007;19(9):1498–1507. doi: 10.1162/jocn.2007.19.9.1498. [DOI] [PubMed] [Google Scholar]
  • 21.Fischl B FreeSurfer. NeuroImage. 2012;62(2):774–781. doi: 10.1016/j.neuroimage.2012.01.021. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 22.Avants B B, Epstein C L, Grossman M, et al Symmetric diffeomorphic image registration with cross-correlation: evaluating automated labeling of elderly and neurodegenerative brain. Med Image Anal. 2008;12(1):26–41. doi: 10.1016/j.media.2007.06.004. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 23.Klein A, Andersson J, Ardekani B A, et al Evaluation of 14 nonlinear deformation algorithms applied to human brain MRI registration. Neuroimage. 2009;46(3):786–802. doi: 10.1016/j.neuroimage.2008.12.037. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 24.Avants B B, Tustison N J, Song G, et al A reproducible evaluation of ANTs similarity metric performance in brain image registration. NeuroImage. 2011;54(3):2033–2044. doi: 10.1016/j.neuroimage.2010.09.025. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 25.Paszke A, Gross S, Massa F, et al. PyTorch: an imperative style, high-performance deep learning library// the 33rd International Conference on Neural Information Processing Systems (NeurIPS 2019), 2019. https://doi.org/10.48550/arXiv.1912.01703.
  • 26.Dice L R Measures of the amount of ecologic association between species. Ecology. 1945;26(3):297–302. doi: 10.2307/1932409. [DOI] [Google Scholar]
  • 27.Dacorogna B, Moser J On a partial differential equation involving the jacobian determinant. Annales de l'Institut Henri Poincaré C, Analyse non linéaire. 1990;7(1):1–26. [Google Scholar]
  • 28.Wang Shiqi, Rehman A, Wang Zhou, et al SSIM-motivated rate-distortion optimization for video coding. IEEE Transactions on Circuits and Systems for Video Technology. 2011;22(4):516–529. [Google Scholar]
  • 29.Viola P, Wells III W M. Alignment by maximization of mutual information//IEEE International Conference on Computer Vision, 1995: 16-23. DOI: 10.1109/ICCV.1995.466930.

Articles from Sheng Wu Yi Xue Gong Cheng Xue Za Zhi = Journal of Biomedical Engineering are provided here courtesy of West China Hospital of Sichuan University

RESOURCES