Skip to main content
Journal of Central South University Medical Sciences logoLink to Journal of Central South University Medical Sciences
. 2021 Aug 28;46(8):858–864. [Article in Chinese] doi: 10.11817/j.issn.1672-7347.2021.200744

基于深度学习的脑部MRI解剖结构的语义分割

Semantic image segmentation of brain MRI with deep learning

HU Yimin 1,2, ZHAO Huiping 2,, LI Wei 1, LI Jun 1
Editor: 彭 敏宁
PMCID: PMC10929963  PMID: 34565730

Abstract

Objective

Previous studies on brain MRI image segmentation, such as threshold method, boundary detection method, and region method did not achieve good performance in complex scenes. Based on the deep learning segmentation technology, this study constructed a neural network model by using the algorithm of atrous convolution combined with conditional random field (CRF) to segment the thalamus, caudate nucleus, and lenticular nucleus in brain MRI, which laid a good foundation for MRI diagnosis of brain diseases.

Methods

A total of 1 200 MRI-Flair images of the brain were randomly selected, and 3 anatomical structures of thalamus, caudate nucleus, and lenticular nucleus were manually labeled, of which 1 000 were used as training data sets and 200 were used as test data sets. The neural network model was established by using deep convolutional neural networks (DCNN) combined with CRF algorithm. The training data set was input into the model, and the parameterized neural network model was obtained after iteration for 30 000 times. The test data set was used to evaluate, test, and output the predicted image.

Results

The model optimization results showed that the new brain MRI segmentation model DeepXAG had the highest accuracy. Therefore, DeepXAG was selected as the segmentation algorithm. The mean intersection over union (mIOU) of the DeepXAG model was 72.3%, which was significantly higher than other classical segmentation algorithms (CRF-RNN1, FCN-8s2, DPN3, RefineNet4, and PSPNet5).

Conclusion

The DeepXAG algorithm has good accuracy and robustness in segmenting the anatomical structure of brain MRI images.

Keywords: semantic image segmentation, neural network, atrous convolution, conditional random field


随着计算机技术和医学影像技术的不断发展,医学影像已经成为医生进行病情分析和诊断的重要依据。然而,医学影像诊断工作量大,具有极高的专业性并且易受医生主观判断影响,漏诊和误诊现象经常发生。随着人工智能的发展,神经网络与医疗诊断结合成为研究热点,智能医疗研究逐渐成熟[1-2]。其在医疗影像方面的应用,不但节省了大量的人力物力,而且凭借其精准的诊断结果,降低了临床影像的误诊率。本研究基于图像语义分割技术,就深度卷积神经网络(deep convolutional neural network,DCNN)和概率图模型条件随机场(dense conditional random field,DenseCRFs)的算法展开讨论,并深入研究空洞卷积算法结合条件随机场(conditional random field,CRF)算法[1, 3]在脑部MRI解剖结构分割方面的应用。

1. 资料与方法

1.1. 数据来源

收集2015年1月至2019年3月北京市垂杨柳医院1 200位受试者的MRI数据,其中430人为脑梗死患者,541人患有各种类型的器质性病变,229人为正常受试者,图像筛选流程如图1。入选人群年龄14~93(43.08±11.93)岁,其中女526人(43.83%)。从每位受试者MRI中选取解剖相邻的2张经基底节区的横断面T2 Flair序列,共2 400张,入选的图像均包括尾状核、豆状核和丘脑3种解剖结构。受试者均采用美国GE公司的SIGNA Pioneer 3.0T磁共振设备,所有数据均不涉及受试者的隐私。

图1.

图1

受试人群MRI图像筛选流程

Figure 1 Screening process of MRI images of subjects

1.2. 软件硬件环境

软件环境:系统版本为Windows10专业版,深度学习训练环境为CUDA9.0、Cudnn7.0,深度学习框架为Python3.6.6、TensorFlow-gpu1.9.0、Keras2.2.4,编程环境为Eclipse Oxygen3。

硬件环境:CPU型号为E1230V3,16G内存,GeForce1080ti-11G显卡。

1.3. 图像预处理

入选的MRI均为横断面T2 Flair序列,重复时间(time of repetition,TR)8 600 ms,回波时间(time of echo,TE)165 ms,反转恢复序列(inversion recovery,IR)2 250 ms,像素512×512 px,分辨率 96 dpi,位深度24 bit。由1位神经内科医师和3位放射科医师分别对图像中的尾状核、豆状核和丘脑3种解剖结构进行标记,并配对相互核对、校正标记结果。采用Labelme软件做像素级别的标记,标记后的图像像素为512×512 px,8 bit灰度png图像,其中尾状核、豆状核、丘脑、背景的灰度值分别为1、2、3、0。

1.4. 模型设计

1.4.1. 总体架构

总体架构由3部分组成,分别是DCNN骨架模块、多尺度语义捕捉模块和局部结构优化模块,如图2。其采用类似U-Net[4]的编码器-解码器结构(encoder-decoder structure),结合DCNN和DenseCRFs的方法,是一种用于控制信号抽取和学习多尺度语境特征的架构。解码器部分将信息编码为压缩向量,其作用是将这个信号重建为期望的输出向量。

图2.

图2

模型总体架构图

Figure 2 Overall architecture of the model

1.4.2. 模型组合及优化

DCNN骨架模块的候选结构包括VGG-16、ResNet-101和Xception,多尺度语义捕捉模块的候选结构包括LargeFOV和空洞空间金字塔池化(atrous spatial pyramid pooling,ASPP),局部结构优化模块的候选结构包括全连接随机场(fully connected CRF,FCCRF)和高斯条件随机场(Gaussian conditional random fields,GCRF)。首先通过比较VGG-16、ResNet-101和Xception 3种深度神经网络的分割精度及每步耗时,选择综合表现良好者为DCNN骨架;然后将确定的DCNN骨架模块与候选的多尺度语义捕捉模块、局部结构优化模块组合;最后比较不同组合的精度及每步耗时。

1.4.3. 空洞卷积设计应用

空洞卷积(或者扩张卷积)[5]是具有一个因子的常规卷积,这个因子使得神经网络能够扩展滤波器的视野,控制计算特征响应的分辨率。此外,空洞卷积在不增加参数数量或计算量的情况下增加了更大范围的语境信息。本研究中的神经网络模型应用了大量的不同扩张率的卷积操作。

1.4.4. Xception结构

Xception是DCNN架构的扩展,它用带有残差连接(ResNet)的深度可分离的卷积线性堆叠代替了标准的卷积模块[5],如图3。本研究模型使用的Xception结构将残差连接放进每一个模组中,创造出一种Inception-ResNet混合结构,从而展现了经过良好设计的嵌套网络架构的能力,使神经网络的表征能力更强。

图3.

图3

Xception 结构图

Figure 3 Architecture of Xception A: Input layer; B: Intermediate circulating layer; C: Output layer.

1.4.5. ASPP结构

ASPP使用不同扩张率的卷积对任意尺度的区域进行分类[5]。ASPP添加了一系列具有不同扩张率的空洞卷积。这些扩张率是被设计用来捕捉大范围语境的。本模型的ASPP结构包含4个并行的操作。它们分别是1个1×1的卷积及3个3×3的卷积,后3个卷积的扩张率分别是6,12,18,如图4。此外,为了添加更多全局语境信息,ASPP还通过全局平均池化(global average pooling,GAP)来整合图像特征。首先,它将GAP应用于最后1个空洞块输出的特征上;然后,所得特征被输入到1个具有256个滤波器的1×1卷积中;最后,将结果进行双线性采样,直至获得正确的维度。

图4.

图4

ASPP结构图

Figure 4 Architecture of ASPP

1.4.6. GCRF

DCNN可以预测整张MRI是否存在相关结构,以及该解剖结构出现的大致位置,但不能真正描绘它们的边界。我们使用GCRF来恢复局部结构的细节[6],将DCNN的识别能力和GCRF优化的定位精度耦合在一起,成功地处理了解剖定位问题,生成了精确的语义分割结果,在一个详细的层级上恢复了物体边界。

1.5. 模型初始化

在将训练数据集输入神经网络模型之前,我们直接将一个VOC2012数据集的预训练权重加载为Xception-65骨架(backbone)的权重。由于VOC2012预训练权重是一个包含21类语义分割的分类,因此在实际训练时不加载该权重的logit层。

1.6. 模型训练

将MRI数据集分为训练、测试、验证集,并制作相应的指引文件。根据指引文件将MRI数据集打包成TFRecord格式,并注册数据集。设置训练参数,学习率设置为0.000 1,单次批量训练数据设置为2,训练步数设置为50 000次。神经网络在Python3.6.6环境下应用TensorFlow-gpu1.9.0进行编译,运行于Windows10、CUDA9.0软件环境。利用GeForce1080ti显卡对神经网络进行训练、评估及测试。

1.7. 评估方法

在测试阶段,使用200个测试病例对模型进行评估。我们使用均交并比(mean intersection over union,mIOU)作为MRI语义分割的评估指标。mIOU是语义分割精确度的标准度量方法,可用于评估DeepXAG模型与CRF-RNN[7]、FCN-8s[8]、DPN[9]、RefineNet[10]、PSPNet[11]等语义分割方法的准确性。

1.8. 评估算法的鲁棒性

由于受试者患有各种类型的器质性病变,头颅MRI形态和大小各不相同,个体间差异明显,因此评价算法的鲁棒性十分必要。本研究采用DeepXAG模型对来自1 200名患者的共计2 400张MRI进行逐一处理,计算每次处理时间、mIOU值,以及程序运行的稳定性,评估模型的鲁棒性。

1.9. 统计学处理

采用SPSS 18.0统计学软件对数据进行分析,计量资料以均数±标准差( x¯ ±s)表示,2组比较采用t检验;计数资料以率表示,2组比较采用χ2检验,P<0.05为差异有统计学意义。

2. 结 果

2.1. DeepXAG算法优化过程

DCNN骨架模块的Xception的mIOU值明显高于VGG-16和ResNet-101,同时Xception的每步耗时最少,因此我们选择Xception作为DCNN骨架结构。在微调多尺度语义捕捉和局部边界结构的过程中,DeepXAG模型的精确度最高,而DeepXLF模型的性能最佳(表1),综合衡量后我们选用精确度最高的DeepXAG模型。

表1.

DeepXAG模型算法优化设计及微调过程

Table 1 Optimal design and fine tuning of DeepXAG model

模型 DCNN骨架模块 多尺度语义捕捉模块 局部结构优化模块 mIOU/% 每步耗时/s
VGG-16 ResNet-101 Xception LargeFOV ASPP FCCRF GCRF
预设模型A 60.66±1.50* 7.61±0.43
预设模型B 62.99±1.76* 8.23±0.54*
预设模型C 64.68±1.24 6.50±0.27
DeepXLF模型 70.82±1.95 8.25±0.63
DeepXLG模型 71.12±1.45 8.48±0.55
DeepXAF模型 71.86±1.59 8.57±0.49
DeepXAG模型 72.30±1.57 8.74±0.52

√表示选用该模块。与预设模型C比较,*P<0.05。

2.2. 可视化分割结果

分割算法DeepXAG模型与其他经典分割算法(CRF-RNN、FCN-8s、DPN、RefineNet及PSPNet)的可视化分割结果如图5所示,6种算法均能较好地从脑部MRI中分割出尾状核、豆状核和丘脑3种解剖结构。

图5.

图5

DeepXAG模型与其他经典分割算法的可视化分割结果

Figure 5 Visualization results of the DeepXAG and other classic models A: Nornal subject; B, C: Patients with subcortical white matter infarction. Red represents caudate nucleus, green represents lenticular nucleus, and yellow represents thalamus.

2.3. 鲁棒性

在试验过程中,2 400张MRI均得到了正确处理,处理时间在8.57~9.72 s之间,mIOU值在67.62%~77.63%之间,程序运行稳定,说明DeepxAG模型具有较强的鲁棒性。

原始标记图 CRF-RNN FCN-8s DPN RefineNet PSPNet DeepXAG

2.4. 算法分割精确度比较

通过对200例受试者MRI进行分割测试,得出DeepXAG模型的mIOU为(72.3±1.57)%,明显高于CRF-RNN的(65.7±1.95)%,FCN-8s的(65.97±2.36)%,DPN的(68.43±1.71)%,RefineNet的(70.17±1.45)%,PSPNet的(70.33±1.96)%(均P<0.01)。

3. 讨 论

影像学解剖定位是影像学诊断的基础,本研究通过深度学习技术实现了脑部MRI的结构定位与分割,对人工智能实现解剖学定位描述有重要的意义,同时该算法对病变的分割也有很好的效果。

图像语义分割技术近年来发展迅速,Shelhamer等[8]提出了端到端的全卷积网络FCN-8s,Lin等[10]引入残余连接设计RefineNet,Zhao等[11]发明了金字塔场景解析网络PSPNet:极大地提高了图像语义分割的精度及准确性。本研究借鉴目前主流的图像分割技术提出了一种新的脑部MRI分割算法——DeepXAG模型,其可视化分割结果令人满意。其核心设计思想强调以下3个方面:1)兼顾DCNN的高特征分辨率和训练效率。为了获得更好性能的神经网络,网络层数不断增加,从16层的VGG到22层的GoogLeNet[12],再到101层的ResNet,更有上千层的DenseNet。虽然网络性能得到了提高,但随之而来的是效率问题。近年来,轻量化神经网络模型的出现使网络参数减少的同时,又不损失网络性能。本研究结果显示轻量化神经网络Xception的mIOU明显高于传统神经网络VGG-16和ResNet-101,而每步训练耗时明显低于ResNet-101。因此我们选择轻量化神经网络Xception作为DCNN的骨架结构。2)捕捉不同尺度下的解剖结构的语义信息。同一解剖结构在不同MRI切面的形态及尺度不一,造成单一标签对应多尺度语义状态。处理这个问题的标准方法是给深度神经网络提供这个图像的可重新缩放的版本,再合成特征或计算地图分值。但是该处理方式需要在所有DCNN层上提取输入图像的多尺度特征,直接影响DCNN的性能。为此我们采用计算效率更好的算法——ASPP算法[4],其使用不同采样率的多个并行的多孔卷积层来探测原图像,因此可以在多个尺度上捕捉物体。本研究结果显示DeepXAF模型的mIOU明显高于DeepXLF模型,DeepXAG模型的mIOU明显高于DeepXLG模型,体现了ASPP算法的优越性。3)优化局部解剖结构空间精度(边界)。物体分类器要求对空间变换具有不变性,内在地限制了DCNN的空间精度。我们采用CRF算法,合并从局部像素和边缘获得的低阶信息,以抓取局部解剖结构的细节。常用的构建层次依赖模型的CRF有全连接配对条件随机场(fully connected CRF,FCCRF)和GCRF。本研究使用Chandra等[6]提出的GCRF,计算效率更高,并且可以抓取精细的边缘细节,同时也适用于较长的依赖项。因此我们选择GCRF来重建边缘细节。

本研究选取的对象不仅包含正常受试者,也包括脑血管患者、老年痴呆患者、脑肿瘤患者等,研究对象间存在明显个体差异,但在测试过程中均得到了正确的分割,证明本研究的DeepXLG模型具有较强的鲁棒性。

DeepXLG模型对头部MRI-Flair序列的分割具有较高的精确度和效率。后续我们将加入更多的MRI序列进行分割,同时分割更多的局部结构,这将产生一个高维的大数据;而传统的算法可能导致维度灾难。为了进一步优化算法,我们正在调试一个高维大数据,以便更有效地学习稀疏线性模型的分布式算法。

利益冲突声明

作者声称无任何利益冲突。

原文网址

http://xbyxb.csu.edu.cn/xbwk/fileup/PDF/202108858.pdf

参考文献


Articles from Journal of Central South University Medical Sciences are provided here courtesy of Central South University

RESOURCES