Breast cancer lesion segmentation based on co-learning feature fusion and Transformer

Yuesong ZHAI; Zhili CHEN; Dan SHAO

doi:10.7507/1001-5515.202306063

. 2024 Apr 25;41(2):237–245. [Article in Chinese] doi: 10.7507/1001-5515.202306063

Show available content in

基于协同学习特征融合和转换器的乳腺癌病灶分割方法

Yuesong ZHAI ¹, Zhili CHEN ^1,^*, Dan SHAO ^2,^*

PMCID: PMC11058501 PMID: 38686403

Abstract

结合正电子发射断层扫描（PET）和计算机断层扫描（CT）的PET/CT成像技术是目前较先进的影像学检查手段，主要用于肿瘤筛查、良恶性鉴别诊断和分期分级。本文提出了一种基于PET/CT双模态图像的乳腺癌病灶分割方法，设计了一种双路U型网络框架，主要包括编码器模块、特征融合模块和解码器模块三个组成部分。其中，编码器模块使用传统的卷积进行单模态图像特征提取；特征融合模块采用协同学习特征融合技术，并使用转换器（Transformer）提取融合图的全局特征；解码器模块主要采用多层感知机以实现病灶分割。本文实验使用实际临床PET/CT数据评估算法的有效性，实验结果表明乳腺癌病灶分割的精确率、召回率和准确率分别达到95.67%、97.58%和96.16%，均优于基线算法。研究结果证明了本文实验设计的卷积与Transformer相结合的单、双模态特征提取方式的合理性，为多模态医学图像分割或分类等任务的特征提取方法提供参考。

Keywords: 正电子发射断层扫描和计算机断层扫描, 乳腺癌病灶分割, 双路U型网络, 协同学习特征融合, 转换器

0. 引言

乳腺癌发病率高，已严重威胁女性健康，根据2020年全球乳腺癌分析登记数据显示，新发乳腺癌患者超过226万人，死亡约68.5万人，在所有癌症患者中占比已高达11.7%^[1]。在我国，女性乳腺癌发病死亡人数每年持续上升，预计到2030年发病数和死亡数将分别增加36.27%和54.01%^[2-3]。尽管随着医疗诊断与治疗手段的不断进步，我国乳腺癌患者生存率已有所提升，但每年依然有众多患者深受乳腺癌折磨^[4]。

结合正电子发射断层扫描（positron emission tomography，PET）和计算机断层扫描（computed tomography，CT）的PET/CT技术，是一种解剖结构显像和功能显像结合的成像手段，其不仅可以显示病变的形态学特征，还可以报告病变的代谢信息。医生可根据PET/CT的结果调整乳腺癌患者的治疗方案进而提高患者生存率^[5]。PET成像需要给患者注射用正电子核素标记的葡萄糖类似物作为示踪剂，根据肿瘤的代谢特点，PET图像会显示出高代谢病变区域；但除肿瘤外，人体的高代谢器官也会大量吸收示踪剂，从而造成病灶区分困难。此外，PET图像分辨率较低，导致病灶边界模糊，也会影响医生的判断^[6]。CT是一种具有高分辨率的结构成像，但由于CT图像中各区域强度分布相似，难以区分病变组织与周围正常软组织。因此，结合PET功能代谢成像特点以及CT清晰的结构成像特点可以帮助医生对病患作出准确的诊断^[7-8]。

为了更好地利用PET/CT技术帮助医生诊治病患以减少人工识别影像可能产生的误差，目前已有大量研究将图像分割技术用于医学影像病灶分割任务。由于存在目标边界模糊和易受噪声干扰等局限，到目前为止，尚不存在一种普适完美的图像分割方法。近年来，随着图形处理器（graphics processing unit，GPU）算力的增长以及数据集的完善，基于深度学习的语义分割算法飞速发展，图像分割技术水平大幅提高，目标分割完整度和分割精度得到显著提升。Cruz-Roa等^[9]使用卷积神经网络（convolutional neural network，CNN）替代人工提取特征方法，使乳腺X线影像的病灶分类准确度明显提高。赵旭^[10]采用全卷积网络（fully convolutional network，FCN）对全视野的乳腺数据进行特征提取，减少了数据采样对小肿块检测结果的影响，提高了检测精确度。徐胜舟等^[11]设计的基于FCN迁移学习的乳腺肿块分割方法进一步验证了该算法的分割效果明显优于传统分割算法的结论。Al-antari等^[12]提出了一种深度网络模型——全分辨率CNN，它对大数据量乳腺X线影像进行分割，结果表明该模型在肿块分割方面优于传统的深度学习方法，可用来协助放射科医师诊断乳腺肿块。Ronneberger等^[13]提出的U型网络（U-Net），是使用FCN进行语义分割的主流算法之一，其设计的初衷是为了解决医学图像分割的问题，并在国际生物医学图像研讨会（International Symposium on Biomedical Imaging，ISBI）细胞跟踪挑战赛中获得多个第一名。之后，U-Net凭借其突出的分割效果而广泛应用于语义分割领域。Chen等^[14]提出的深度试验模型三加版本，作为该系列最后一版将原深度试验第三版模型当作编码器，再通过添加解码器得到全新的模型，并将空间特征金字塔结构与编码器、解码器结构相结合实现多尺度分割。Zhuang^[15]提出了一种多路径U-Net，以实现多模态数据的输入，为多模态分割任务提供参考。Kumar等^[16]提出了一种多模态特征融合算法用于实时分割PET/CT影像中的肺部结构、胸腔纵膈以及肿瘤，结果显示该算法最终戴斯（Dice）系数为0.82，真阳性率为0.84。Xiao等^[17]在U-Net中加入残差结构，设计出残差U-Net，用于视网膜血管分割任务。Guan等^[18]将密集连接加入到U-Net中，提出全连接密集U-Net，用于去除图像中的伪影。Isensee等^[19]提出的精简U-Net，不在U-Net基础上添加新的结构，而是在激活函数、批量正则化、数据处理等技术层面中进行改进，在很多任务中取得了不错的成绩。Chen等^[20]将转换器（Transformer）引入U-Net，提出了结合Transformer和U-Net的复合网络（Transformer+U-Net，TransUNet），在多器官分割和心脏分割等医学任务中表现出更好的分割效果。Jain等^[21]提出Transformer通用模型，这是第一个基于Transformer的多任务通用图像分割框架，在全景、语义以及实例分割上的联合训练效果优于其他单独训练的模型。

在自然语言任务上取得了前所未有的成功后，Transformer已成功地应用于各种计算机视觉问题并取得了可观的成果。随着Transformer的广泛应用，医学影像领域也开始关注并逐步尝试使用Transformer。与作用于局部感受野的CNN相比，Transformer的全局上下文建模能力对于医学图像的精准分割至关重要，因为通过构建空间像素之间的关系，可以对分布在大感受野上的器官进行有效的特征提取。近年来，在医学影像界基于Transformer的技术快速发展，尤其是视觉Transformer，其在医学图像分割、检测、分类、重建、合成、配准、临床报告生成和其他很多任务中都取得了不错的效果^[22]。

综上，为解决乳腺癌病灶精准分割的问题，本文综合考虑PET/CT双模态影像的成像特点，利用双模态数据的优势，使用实际临床PET/CT双模态影像数据，参考Kumar等^[16]提出的协同学习（collaborative learning，Co-learning）特征融合方法，同时参考Xie等^[23]提出的Transformer分割模型，提出一种融合PET/CT双模态影像特征的乳腺癌病灶分割方法。此方法在以CNN为特征提取核心的“编码器−特征融合−解码器”结构的基础上引入了Transformer。其目的在于结合了CNN的局部特征提取能力和Transformer的全局特征提取能力，在保留单模态图像病灶细节的同时获取融合特征的全局信息，能够更好地区分病灶与非病灶区域，解决单一使用CNN作为特征提取器所出现的感受野不足、全局特征关联性差而导致的误分割问题，进而提升乳腺癌病灶分割精度。

1. 本文算法

1.1. 网络结构

本文采用编码器、特征融合和解码器的网络结构，借鉴多路径U-Net的网络设计实现双模态数据的输入以及各自的特征提取功能^[15]，整体网络结构如图1所示。首先编码器模块分为两个分支，其一是PET编码器模块分支，另一个为CT编码器模块分支，每个分支以四个编码器块（encoder blcok）作为单模态图像特征提取器，图1中分别为encoder block1～4。随后每个encoder blcok提取的特征信息输入到特征融合模块进行双模态特征信息融合；特征融合模块由四个融合块（fusion block）和四个Transformer块（transformer block）组成，图1中分别为fusion block1～4和transformer block1～4；特征融合模块提取到的特征输入到由多层感知机（multi-layer perceptron，MLP）、1 × 1卷积、归一化指数函数（softmax）构成的解码器模块当中，实现从特征图到预测图的转换并得到最终的分割预测结果。其中MLP实现上采样（upsample）和特征图组合功能，1 × 1卷积实现降通道数功能，softmax预测属于病灶的概率。

1.2. 模块结构

1.2.1. 编码器模块

近几年，Transformer模型在图像分类、目标检测、语义分割等下游任务中均取得了卓越的性能，因此在初期研究阶段本课题组曾尝试使用Transformer完全代替CNN作为编码器的特征提取核心，然而通过实验发现该方式并不能得到更好的分割效果反而增加了网络的参数量，故最终没有采用。

通过总结大量Transformer相关工作的文献发现，视觉Transformer、滑动窗Transformer等以Transformer为核心的技术均应用于图像特征较为复杂的场景当中^[24]，而单模态医学影像特征复杂度相对较低，对其单一使用Transformer并不能得到更好的分割效果。对比Transformer与CNN，Transformer感受野更大，通过注意力机制来捕获全局的上下文信息从而对目标建立起长距离依赖，可以提取更高级的特征。然而高级的特征表示依赖于底层特征，因此本文考虑保留提取底层特征能力更好的CNN作为单模态图像特征提取器，在特征融合模块获得信息较为复杂的融合图之后引入Transformer进行全局特征提取。

如图2所示，本文的单个编码器模块分支由四个encoder block组成，分别为encoder block1～4。每个encoder block由两组3×3卷积和一个下采样层所组成，以实现特征提取、生成特征图的功能。

1.2.2. 特征融合模块

（1）fusion block

两个编码器模块分支输出的成对单模态特征图在fusion block中进行特征融合。首先使用三维（three dimensional，3D）卷积提取空间融合信息^[25]，再对单模态特征图进行通道方向的叠加（concatenate）生成堆叠特征图，随后将两部分的结果进行像素乘积生成最终的特征融合图^[16]，如式(1)所示：

其中，F_fusion是3D卷积提取的空间融合信息，F_PET是PET图像特征图，F_CT是CT图像特征图，F_co-learning是最终生成的特征融合图， Inline graphic 是逐元素乘法，是concatenate操作。PET/CT双模态特征融合过程如图3所示，其中c为通道数。

（2）transformer block

在此特别说明，在特征融合之后而非在单模态网络支路引入Transformer的原因如下：考虑特征融合之前为单模态的特征提取，特征信息相对单一，因此着重使用CNN提取细节信息；而经过特征融合后病灶特征更为显著，病灶区与非病灶区的特征差异会更加明显，需建立远距离像素之间的联系，以更好地区分各组织区域；Transformer具有更大的感受野、强大的全局特征提取能力，能够更好地建立像素与像素之间的关联性，有利于提取病灶区域特征；并且在fusion block之后引入transformer block对比在encoder block中引入transformer block可以降低参数量，以达到轻量化网络的作用；因此本文在特征融合之后引入Transformer作为空间信息提取器。

谷歌团队在文献[26]中提出的算法的核心即为Transformer，而其中的“多头自注意力机制”即为Transformer的核心。自注意力机制（self-attention）将输入向量分为查询（query，Q）、键值（key，K）、赋值（value，V）（分别以符号Q、K、V表示），而Q、K、V的概念源自于信息检索系统，Q为需要检索的名称，K为根据Q来匹配此物品所需要的特征，然后根据Q和K的相似度得到匹配的内容V，self-attention中的Q、K、V也是类似的作用。而“多头”的好处在于，不同的“头”关注的子空间特征不同，某些“头”更看重当前特征点附近的信息，有些“头”会比较关注长距离信息，这样提取到的特征会更加丰富。self-attention计算方式，如式(2)所示：

首先，Q和K进行点积计算出一个评分，然后除以根号下向量维度 Inline graphic 起到标准化、减少计算量的作用，随后进行softmax计算特征之间关联度的概率值，最后乘以V得到最终的self-attention的结果。

本文的transformer block如图4所示，由两组以高效自注意力机制（efficient self-attention）、前馈网络（feed forward networks，FFN）以及重叠块融合（overlapped patch merging）所构成的层所组成。FFN由1 × 1卷积、深度可分离卷积和高斯误差线性单元函数（Gaussian error linear units，GELU）构成。

其中，efficient self-attention由Xie等^[23]提出，该作者认为网络的计算量主要体现在self-attention上，为了降低网络整体的计算复杂度，他们在self-attention基础上，添加缩放因子R以降低每一个self-attention模块的计算复杂度（O(N²)→O Inline graphic ），如式(3)与式(4)所示：

其中，N为图像的宽与高的乘积，C为通道数。具体的缩放方式首先通过重塑函数（Reshape）将K重新改变其形状为 Inline graphic (C·R)，然后通过线性函数（Linear）改变其通道数，使得最终K的维度变为，以降低计算的复杂度。

FFN由多个神经元组成，每个神经元接收来自上一层神经元的输出，并通过一定的权重和偏置进行加权和处理，最终得到本层神经元的输出，进而作为下一层神经元的输入。FFN由1 × 1卷积、深度可分离卷积、GELU组成。其中，1 × 1卷积的作用是改变通道数；深度可分离卷积将卷积操作分解为深度卷积和逐点卷积，从而显著减少参数量，进而降低计算复杂度；使用GELU作为激活函数除加速收敛、引入非线性计算的功能以外，其在负输入时会将输入值映射为一个非零值，从而避免了神经元死亡的问题。overlapped patch merging的主要作用是将图像分割成多个小的补丁，并对这些补丁进行合并和特征提取，以获得更丰富的特征表示^[24]。

1.2.3. 解码器模块

本文解码器的设计得益于Transformer中的非局部注意力，在结构不复杂的情况下获得更大的接受域，同时产生高度局部和非局部关注。结构如图5所示，将来自特征融合模块的四组特征图通过1 × 1卷积与不同参数的upsample，使长、宽、通道数完全一致，在同维度的条件下进行通道方向上的concatenate操作，然后再次使用1 × 1卷积将通道数降至2（二分类：病灶与非病灶），最终通过softmax函数预测属于病灶的概率。

2. 实验结果和分析

2.1. 实验准备

2.1.1. 数据集

本文数据采集于广东省人民医院，受试者为205位年龄范围在26～78岁之间患有不同亚型、不同等级乳腺癌的女性群体，已获得所有受试者的知情同意书。本文实验研究已通过广东省人民医院（广东省医学科学院）医学研究伦理委员会伦理审查[批号：GDREC2019696H（R1）]，并获得数据使用授权。数据集包含2 159对来自受试者的PET/CT原始扫描横断影像组（PET图像大小为128 × 128 × 3，CT图像大小为512 × 512 × 3），及其对应的由专业医生标注了病灶位置的标注图像。如图6所示，左上为CT原始图像；左下为CT原始图像对应的病灶标注图像；右上为PET原始图像；右下为PET原始图像对应的病灶标注图像，病灶标注图像中红色区域即为专业医生标注的病灶位置。

图 6 — PET/CT imaging of breast cancer

乳腺癌PET/CT影像

2.1.2. 数据预处理

因原始PET图像与CT图像尺寸不同、分辨率不同以及各自图像病灶占比较小、图像噪声较多、数据量有限等因素，需要对原始图像进行预处理。首先，将每一对图像使用图像配准工具Elastix 5.1.0（Image Sciences Institute，美国）进行配准，保证空间位置上的重合^[27]。其次，对于分割任务，图像的预裁剪可以去除大量的背景干扰，聚焦感兴趣区域以得到更好的训练效果^[28]。裁剪方法首先以图像中轴线为基准区分左胸病灶图像和右胸病灶图像，再选取合适的左右胸裁剪框坐标，最后通过编写脚本实现批量裁剪，如图7所示，其中红色矩形为裁剪框，红色箭头所指向的即为裁剪后的图像。需要说明的是，为验证本文方法对非病灶区域的软组织结构或其他高代谢器官（心脏、肺等）的抗干扰能力，在裁剪图像时，没有完全去除这类组织和器官，而是保留了部分干扰因素。本文采用的数据增强方式为水平和垂直方向的随机翻转，数据量增加为原始数据量的三倍，通过数据增强可以解决数据匮乏和数据不均衡而导致的模型性能欠佳、鲁棒性较差的问题^[29]。

2.2. 实验设置

本文实验采用深度学习框架TensorFlow2.1-GPU版本（Google Brain，美国），使用英伟达显卡RTX 2080super（NVIDIA，美国），统一计算设备架构CUDA 10.1版本（NVIDIA，美国），神经网络加速库cuDNN 7.6.5版本（NVIDIA，美国）对训练过程进行GPU加速。为使模型更快收敛，本文采用了动量梯度下降法优化器，并在训练过程中使用动态衰减方法设置学习率，初始学习率设置为0.001，学习率衰减步数为10 000，衰减率为0.5，批量大小设置为2，训练总轮数为50轮。实验使用80%的数据用于训练，20%的数据用于测试，即训练集包含1 727对PET/CT影像组，测试集包含432对PET/CT影像组，数据划分时避免同一受试者的影像数据同时出现在训练集和测试集。

2.3. 评价指标

本文的评价指标为精确率（precision，Pre）、召回率（recall，Rec）和准确率（accuracy，Acc）。Pre描述模型区分真实病灶和假病灶的性能；Rec描述模型检测病灶区域的性能；Acc描述模型正确分割病灶和背景的性能，计算式如式(5)～式(7)所示：

其中，真阳性（true positive，TP）为图像中被预测为病灶且实际也是病灶的像素数量；假阴性（false negative，FN）为图像中被预测为非病灶但实际是病灶的像素数量；真阴性（true negative，TN）为图像中被预测为非病灶且实际也是非病灶的像素数量；假阳性（false positive，FP）为图像中被预测为病灶但实际是非病灶的像素数量^[30]。

2.4. 实验结果分析

2.4.1. 结果分析

考虑到医学图像分割和PET/CT双模态数据融合的特殊性，同时为了确保对比实验的有效性、公平性，本文以与本文密切相关的文献[16]作为基线算法，并与其进行实验对比。实验上采用五折交叉验证来评估本文算法以及基线算法的分割性能，如表1所示。实验结果表明，本文算法在所有评价指标上均优于基线算法。

表 1. Comparison of the results between our proposed algorithm and the baseline algorithm.

本文算法与基线算法的结果比较

五折交叉验证	本文算法			基线算法
五折交叉验证	Pre	Rec	Acc	Pre	Rec	Acc
第一折	0.956 7	0.975 8	0.961 6	0.934 9	0.963 6	0.949 8
第二折	0.959 0	0.976 6	0.968 0	0.948 6	0.966 1	0.957 7
第三折	0.942 2	0.954 9	0.944 1	0.921 3	0.943 9	0.933 3
第四折	0.956 3	0.972 7	0.969 9	0.938 5	0.964 6	0.952 0
第五折	0.952 1	0.961 8	0.962 3	0.936 1	0.955 6	0.946 3

Open in a new tab

此外，为验证本文算法中Transformer与MLP引入的有效性进行了消融实验，结果如表2所示。单模态与双模态数据的对比结果以及本文算法与代表性医学图像分割算法的对比结果如表3所示，其中TransUNet作为第一个将Transformer与U-Net结合的模型打开了Transformer进入医学影像分割领域的大门，其思想对本文的网络设计有一定的启发，因此将其引入本文的对比实验。

表 2. Ablation experiments with different module combinations.

不同模块组合的消融实验

模块组合		评价指标
Transformer	MLP	Pre	Rec	Acc
—	—	0.934 9	0.963 6	0.949 8
—	√	0.920 3	0.948 6	0.935 2
√	—	0.931 0	0.959 6	0.945 9
√	√	0.956 7	0.975 8	0.961 6

Open in a new tab

表 3. Comparative experiments of different algorithms.

不同算法的对比实验

算法	数据组成	Pre	Rec	Acc
U-Net	CT	0.865 6	0.765 6	0.795 4
	PET	0.847 5	0.820 0	0.743 3
	CT+PET	0.895 2	0.929 7	0.861 1
TransUNet	CT	0.915 6	0.856 2	0.821 9
	PET	0.881 9	0.873 2	0.856 8
	CT+PET	0.925 2	0.944 7	0.901 1
基线算法	CT+PET	0.934 9	0.963 6	0.949 8
本文算法	CT+PET	0.956 7	0.975 8	0.961 6

Open in a new tab

此外，本文对比了分割结果图像，如图8所示。图8中，展示了一组左胸病灶分割结果对比示例和一组右胸病灶分割结果对比示例，其中每一组对比示例均展示出各自的PET/CT图像、标签图像、本文算法的分割结果以及基线算法的分割结果。通过本文算法分割结果图和基线算法分割结果图的对比可以清晰地发现本文算法在解决“过分割”情况的突出表现，量化指标上体现在Pre的提升，在本文中Pre表示分割结果中被正确分割为乳腺癌病灶的像素点占分割结果中被预测为乳腺癌病灶的像素点的比例。精确度越高，说明分割结果中“过分割”的情况越少。因此，无论从定量实验指标还是分割的可视化结果均可以看出本文算法解决“过分割”能力的突出表现，证明了本文算法的有效性。

3. 结语

本文提出了一种将双路U-Net、Co-learning特征融合以及Transformer技术相结合的PET/CT乳腺癌病灶分割方法。利用PET图像与CT图像的影像特点，通过特征融合技术将PET图像特征与CT图像特征结合，使病灶特征更加突出；利用CNN的局部细节提取能力和Transformer的全局特征提取能力，合理地将二者作为本文算法的单、双模态的特征提取器以获得更加精准的分割结果。实验结果表明，本文算法较现有方法取得了更好的分割结果，证明了本文网络设计的合理性，可为多模态医学图像的特征提取方式提供参考。

重要声明

利益冲突声明：本文全体作者均声明不存在利益冲突。

作者贡献声明：本文的算法研究工作、实验设计以及论文初稿撰写主要由第一作者翟悦淞完成。陈智丽和邵丹为共同通信作者，陈智丽教授对论文研究工作与文稿撰写给予了大量指导和修改意见，并直接参与了论文修改稿的撰写。邵丹主任医师对论文工作从核医学角度提供了专业指导与建议，并对实验数据标注给予了指导与把关。

伦理声明：本研究通过了广东省人民医院（广东省医学科学院）医学研究伦理委员会的审批[批号：GDREC2019696H（R1）]

Funding Statement

国家自然科学基金（61602322）

National Natural Science Foundation of China

Contributor Information

智丽陈 (Zhili CHEN), Email: zzc@sjzu.edu.cn.

丹邵 (Dan SHAO), Email: shaodan@gdph.org.cns.

References

1.Sung H, Ferlay J, Siegel R L, et al Global Cancer Statistics 2020: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries. CA Cancer J Clin. 2021;71(3):209–249. doi: 10.3322/caac.21660. [DOI] [PubMed] [Google Scholar]
2.Lei S, Zheng R, Zhang S, et al Breast cancer incidence and mortality in women in China: temporal trends and projections to 2030. Cancer Biol Med. 2021;18(3):900–909. doi: 10.20892/j.issn.2095-3941.2020.0523. [DOI] [PMC free article] [PubMed] [Google Scholar]
3.Shi Z, Lin J, Wu Y, et al Burden of cancer and changing cancer spectrum among older adults in China: Trends and projections to 2030. Cancer Epidemiol. 2022;76:102068. doi: 10.1016/j.canep.2021.102068. [DOI] [PubMed] [Google Scholar]
4.Zeng H, Chen W, Zheng R, et al Changing cancer survival in China during 2003-15: a pooled analysis of 17 population-based cancer registries. Lancet Glob Health. 2018;6(5):e555–e567. doi: 10.1016/S2214-109X(18)30127-X. [DOI] [PubMed] [Google Scholar]
5.Hildebrandt M G, Naghavi-Behzad M, Vogsen M A role of FDG-PET/CT for response evaluation in metastatic breast cancer? Semin Nucl Med. 2022;52(5):520–530. doi: 10.1053/j.semnuclmed.2022.03.004. [DOI] [PubMed] [Google Scholar]
6.Chen W Clinical application of PET in pediatric brain tumors. PET Clin. 2008;3(4):517–529. doi: 10.1016/j.cpet.2009.03.005. [DOI] [PubMed] [Google Scholar]
7.辛阳 CT成像技术的发展及技术特点. 科技创新导报. 2018;15(4):132–133. [Google Scholar]
8.Li Y, Dai Y, Guo Y, et al Correlation analysis of sup18/sup F-FDG PET/CT for the staging and treatment effect assessment of breast cancer. Journal of X-Ray Science and Technology. 2019;27(6):1131–1144. doi: 10.3233/XST-190544. [DOI] [PubMed] [Google Scholar]
9.Cruz-Roa A, Arevalo J, Judkins A, et al. A method for medulloblastoma tumor differentiation based on convolutional neural networks and transfer learning//International Symposium on Medical Information Processing and Analysis. International Society for Optics and Photonics, 2015, DOI: 10.1117/12.2208825.
10.赵旭. 基于医学先验的多尺度乳腺超声肿瘤实例分割方法. 哈尔滨: 哈尔滨工业大学, 2019.
11.徐胜舟, 程时宇基于全卷积神经网络迁移学习的乳腺肿块图像分割. 中南民族大学学报: 自然科学版. 2019;38(2):278–284. [Google Scholar]
12.Al-Antari M A, Al-Masni M A, Choi M T, et al A fully integrated computer-aided diagnosis system for digital X-ray mammograms via deep learning detection, segmentation, and classification. Int J Med Inform. 2018;117:44–54. doi: 10.1016/j.ijmedinf.2018.06.003. [DOI] [PubMed] [Google Scholar]
13.Ronneberger O, Fischer P, Brox T. U-Net: convolutional networks for biomedical image segmentation//International Conference on Medical Image Computing and Computer-Assisted Intervention. Springer, Cham, 2015: 234–241.
14.Chen L C, Zhu Y, Papandreou G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation//European Conference on Computer Vision. Springer, Cham, 2018: 833-851.
15.Zhuang J. LadderNet: multi-path networks based on U-Net for medical image segmentation. arXiv preprint, 2018, DOI: 10.48550/arXiv.1810.07810.
16.Kumar A, Fulham M, Feng D, et al Co-learning feature fusion maps from PET-CT images of lung cancer. IEEE Trans Med Imaging. 2019;39(1):204–217. doi: 10.1109/TMI.2019.2923601. [DOI] [PubMed] [Google Scholar]
17.Xiao X, Lian S, Luo Z, et al. Weighted Res-UNet for high-quality retina vessel segmentation//2018 9th International Conference on Information Technology in Medicine and Education (ITME). IEEE Computer Society, 2018: 327-331.
18.Guan S, Khan A A, Sikdar S, et al Fully dense UNet for 2-D sparse photoacoustic tomography artifact removal. IEEE J Biomed Health Inform. 2020;24(2):568–576. doi: 10.1109/JBHI.2019.2912935. [DOI] [PubMed] [Google Scholar]
19.Isensee F, Jäger P F, Kohl S A A, et al. Automated design of deep learning methods for biomedical image segmentation. arXiv preprint, 2019, arXiv: 1904.08128.
20.Chen J, Lu Y, Yu Q, et al. TransUNet: Transformers make strong encoders for medical image segmentation. arXiv preprint, 2021, DOI: 10.48550/arXiv.2102.04306.
21.Jain J, Li J, Chiu M T, et al. OneFormer: one transformer to rule universal image segmentation. arXiv preprint, 2022, DOI: 10.48550/arXiv.2211.06220.
22.Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16×16 words: Transformers for image recognition at scale. arXiv preprint, 2020, DOI: 10.48550/arXiv.2010.11929.
23.Xie E, Wang W, Yu Z, et al. SegFormer: simple and efficient design for semantic segmentation with transformers. arXiv preprint, 2021, DOI: 10.48550/arXiv.2105.15203.
24.Liu Z, Lin Y, Cao Y, et al. Swin Transformer: hierarchical vision Transformer using shifted windows. arXiv preprint, 2021. DOI: 10.48550/arXiv.2103.14030.
25.Ji S, Yang M, Yu K 3D convolutional neural networks for human action recognition. IEEE Trans Pattern Anal Mach Intell. 2013;35(1):221–231. doi: 10.1109/TPAMI.2012.59. [DOI] [PubMed] [Google Scholar]
26.Vaswani A, Shazeer N, Parmar N, et al. Attention Is All You Need. arXiv preprint, 2017. DOI: 10.48550/arXiv.1706.03762.
27.余辉, 张书旭 4DCT图像二维配准与三维配准的区别. 医疗装备. 2011;24(7):6–8. doi: 10.3969/j.issn.1002-2376.2011.07.003. [DOI] [Google Scholar]
28.胡德文, 陈广学, 朱剑铭, 等基于ROI的医学图像预处理技术研究. 医学影像学杂志. 2018;28(4):585–589. [Google Scholar]
29.Fukuda T, Fernandez R, Rosenberg A, et al Data augmentation improves recognition of foreign accented speech. Interspeech. 2018;18(9):2409–2413. [Google Scholar]
30.侯向丹, 李紫宇, 牛敬钰, 等结合注意力机制和多路径U-Net的视网膜血管分割. 计算机辅助设计与图形学学报. 2023;35(1):55–65. [Google Scholar]

[b1] 1.Sung H, Ferlay J, Siegel R L, et al Global Cancer Statistics 2020: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries. CA Cancer J Clin. 2021;71(3):209–249. doi: 10.3322/caac.21660. [DOI] [PubMed] [Google Scholar]

[b2] 2.Lei S, Zheng R, Zhang S, et al Breast cancer incidence and mortality in women in China: temporal trends and projections to 2030. Cancer Biol Med. 2021;18(3):900–909. doi: 10.20892/j.issn.2095-3941.2020.0523. [DOI] [PMC free article] [PubMed] [Google Scholar]

[b3] 3.Shi Z, Lin J, Wu Y, et al Burden of cancer and changing cancer spectrum among older adults in China: Trends and projections to 2030. Cancer Epidemiol. 2022;76:102068. doi: 10.1016/j.canep.2021.102068. [DOI] [PubMed] [Google Scholar]

[b4] 4.Zeng H, Chen W, Zheng R, et al Changing cancer survival in China during 2003-15: a pooled analysis of 17 population-based cancer registries. Lancet Glob Health. 2018;6(5):e555–e567. doi: 10.1016/S2214-109X(18)30127-X. [DOI] [PubMed] [Google Scholar]

[b5] 5.Hildebrandt M G, Naghavi-Behzad M, Vogsen M A role of FDG-PET/CT for response evaluation in metastatic breast cancer? Semin Nucl Med. 2022;52(5):520–530. doi: 10.1053/j.semnuclmed.2022.03.004. [DOI] [PubMed] [Google Scholar]

[b6] 6.Chen W Clinical application of PET in pediatric brain tumors. PET Clin. 2008;3(4):517–529. doi: 10.1016/j.cpet.2009.03.005. [DOI] [PubMed] [Google Scholar]

[b7] 7.辛阳 CT成像技术的发展及技术特点. 科技创新导报. 2018;15(4):132–133. [Google Scholar]

[b8] 8.Li Y, Dai Y, Guo Y, et al Correlation analysis of sup18/sup F-FDG PET/CT for the staging and treatment effect assessment of breast cancer. Journal of X-Ray Science and Technology. 2019;27(6):1131–1144. doi: 10.3233/XST-190544. [DOI] [PubMed] [Google Scholar]

[b9] 9.Cruz-Roa A, Arevalo J, Judkins A, et al. A method for medulloblastoma tumor differentiation based on convolutional neural networks and transfer learning//International Symposium on Medical Information Processing and Analysis. International Society for Optics and Photonics, 2015, DOI: 10.1117/12.2208825.

[b10] 10.赵旭. 基于医学先验的多尺度乳腺超声肿瘤实例分割方法. 哈尔滨: 哈尔滨工业大学, 2019.

[b11] 11.徐胜舟, 程时宇基于全卷积神经网络迁移学习的乳腺肿块图像分割. 中南民族大学学报: 自然科学版. 2019;38(2):278–284. [Google Scholar]

[b12] 12.Al-Antari M A, Al-Masni M A, Choi M T, et al A fully integrated computer-aided diagnosis system for digital X-ray mammograms via deep learning detection, segmentation, and classification. Int J Med Inform. 2018;117:44–54. doi: 10.1016/j.ijmedinf.2018.06.003. [DOI] [PubMed] [Google Scholar]

[b13] 13.Ronneberger O, Fischer P, Brox T. U-Net: convolutional networks for biomedical image segmentation//International Conference on Medical Image Computing and Computer-Assisted Intervention. Springer, Cham, 2015: 234–241.

[b14] 14.Chen L C, Zhu Y, Papandreou G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation//European Conference on Computer Vision. Springer, Cham, 2018: 833-851.

[b15] 15.Zhuang J. LadderNet: multi-path networks based on U-Net for medical image segmentation. arXiv preprint, 2018, DOI: 10.48550/arXiv.1810.07810.

[b16] 16.Kumar A, Fulham M, Feng D, et al Co-learning feature fusion maps from PET-CT images of lung cancer. IEEE Trans Med Imaging. 2019;39(1):204–217. doi: 10.1109/TMI.2019.2923601. [DOI] [PubMed] [Google Scholar]

[b17] 17.Xiao X, Lian S, Luo Z, et al. Weighted Res-UNet for high-quality retina vessel segmentation//2018 9th International Conference on Information Technology in Medicine and Education (ITME). IEEE Computer Society, 2018: 327-331.

[b18] 18.Guan S, Khan A A, Sikdar S, et al Fully dense UNet for 2-D sparse photoacoustic tomography artifact removal. IEEE J Biomed Health Inform. 2020;24(2):568–576. doi: 10.1109/JBHI.2019.2912935. [DOI] [PubMed] [Google Scholar]

[b19] 19.Isensee F, Jäger P F, Kohl S A A, et al. Automated design of deep learning methods for biomedical image segmentation. arXiv preprint, 2019, arXiv: 1904.08128.

[b20] 20.Chen J, Lu Y, Yu Q, et al. TransUNet: Transformers make strong encoders for medical image segmentation. arXiv preprint, 2021, DOI: 10.48550/arXiv.2102.04306.

[b21] 21.Jain J, Li J, Chiu M T, et al. OneFormer: one transformer to rule universal image segmentation. arXiv preprint, 2022, DOI: 10.48550/arXiv.2211.06220.

[b22] 22.Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16×16 words: Transformers for image recognition at scale. arXiv preprint, 2020, DOI: 10.48550/arXiv.2010.11929.

[b23] 23.Xie E, Wang W, Yu Z, et al. SegFormer: simple and efficient design for semantic segmentation with transformers. arXiv preprint, 2021, DOI: 10.48550/arXiv.2105.15203.

[b24] 24.Liu Z, Lin Y, Cao Y, et al. Swin Transformer: hierarchical vision Transformer using shifted windows. arXiv preprint, 2021. DOI: 10.48550/arXiv.2103.14030.

[b25] 25.Ji S, Yang M, Yu K 3D convolutional neural networks for human action recognition. IEEE Trans Pattern Anal Mach Intell. 2013;35(1):221–231. doi: 10.1109/TPAMI.2012.59. [DOI] [PubMed] [Google Scholar]

[b26] 26.Vaswani A, Shazeer N, Parmar N, et al. Attention Is All You Need. arXiv preprint, 2017. DOI: 10.48550/arXiv.1706.03762.

[b27] 27.余辉, 张书旭 4DCT图像二维配准与三维配准的区别. 医疗装备. 2011;24(7):6–8. doi: 10.3969/j.issn.1002-2376.2011.07.003. [DOI] [Google Scholar]

[b28] 28.胡德文, 陈广学, 朱剑铭, 等基于ROI的医学图像预处理技术研究. 医学影像学杂志. 2018;28(4):585–589. [Google Scholar]

[b29] 29.Fukuda T, Fernandez R, Rosenberg A, et al Data augmentation improves recognition of foreign accented speech. Interspeech. 2018;18(9):2409–2413. [Google Scholar]

[b30] 30.侯向丹, 李紫宇, 牛敬钰, 等结合注意力机制和多路径U-Net的视网膜血管分割. 计算机辅助设计与图形学学报. 2023;35(1):55–65. [Google Scholar]

PERMALINK

基于协同学习特征融合和转换器的乳腺癌病灶分割方法

Breast cancer lesion segmentation based on co-learning feature fusion and Transformer

Yuesong ZHAI

Zhili CHEN

Dan SHAO

Abstract

Abstract

0. 引言

1. 本文算法

1.1. 网络结构

图 1.

1.2. 模块结构

1.2.1. 编码器模块

图 2.

1.2.2. 特征融合模块

图 3.

图 4.

1.2.3. 解码器模块

图 5.

2. 实验结果和分析

2.1. 实验准备

2.1.1. 数据集

图 6.

2.1.2. 数据预处理

图 7.

2.2. 实验设置

2.3. 评价指标

2.4. 实验结果分析

2.4.1. 结果分析

表 1. Comparison of the results between our proposed algorithm and the baseline algorithm.

表 2. Ablation experiments with different module combinations.

表 3. Comparative experiments of different algorithms.

图 8.

3. 结语

Funding Statement

Contributor Information

References

ACTIONS

PERMALINK

RESOURCES

Similar articles

Cited by other articles

Links to NCBI Databases