Skip to main content
. 2025 Dec 25;42(6):1289–1295. [Article in Chinese] doi: 10.7507/1001-5515.202405039

表 4. Improved strategy for fusing U-Net with Transformer.

融合U-Net与Transformer的改进策略

改进策略 模型 改进方法 优点 局限性
多尺度
特征融合
UViT-Seg[29] ViT获取图像的高级语义信息,U-Net捕捉图像的形状低级特征 多重跳跃连接融合编码器与解码器多层特征,实现多尺度特征整合 定位深层与较大息肉时能力较低
EG-TransUNet[30] 引入渐进增强、信道空间注意和语义引导注意模块 提升了待分割息肉区域的特征表达能力 计算需求的硬件资源大
ColonFormer[31] 采用轻量级Transformer作为编码器 突破U-Net局部感受野限制,降低Transformer数据依赖 长程注意力破坏图像块结构
自注意力
机制
TransFuse[32] 双线性融合模块与自注意力机制结合 减少冗余和梯度消失问题 分割边界会出现伪影
CswinDoubleU-Net[33] 增加额外的U-Net并与自注意力机制结合 能够精准捕捉息肉位置 参数量大,限制实时分割