表 4. Improved strategy for fusing U-Net with Transformer.
融合U-Net与Transformer的改进策略
| 改进策略 | 模型 | 改进方法 | 优点 | 局限性 | ||
| 多尺度 特征融合 |
UViT-Seg[29] | ViT获取图像的高级语义信息,U-Net捕捉图像的形状低级特征 | 多重跳跃连接融合编码器与解码器多层特征,实现多尺度特征整合 | 定位深层与较大息肉时能力较低 | ||
| EG-TransUNet[30] | 引入渐进增强、信道空间注意和语义引导注意模块 | 提升了待分割息肉区域的特征表达能力 | 计算需求的硬件资源大 | |||
| ColonFormer[31] | 采用轻量级Transformer作为编码器 | 突破U-Net局部感受野限制,降低Transformer数据依赖 | 长程注意力破坏图像块结构 | |||
| 自注意力 机制 |
TransFuse[32] | 双线性融合模块与自注意力机制结合 | 减少冗余和梯度消失问题 | 分割边界会出现伪影 | ||
| CswinDoubleU-Net[33] | 增加额外的U-Net并与自注意力机制结合 | 能够精准捕捉息肉位置 | 参数量大,限制实时分割 |