. 2025 Dec 25;42(6):1289–1295. [Article in Chinese] doi: 10.7507/1001-5515.202405039

表 4. Improved strategy for fusing U-Net with Transformer.

融合U-Net与Transformer的改进策略

改进策略	模型	改进方法	优点	局限性
多尺度特征融合	UViT-Seg^[29]	ViT获取图像的高级语义信息，U-Net捕捉图像的形状低级特征	多重跳跃连接融合编码器与解码器多层特征，实现多尺度特征整合	定位深层与较大息肉时能力较低
	EG-TransUNet^[30]	引入渐进增强、信道空间注意和语义引导注意模块	提升了待分割息肉区域的特征表达能力	计算需求的硬件资源大
	ColonFormer^[31]	采用轻量级Transformer作为编码器	突破U-Net局部感受野限制，降低Transformer数据依赖	长程注意力破坏图像块结构
自注意力机制	TransFuse^[32]	双线性融合模块与自注意力机制结合	减少冗余和梯度消失问题	分割边界会出现伪影
自注意力机制	CswinDoubleU-Net^[33]	增加额外的U-Net并与自注意力机制结合	能够精准捕捉息肉位置	参数量大，限制实时分割