Abstract
为辅助基层超声科医生从儿童腹部超声图像中准确且快速地检测出肠套叠病灶,本文提出了一种基于改进YOLOv8n的儿童肠套叠检测算法EMC-YOLOv8n。首先,采用具有级联分组注意力模块的EfficientViT网络作为主干网络,以提高目标检测速度。其次,利用改进后的C2fMBC模块替换颈部网络中的C2f模块,降低网络复杂度,并在每个C2fMBC模块之后引入坐标注意力机制模块,以增强对位置信息的关注度。最后,在自建的儿童肠套叠数据集上进行实验。结果表明,EMC-YOLOv8n算法的召回率(Recall)、平均检测精度(mAP@0.5)及精确度(Precision)相较基线算法分别提高了3.9%、2.1%及0.9%。尽管网络参数量及计算量略微增加,但检测精度得到显著提升,能够高效完成检测任务,极具经济及社会价值。
Keywords: 肠套叠病灶, EMC-YOLOv8n, EfficientViT, C2fMBC, 坐标注意力机制模块
Abstract
To assist grassroots sonographers in accurately and rapidly detecting intussusception lesions from children's abdominal ultrasound images, this paper proposes an improved YOLOv8n children's intussusception detection algorithm, called EMC-YOLOv8n. Firstly, the EfficientViT network with a cascaded group attention module was used as the backbone network to enhance the speed of target detection. Secondly, the improved C2fMBC module was used to replace the C2f module in the neck network to reduce network complexity, and the coordinate attention (CA) module was introduced after each C2fMBC module to enhance attention to positional information. Finally, experiments were conducted on the self-built dataset of intussusception in children. The results showed that the recall rate, average detection accuracy (mAP@0.5) and precision of the EMC-YOLOv8n algorithm improved by 3.9%, 2.1% and 0.9%, respectively, compared to the baseline algorithm. Despite slightly increased network parameters and computational load, significant improvements in detection accuracy enable efficient completion of detection tasks, demonstrating substantial economic and social value.
Keywords: Intussusception lesions, EMC-YOLOv8n, EfficientViT, C2fMBC, Coordinate attention module
0. 引言
肠套叠是一种常见的儿科消化道疾病,主要发生在6个月至3岁之间的儿童中,其病理特征为一段肠管套入相邻的肠腔内,引起肠腔堵塞,导致患者出现腹痛、呕吐等症状,严重时可能导致肠道坏死等并发症,甚至危及生命[1]。及时的诊断和治疗对缓解患者疼痛至关重要。临床上常用的肠套叠诊断方法包括X线片、计算机断层扫描(computed tomography,CT)和B型超声(brightness-mode ultrasound)。X线片可以显示肠道积气和堆叠现象,但对早期诊断不敏感;CT可以提供更详细的图像信息,但高昂的费用和较高的辐射限制了其应用;相比之下,B超是一种无创、无痛的诊断方法,在探头扫描时通常以动图的形式来呈现,使医生能够更直观地观察到肠套叠的位置,并且由于经济实惠,更容易成为首选[2-4]。在B超图像中,肠套叠的表现形式主要有两种,分别为横切面的“同心圆”型和纵切面的“套筒”型[5]。医生通常通过识别横切面的“同心圆”型来判断肠套叠的存在,而纵切面的“套筒”型则作为辅助诊断手段[6]。但人工识别这些特征不仅容易受到主观因素的影响,还会耗费大量高级人力资源。
近年来,快速发展的深度学习技术已在医学领域中得到广泛应用,特别是医学图像分割[7]和目标检测[8]等方面。目标检测技术主要分为两阶段算法和单阶段算法,前者以其较高的准确率为优势,代表性算法包括Mask R-CNN[9]和Fast R-CNN[10]等;后者则以较快的检测速率为特点,代表性算法包括YOLO系列[11]和SSD[12]等。Kim等[13]开发和测试了一种基于YOLOv3的深度学习算法来检测儿童腹部X线片中是否存在肠套叠病灶,实验表明该算法的精确度略高于放射科医生。Kwon等[14]研究开发了一种深度卷积神经网络(deep convolutional neural network,DCNN)算法,该算法使用SSD+残差网络(ResNet)在儿童腹部X线片中检测肠套叠病灶。Li等[15]研究开发了一种基于人工智能的超声图像“同心圆”征象自动检测系统,使用改进的Faster R-CNN算法模型作为框架来检测“同心圆”标志,提高了儿科肠套叠诊断的效率和准确性。Kim等[16]开发了基于YOLOv5架构的深度学习模型,以每秒几十帧的速度以及高精度在灰度超声图像上诊断出肠套叠,证明了该算法的可行性。
显然,目标检测技术在儿童肠套叠图像分析中已有广泛应用,但仍存在一些不足之处,例如,文献[13]和文献[14]使用的X线片对早期诊断不敏感,而文献[15]和文献[16]采用了复杂度较高的算法模型。为解决这些问题,本文通过改进YOLOv8n算法,并结合医学B超图像,提出了一种基于EMC-YOLOv8n算法的儿童肠套叠特征检测方法,旨在提高检测精确度和准确性的同时,简化模型的复杂度和提高诊断效率,从而更好地辅助医生进行诊断。
1. 方法
1.1. 改进后的模型架构
在2023年,Ultralytics团队发布了最新的YOLOv8算法,旨在提升精度和速度,并优化网络参数,以解决现有模型的不足,该算法的网络结构主要由主干(Backbone)、颈部(Neck)和头部(Head)组成[17]。本文选取了该系列中参数量最小的YOLOv8n模型进行改进,首先引入内存高效视觉转换器网络(memory efficient vision transformer,EfficientViT)[18]替换原有的跨阶段Darknet53网络(cross stage partial darknet-53,CSPDarknet53)[19]作为主干网络,以提高内存效率,增强不同特征通道之间的高效通信,提高注意力多样性和目标检测速度。在颈部网络,本文设计了C2fMBC模块替换C2f模块[20],进一步降低网络的参数量和复杂度,同时保持模型的高效性。此外,在每个C2fMBC模块之后加入坐标注意力机制(coordinate attention,CA)[21],使模型更加关注目标的通道特征,增强特征表达并提高模型性能。改进后的EMC-YOLOv8n模型架构如图1所示。
图 1.
EMC-YOLOv8n network structure
EMC-YOLOv8n网络结构
1.2. EfficientViT网络架构
为加快肠套叠特征提取的速度,本文引入EfficientViT网络作为基线模型YOLOv8n的主干网络,其网络结构如图2所示。引入重叠补丁编码(Overlap PatchEmbed)[22]的作用是将输入图像分割成重叠的小块,有助于更好地获取肠套叠图像中的局部信息。为提高特征提取过程中的效率,构建一个夹层布局模块,称为EfficientViT Block,其结构如图3a所示。即在N个前馈神经网络(feedforward neural network,FFN)层之间加入了一个级联分组注意力模块(cascaded group attention,CGA),可在提高特征通道间高效通信的同时增强模型性能。其中,CGA模块结构如图3b所示。首先,将输入特征分割成部分小特征传送给不同的注意力头部,以减小计算冗余。然后,将头部分段成Q、K、V层,为了学习更丰富的特征来增加模型容量,在Q投影之后设计一个新的令牌交互层(token interaction),使自注意力能够同时捕捉局部和全局关系,来增强特征表示。随后,将每个头部的输出与下一个头部的输入相加,在不增加额外参数的情况下提升了网络的深度和表达能力。最后,使用线性层连接和映射多个头部输出以获得最终输出,表示为:
图 2.
EfficientViT structure
EfficientViT结构
图 3.
EfficientViT block structure
EfficientViT Block结构
a. EfficientViT Block展开图;b. CGA结构
a. EfficientViT block expanded diagram; b. cascaded group attention

![]() |
1 |
![]() |
2 |
![]() |
3 |
其中,式(1)、(2)中第j个头部计算了
上的自注意力,即
,其中
,h为头部总数。
、
和
是将输入特征映射到不同子空间的投影层,而
是一个线性层,将连接的输出特征投影回与输入一致的维度。式(3)中
是第j个输入分割
和由公式(1)、(2)计算的第(j − 1)个头部输出
的总和。它替换了
成为在计算自注意力时第j个头部的输入特征。
1.3. C2fMBC模块
为降低网络模型的复杂度并提高特征提取效率,本文设计了C2fMBC模块来替换原模型中的C2f模块,C2fMBC模块如图4所示。具体而言,C2fMBC模块去除了高效卷积神经网络(efficient convolutional neural network,EfficientNet)中移动翻转瓶颈卷积(mobile inverted bottleneck convolution,MBConv)模块[23]的压缩激励(squeeze and excitation,SE)模块,并替换了原网络模型中C2f模块的瓶颈层(Bottleneck),从而在降低模型复杂度的同时增强了特征提取能力。此外,改进后的模型对多尺度信息更加敏感,有助于检测不同大小的目标,实现了在减少网络参数的同时保持较高的检测精度。
图 4.
C2fMBC module
C2fMBC模块
MBConv模块如图5所示。首先,通过逐点卷积(pointwise convolution,PW Conv)扩展输入特征图的维度。然后经过批处理归一化(BatchNorm,BN)和Swish激活函数来加速模型训练收敛并解决梯度消失问题。接着,通过深度可分离卷积(depthwise convolution,DWConv)减少计算量并提高计算效率。之后,再经过BN层和Swish激活函数,通过PW Conv压缩特征图的维度。最后,加入随机失活层(Dropout)减少模型的过拟合,同时引入倒置残差结构和线性瓶颈以提高模型的表达能力和训练效率。
图 5.
MBConv module
MBConv模块
1.4. 注意力机制
由于超声图像中存在大量干扰信息,为使模型更加关注肠套叠特征并精确提取其位置信息,在改进的YOLOv8n算法的颈部网络C2fMBC模块之后加入了CA以进行局部特征信息融合。CA通过坐标信息嵌入和坐标注意力生成,将图像中的目标位置数据整合到通道注意力中,使模型能够在整体区域内更好地定位并检测目标,该模块结构如图6所示。
图 6.
CA module
CA模块
将输入特征张量分别沿水平方向和垂直方向进行全局平均池化操作,得到一对一维特征编码。这两种变换汇聚了各自方向上的特征,使注意力模块保留了一条空间方向的依赖关系,并获取了另一条空间方向的位置信息。将上述坐标信息整合后的特征通过空间维度进行连接,并使用共享卷积核减少通道数。然后,通过BN和非线性激活函数(Non-Linear)在垂直和水平方向上对空间信息进行编码[21]。接着,将编码后的信息进行分割,并分别使用两个卷积核调整特征图通道数,使之与输入特征图的通道数一致,并通过sigmoid激活函数进行平滑处理。最后,进行归一化和加权融合。
2. 实验过程与结果
2.1. 数据集构建
本文实验所用数据集由空军军医大学附属西京医院超声医学科授权提供。由于本研究为回顾性实验,所有图像均经过脱敏处理,去除了任何可能识别患者身份的信息,以确保数据隐私保护和合法合规的使用。数据来自2022年10月至2023年7月期间1~5岁确诊为肠套叠儿童的B超图像,共收集210例肠套叠患者的B超图像,每位患者保留8张图像,总计1 680张。为扩充数据集,在保持病灶标签不变的情况下,采用数据增强技术。通过调整对比度和亮度,将图像数量扩充至3 360张,这些图像按比例划分为训练集2 352张,验证集672张,测试集336张。所有图像均由空军军医大学附属西京医院和空军军医大学附属唐都医院超声医学科医生手动标注,标签类型分别为同心圆(circle)型和套筒(sleeve)型。最终得到circle型图像1 812张,sleeve型图像1 548张。
2.2. 实验环境配置与评估指标
本文实验基于深度学习框架PyTorch,在Windows 10 64位操作系统上进行训练。硬件平台包括英特尔i7-7 800X处理器与NVIDIA GeForce RTX 3 090Ti显卡,显卡配备6 GB显存。开发环境使用CUDA 11.3加速计算。实验中,批处理大小(Batch Size)设置为16,训练轮数(Epochs)为200次,以充分优化模型性能。
本文采用准确率(precision,Pre)、召回率(recall,Rec)、平均精度(mean average precision,mAP)、模型参数量(parameters,Par)、浮点运算数以及帧率作为评估指标。计算公式如下:
![]() |
4 |
![]() |
5 |
![]() |
6 |
![]() |
7 |
其中,真阳性(true positive,TP)指模型正确检测出肠套叠病灶区域,假阳性(false positive,FP)指模型将非肠套叠病灶区域误检测为肠套叠病灶区域;假阴性(false negative,FN)指模型未能检测到实际存在的肠套叠病灶;
表示类别索引值为i的AP值,N表示训练数据集中样本的类别数(本实验中N为2)。其次mAP@0.5、mAP@.5:.95分别表示阈值IoU设置为0.5、0.5~0.95时的mAP值。
2.3. 消融实验
在进行不同模块组合对模型检测性能影响的评估中,以YOLOv8n作为基线模型,并在数据集和各种配置参数一致的情况下进行了消融实验,结果如表1所示。结果表明,基线模型YOLOv8n的mAP最低,但其帧率最高,且Par和浮点运算数最少。实验2通过将主干网络替换为EfficientViT网络模型,加快了特征提取速度,尽管增加了Par和浮点运算数,但mAP有了显著的提升。实验3则在实验2的基础上,将颈部网络的C2f模块替换为C2fMBC模块,不仅减少了模型的Par和浮点运算数,还进一步提升了检测精度,表现出更高的mAP。实验4则在实验3的基础上,添加了CA,以精确提取目标的位置信息,取得了实验中最优的Pre、Rec和mAP。因此,证明了本文提出改进方案的有效性和可行性。
表 1. Ablation experiment.
消融实验
| Number | Models | Pre(%) | Rec(%) | mAP@0.5(%) | mAP@.5:.95(%) | Par | 浮点运算数/GFLOPs | 帧率/FPS |
| 注:最优数据用加粗表示 | ||||||||
| 1 | YOLOv8n | 89.4 | 86.6 | 93.1 | 66.4 | 3.0E06 | 8.2 | 285 |
| 2 | YOLOv8n-EfficientViT | 90.1 | 87.2 | 94.0 | 67.2 | 4.0E06 | 9.5 | 227 |
| 3 | YOLOv8n-EfficientViT-C2fMBC | 90.3 | 89.5 | 94.7 | 68.0 | 3.7E06 | 9.0 | 222 |
| 4 | YOLOv8n-EfficientViT-C2fMBC-CA | 90.3 | 90.5 | 95.2 | 68.2 | 3.7E06 | 9.0 | 238 |
2.4. 对比实验
为验证本文所提出的EMC-YOLOv8n算法的优越性,在相同数据集和配置参数条件下,与当前主流算法Faster R-CNN、SSD和YOLOv5s进行了对比实验,结果如表2所示。结果表明,Faster R-CNN的mAP及帧率较低且Par较多。SSD虽然具有较高的帧率,但其网络模型过于复杂,不利于实际应用。YOLOv5s在模型参数量方面有所优化,但其mAP尚未达到预期要求。综上所述,本文提出的EMC-YOLOv8n算法在mAP、Par、浮点运算数和帧率上均表现出明显优势。相较于其他主流算法,EMC-YOLOv8n在综合性能上有显著提升,体现了该算法的优越性。
表 2. Contrast experiment.
对比实验
| Number | Models | mAP@0.5(%) | Par | 浮点运算数/GFLOPs | 帧率/FPS |
| 注:最优数据用加粗表示 | |||||
| 1 | Faster R-CNN | 86.2 | 137.1E06 | 370.2 | 26.1 |
| 2 | SSD | 91.7 | 26.3E06 | 62.8 | 82.7 |
| 3 | YOLOv5s | 87.0 | 7.0E06 | 16.0 | 77.5 |
| 4 | EMC-YOLOv8n | 95.2 | 3.7E06 | 9.0 | 238.0 |
2.5. 算法检测验证
为了评估本文提出的EMC-YOLOv8n算法在检测儿童肠套叠方面的可视化效果,我们将它与Faster R-CNN、SSD、YOLOv5s和YOLOv8n进行了对比,结果如图7所示。图像中第一、二行为circle型病灶的检测结果,第三、四行为sleeve型病灶的检测结果,第一列则为医生标注的病灶图(红色框表示circle,蓝色框表示sleeve)。从图像的第一、二行可以看出:Faster R-CNN和YOLOv8n能够检测到circle型病灶,但存在误检测现象。SSD在识别circle型病灶方面较为准确,但在病灶范围和检测精度上存在不足。YOLOv5s未能有效检测出circle型病灶,并存在误检测现象。相比之下,EMC-YOLOv8n不仅能够准确检测出circle型病灶的位置和大小,还具有较高的检测精度。从图像的第三、四行可以看出:Faster R-CNN将非肠套叠区域误检测为circle型病灶,YOLOv8n存在重复检测和误检测现象。SSD和YOLOv5s能够识别sleeve型病灶,但在识别精度和识别范围上存在问题。而EMC-YOLOv8n在检测sleeve型病灶时,同样表现出高精度和准确的范围识别。综合来看,本文提出的EMC-YOLOv8n算法在检测circle和sleeve两种类型病灶时,无论是在检测范围还是检测精度上,都表现出了显著的优势,体现了该算法在综合性能上的实用性。
图 7.
Visualisation of the experiment results comparing different algorithms
不同算法对比实验的可视化结果图
3. 讨论
我们的研究结果相较于先前的研究具有显著优势。文献[13]和文献[14]分别使用YOLOv3算法和SSD+Resnet算法在X线片上检测儿童肠套叠病灶,但由于X线片的检出率低、特异性差,导致整体检测精度不高。文献[15]和文献[16]分别使用改进的Faster R-CNN算法和YOLOv5算法在B超图像上通过“同心圆”征象检测儿童肠套叠病灶,但Faster R-CNN和YOLOv5模型参数多、检测速度慢,不适合在医院中部署。我们利用EMC-YOLOv8n算法对儿童B超图像的横切面circle型和纵切面sleeve型肠套叠病灶进行检测。与先前研究相比,我们的研究在检测精度和速度上均有显著提升,并在最新的YOLOv8算法上实施改进,增添横切面的sleeve型作为辅助检测依据。
但是,尽管取得了这些进展,我们的研究仍存在一定局限性。首先,对于深度学习而言,数据集的丰富性至关重要,而我们使用的数据集相对有限。未来工作将重点补充数据集,以更好地训练模型。其次,我们的实验数据仅来源于一台机器,未来将考虑引入多家医院的设备数据以提高实验结果的泛化性。最后,接下来应在保持检测精度的基础上,设计更为优化的模块以提高检测速度,并向网络模型的轻量化方向发展。此外,我们计划制作硬件系统,并将平台部署到医院中,以实现实际应用。
4. 结论
本文提出了一种用于检测儿童腹部B超图像中肠套叠病灶的EMC-YOLOv8n算法,通过引入EfficientViT网络作为YOLOv8n的主干网络,并设计C2fMBC模块替换原有的C2f模块,从而在减少模型复杂度的同时大幅提高检测速度。此外,本文还引入了CA注意力机制,以增强模型对位置信息的获取能力。为了提高模型的鲁棒性和泛化能力,本文在自建数据集上进行了数据增强。大量实验结果表明,本文提出的算法在检测儿童肠套叠方面具有优异的精度和可靠性,为超声科医生提供了一种准确且快速的辅助诊断工具。
重要声明
利益冲突声明:本文全体作者均声明不存在利益冲突。
作者贡献声明:刘晨雨负责本文实验设计、算法实现、数据分析及论文撰写。徐健在论文审核和总体指导方面提供了重要支持。李轲在数据收集与标注方面做出了重要贡献,并协助撰写了部分医学理论相关内容。王璐则在数据标注的准确性检查及医学理论指导方面发挥了关键作用。
Funding Statement
陕西省科技厅项目(2018GY-173);西安市科技局项目(GXYD7.5)
References
- 1.韦天军, 胡国兵, 朱向明, 等 彩色多普勒超声诊断小儿急性肠套叠的应用价值. 皖南医学院学报. 2016;35(3):267–268. [Google Scholar]
- 2.Li X Z, Wang H, Song J, et al Ultrasonographic diagnosis of intussusception in children: a systematic review and meta‐analysis. J Ultras Med. 2021;40(6):1077–1084. doi: 10.1002/jum.15504. [DOI] [PubMed] [Google Scholar]
- 3.Tsou P Y, Wang Y H, Ma Y K, et al Accuracy of point-of-care ultrasound and radiology-performed ultrasound for intussusception: a systematic review and meta-analysis. Am J Emerg Med. 2019;37(9):1760–1769. doi: 10.1016/j.ajem.2019.06.006. [DOI] [PubMed] [Google Scholar]
- 4.Edwards E A, Pigg N, Courtier J, et al Intussusception: past, present and future. Pediatr Radiol. 2017;47(9):1101–1108. doi: 10.1007/s00247-017-3878-x. [DOI] [PubMed] [Google Scholar]
- 5.Hryhorczuk A L, Strouse P J Validation of US as a first-line diagnostic test for assessment of pediatric ileocolic intussusception. Pediatr Radiol. 2009;39(10):1075–1079. doi: 10.1007/s00247-009-1353-z. [DOI] [PubMed] [Google Scholar]
- 6.Henrikson S, Blane C E, Koujok K, et al The effect of screening sonography on the positive rate of enemas for intussusception. Pediatr Radiol. 2003;33(3):190–193. doi: 10.1007/s00247-002-0848-7. [DOI] [PubMed] [Google Scholar]
- 7.宫进昌, 赵尚义, 王远军 基于深度学习的医学图像分割研究进展. 中国医学物理学杂志. 2019;36(4):420–424. [Google Scholar]
- 8.尹宏鹏, 陈波, 柴毅, 等 基于视觉的目标检测与跟踪综述. 自动化学报. 2016;42(10):1466–1489. [Google Scholar]
- 9.He K, Gkioxari G, Dollár P, et al. Mask R-CNN// Proceedings of the IEEE International Conference on Computer Vision (ICCV). Venice: IEEE, 2017: 2961-2969.
- 10.Girshick R. Fast R-CNN/ /Proceedings of the IEEE International Conference on Computer Vision (ICCV). Santiago: IEEE, 2015: 1440-1448.
- 11.Jiang P, Ergu D, Liu F, et al A review of YOLO algorithm developments. Procedia Comput. 2022;199:1066–1073. doi: 10.1016/j.procs.2022.01.135. [DOI] [Google Scholar]
- 12.Liu W, Anguelov D, Erhan D, et al. SSD: single shot multibox detector// Bastian L, Jiri M, Nicu S, et al. Computer Vision–ECCV 2016: 14th European Conference, Proceedings. Amsterdam: Springer International Publishing, 2016: 21-37.
- 13.Kim S, Yoon H, Lee M J, et al Performance of deep learning-based algorithm for detection of ileocolic intussusception on abdominal radiographs of young children. Sci Rep. 2019;9(1):19420. doi: 10.1038/s41598-019-55536-6. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 14.Kwon G, Ryu J, Oh J, et al Deep learning algorithms for detecting and visualising intussusception on plain abdominal radiography in children: a retrospective multicenter study. Sci Rep. 2020;10(1):17582. doi: 10.1038/s41598-020-74653-1. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 15.Li Z, Song C, Huang J, et al Performance of deep learning-based algorithm for detection of pediatric intussusception on abdominal ultrasound images. Gastroent Res Pract. 2022;2022(1):9285238. doi: 10.1155/2022/9285238. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 16.Kim S W, Cheon J E, Choi Y H, et al Feasibility of a deep learning artificial intelligence model for the diagnosis of pediatric ileocolic intussusception with grayscale ultrasonography. Ultrasonography. 2024;43(1):57. doi: 10.14366/usg.23153. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 17.Ju R Y, Cai W Fracture detection in pediatric wrist trauma X-ray images using YOLOv8 algorithm. Sci Rep. 2023;13(1):20077. doi: 10.1038/s41598-023-47460-7. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 18.Liu X, Peng H, Zheng N, et al. EfficientViT: memory efficient vision transformer with cascaded group attention// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Vancouver: IEEE/CVF, 2023: 14420-14430.
- 19.Mahasin M, Dewi I A Comparison of CSPDarkNet53, CSPResNeXt-50, and EfficientNet-B0 backbones on YOLOv4 as object detector. IJEST. 2022;2(3):64–72. doi: 10.52088/ijesty.v2i3.291. [DOI] [Google Scholar]
- 20.Wang C Y, Bochkovskiy A, Liao H Y M. YOLOv7: trainable bag-of-freebies sets new state-of-the-art for real-time object detectors// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Vancouver: IEEE/CVF, 2023: 7464-7475.
- 21.Hou Q, Zhou D, Feng J. Coordinate attention for efficient mobile network design// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville: IEEE/CVF, 2021: 13708-13717.
- 22.Xie E, Wang W, Yu Z, et al SegFormer: simple and efficient design for semantic segmentation with transformers. NIPS. 2021;34:12077–12090. [Google Scholar]
- 23.Tan M, Le Q. EfficientNet: rethinking model scaling for convolutional neural networks// International Conference on Machine Learning (ICML). Long Beach: PMLR, 2019: 6105-6114.













