Abstract
目的
探讨基于U-Net网络的深度学习模型对儿童腺样体及鼻咽气道的全自动图像分割效果。
方法
2021年3月-2022年3月在深圳大学总医院耳鼻咽喉头颈外科因睡眠打鼾或张口呼吸进行锥形束计算机断层扫描(CBCT)检查的患儿240例,选取其中52例进行鼻咽部和腺样体人工标注,再由深度学习模型训练与验证。将模型应用于剩余188例数据后,比较所有240例数据常规二维指标及深度学习三维指标间的差异。
结果
对于52例建模以及训练数据集,深度学习预测结果与人工标注结果差异均无统计学意义(P>0.05),模型评价指标鼻咽气道容积的均交并比为(86.32±0.54)%;相似系数为(92.91±0.23)%;准确度为(95.92±0.25)%;精准度为(91.93±0.14)%;腺样体体积的均交并比为(86.28±0.61)%;相似系数为(92.88±0.17)%;准确度为(95.90±0.29)%;精准度为(92.30±0.23)%。240例不同年龄段患儿二维指标A/N和三维指标AV/(AV+NAV)之间均呈正相关性(P < 0.05),9~14岁的相关系数达0.74。
结论
基于U-Net网络的深度学习模型对儿童腺样体及鼻咽气道全自动图像分割效果良好,为今后进一步研究导致OSA的腺样体肥大的三维诊断标准提供有利的大数据计算模型。
Keywords: U-Net网络, 全自动图像分割, 腺样体, 鼻咽气道, 锥形束计算机断层扫描
Abstract
Objective
To explore the effect of fully automatic image segmentation of adenoid and nasopharyngeal airway by deep learning model based on U-Net network.
Methods
From March 2021 to March 2022, 240 children underwent cone beam computed tomography(CBCT) in the Department of Otolaryngology, Head and Neck Surgery, General Hospital of Shenzhen University. 52 of them were selected for manual labeling of nasopharynx airway and adenoid, and then were trained and verified by the deep learning model. After applying the model to the remaining data, compare the differences between conventional two-dimensional indicators and deep learning three-dimensional indicators in 240 datasets.
Results
For the 52 cases of modeling and training data sets, there was no significant difference between the prediction results of deep learning and the manual labeling results of doctors(P>0.05). The model evaluation index of nasopharyngeal airway volume: Mean Intersection over Union(MIOU) s (86.32±0.54)%; Dice Similarity Coefficient(DSC): (92.91±0.23)%; Accuracy: (95.92±0.25)%; Precision: (91.93±0.14)%; and the model evaluation index of Adenoid volume: MIOU: (86.28±0.61)%; DSC: (92.88±0.17)%; Accuracy: (95.90±0.29)%; Precision: (92.30±0.23)%. There was a positive correlation between the two-dimensional index A/N and the three-dimensional index AV/(AV+NAV) in 240 children of different age groups(P < 0.05), and the correlation coefficient of 9-13 years old was 0.74.
Conclusion
The deep learning model based on U-Net network has a good effect on the automatic image segmentation of adenoid and nasopharynx airway, and has high application value. The model has a certain generalization ability.
Keywords: U-Net network, fully automatic image segmentation, adenoid, airway of nasopharynx, cone beam computed tomography
腺样体肥大作为儿童阻塞性睡眠呼吸暂停综合征(OSA)的重要病因之一,对于儿童的生长发育以及外貌容颜等均有极大影响。既往临床对于腺样体肥大的评估多采用电子鼻咽镜检查或鼻咽侧位片,但电子鼻咽镜检查受患儿配合度、拍摄远近、角度、光线、局部分泌物等多因素影响,主观性大。而鼻咽侧位片图像分辨率较低且仅能提供二维信息,存在测量误差,无法全面、准确的评估腺样体情况。因此,需要一种操作简单、结果精准的测量方法来对腺样体肥大进行客观评估[1]。
锥形束计算机断层扫描(cone-beam computed Tomography,CBCT)因其辐射量低、成本低、伪影少、扫描时间短等特点,在国内医院已由口腔科逐步扩展至耳鼻喉科开展应用[2]。CBCT可在冠状位、矢状位和水平位提供连续的薄层切片,定量给出各组织器官的大小、形状、位置等毗邻信息,通过三维或四维图像重建,进行人体各器官模型的可视化搭建。但是,由于临床检查患者多,检查工作耗时,放射科医生习惯性沿用二维的A/N比值进行腺样体是否肥大的简单判断,致使大量有意义的临床信息数据丢失。
图像分割作为非侵入式计算机诊断系统的关键步骤,可对图像中目标组织器官进行有效分割提取,通过三维重建获得完整的信息。我们拟通过全自动图像分割的方法,针对不同年龄段儿童进行鼻咽部气道及腺样体的三维重建,通过基于注意力机制的编码-解码卷积神经网络的U-Net网络进行图像分割,以实现对儿童鼻咽气道及腺样体三维数据的精准获取,建立基于CBCT的全自动腺样体及鼻咽气道图像分割模型,以期寻找新的客观、精确、方便的腺样体肥大诊断方法。
1. 资料与方法
1.1. 临床资料
本研究回顾与分析2021年3月-2022年3月因睡眠打鼾或张口呼吸在深圳大学总医院耳鼻咽喉头颈外科进行CBCT检查的患儿240例,其中男134例,女106例。依据不同年龄段分为:2~5岁103例;6~9岁106例;10~14岁31例。
纳入标准:①年龄2~14岁;②有睡眠打鼾或张口呼吸病史;③足月产,且出生时身高、体重在正常范围内,喂养史、成长史均无特殊情况。
排除标准:①检查前1周上呼吸道感染史、各类型鼻炎、鼻窦炎、扁桃体炎急性发作史;②有先天性、遗传性疾病及颅面部畸形;③既往行腺样体切除术;④未能完成检查者。
1.2. 检查方法
CBCT通过360度锥束成像获得扫描。使用美国生产的卡瓦DEXIS i-CAT FLX CBCT扫描仪。患儿清醒时坐位拍摄,头部固定在支架上,CBCT设备由SmartScan STUDIO软件操作。扫描定位方法调节座椅高度椅面通常位于顶槽中,使用水平激光将高度设置在患者微笑线处,将患者头部固定在头托中,并在前额系上头带,下颌倾斜,咬合面应水平。外部参考:鼻翼耳屏线水平。拍摄参数:管电压120 kV,管电流5 mA,扫描时间4.8 s,视野(FOV)160 mm×100 mm,层厚0.3 mm。CBCT的辐射剂量因参数的不同而不同,一般在79.6~985.6 mGy/cm2的范围内,相当于平均2.9张全景X线片。使用Invivo软件重建扫描CBCT数据,可以同时获得轴向、矢状面和冠状面数据。CBCT配备稳定的坐式定位系统,扫描过程中无运动伪影,确保图像的精准度。
1.3. 人工标注
在标注软件3D-Slicer5.0.3中,由两名耳鼻喉科医生(副主任医师1名、主治医师1名)在确定腺样体边界及鼻咽气道边界统一标准后,对CBCT图像进行腺样体及鼻咽腔逐帧勾勒,再将结果保存并生成3D模型。
1.4. 机器学习
本文采用基于注意力机制和编码-解码架构的U-Net网络[3]来进行医学影像的自动化处理。U-Net整体结构见图 1,输入为一张预处理的三维医学图像,输出为预测的分割结果。其中编码器用于提取图像特征,解码器基于抽象特征恢复到原图像的分辨率,这个框架在编码部分使用了多分辨率融合以及残差链接,在上采样过程中深层信息与浅层信息融合是通过拼接的方式,以保留更多图像的细节。
首先对扫描得到的CTCB数据进行预处理。预处理的内容包括数据格式的转换,裁剪crop,重采样resample以及标准化normalization。使用对应的Python库将数据进行读取,转换成numpy数组后再进行后续处理。采用NRRD的数据格式转换扫描所得CT图像。图像统一尺寸裁剪至536 pixel×536 pixel×440 pixel,去除目标以外的黑色无用区域,以便输入网络。最后将图像进行重采样到0.3 mm,并将耳鼻喉科医生标记进行归一化处理后输入网络中,得到基于深度学习重建出来患者的鼻咽部气道和腺样体。
由于内存限制,采用基于patch的训练和测试方法,每一个patch都是原始图像的子集,选择较小的patchsize,减少训练时间并能学到足够的细节信息。取patch的策略是从整个图像中随机均匀取样,使用边界框限制patch生成的区域,依据目标的先验位置根据蒙特卡洛方法,采样图像块进行训练。另取一定比例的背景样本,以便学习阴性区域的特征。
在预测阶段,同样需要在图像采样patch。在新图像上推断时,依据同样的采样方法和局部采样密度,对分割预测结果进行融合,见图 2。
1.5. 测量指标
1.5.1. 二维指标
沿用临床鼻咽侧位片腺样体的评估指标,腺样体厚度(adenoid,A):测量基准点与腺样体最突点间的直线距离;鼻咽腔宽度(nasopharynx,N):基准点与软腭间的垂直距离;A/N比值:腺样体厚度/鼻咽腔宽度。
1.5.2. 三维指标
鼻咽部气道体积(nasopharynx airway volume,NAV):气道三维重建后的容积取下鼻甲后方鼻咽穹窿至软腭以上区域为鼻咽腔,计算其体积NAV;腺样体体积(adenoids volume,AV):取鼻咽穹隆后部,附着于鼻咽的顶壁和后壁交界处,两侧咽隐窝之间的组织为腺样体(adenoids),计算其体积AV;计算腺样体体积与鼻咽腔体积和腺样体体积之和的比值(AV/AV+NAV)。
1.5.3. 深度学习模型指标
切交并比(Mean Intersection over Union,MIOU)是计算真实值和预测值两个集合的交集和并集之比;相似系数(Dice Similarity Cofficient,DSC)用于度量两个集合的相似度,取值范围为[0, 1],值越大,表示两个集合越相似。常用于计算闭合区域的相似性;准确率(Accuracy),指预测正确的样本数÷样本数总数(Precision),指预测为目标的样本里面,有多少为真实目标的比例。
1.6. 统计学方法
应用SPSS 26.0进行数据处理,对所有资料进行正态分布检验与方差齐性检验,符合正态分布且方差齐的数据,以X±S表示,采用配对t检验进行比较。用Spearman秩相关检验分析进行相关分析。以P < 0.05为差异有统计学意义。
2. 结果
2.1. 一般资料
240例患儿基本情况见表 1。
表 1.
特征 | 2~5岁(n=103) | 6~9岁(n=106) | 10~14岁(n=31) |
性别(男/女) | 52/51 | 62/44 | 20/11 |
年龄/岁 | 4.45±0.91 | 7.85±1.15 | 11.38±1.06 |
身高/cm | 109.95±7.96 | 129.79±11.59 | 148.32±13.19 |
体重/kg | 18.62±4.33 | 27.49±9.04 | 44.87±14.03 |
BMI/(kg/m2) | 15.25±2.10 | 15.95±2.70 | 19.88±3.93 |
2.2. 深度学习分割与人工标注比较
由两名耳鼻喉科医生指导进行人工标注52例患者的AV和NAV,取其中34例使用U-Net网络进行训练,并预测剩下的18例影像,结果显示,深度学习预测结果与医生标注结果差异均无统计学意义,见表 2、图 3、图 4,模型评价指标结果见表 3。
表 2.
特征 | 医生人工标注 | 深度学习分割 | t | P |
腺样体体积/mm3 | 2 387.30±572.82 | 2 647.00±591.80 | 1.231 | 0.43 |
鼻咽气道体积/mm3 | 3 336.00±664.00 | 3 877.18±871.54 | 0.490 | 0.81 |
表 3.
特征 | 均交并比/% | 相似系数/% | 准确度/% | 精准度/% |
腺样体体积 | 86.28±0.61 | 92.88±0.17 | 95.90±0.29 | 92.30±0.23 |
鼻咽部气道体积 | 86.32±0.54 | 92.91±0.23 | 95.92±0.25 | 91.93±0.14 |
2.3. 二维CT指标、三维CT指标的结果及相关性分析
不同的年龄段CBCT的二维指标(咽部气道宽度、A、N、A/N)和深度学习计算出的三维指标[AV、NAV、AV/(NAV+AV),AV/AV+NAV]在不同年龄段中的测量结果,见表 4。A/N与AV/(AV+NAV)的值3组年龄段均呈正相关性(P < 0.05),2~5岁组的相关系数为0.52,6~9岁组的相关系数为0.63,10~14岁组的相关系数为0.74。
表 4.
特征 | 2~5岁组(n=103) | 6~9岁组(n=106) | 10~14岁组(n=31) |
二维指标 | |||
咽部气道宽度/mm | 4.44±1.87 | 6.81±2.56 | 8.41±3.52 |
腺样体厚度/mm | 15.73±2.75 | 15.14±2.87 | 15.39±3.09 |
鼻咽腔宽度/mm | 19.97±2.23 | 21.93±1.96 | 23.60±2.77 |
腺样体厚度/鼻咽腔宽度 | 0.78±0.09 | 0.69±0.11 | 0.66±0.13 |
三维指标 | |||
腺样体体积/mm3 | 2 142.20±759.07 | 2 420.96±920.61 | 2 566.32±797.11 |
鼻咽气道体积/mm3 | 3 163.86±1 262.76 | 4 141.02±1 395.45 | 4 778.77±2 263.27 |
腺样体体积/鼻咽腔体积+腺样体体积 | 0.35±0.13 | 0.32±0.15 | 0.30±0.16 |
3. 讨论
上呼吸道的通畅程度与儿童颜面生长发育密切相关。腺样体作为鼻咽部的关键占位性病变对儿童颜面发育起到重要影响,如何精准的测量并评估腺样体的影响一直是耳鼻喉科医生及患儿家属关注的领域。
随着计算机视觉和图形学的快速发展,数字化医疗为临床诊断提供了更多精准的评估。CBCT扫描仪在短短的数秒钟内围绕患者头部旋转拍摄即可得500张以上图像,这些海量、高清晰度的影像数据可以为临床诊断提供更为详细、全面和准确的诊断信息,但在图像数据处理上也明显增加了医生的工作强度,因而在实际操作过程中,放射科医生还在采用1979年Fujioka等[4]提出的A/N测量法进行简单的腺样体大小评估,损失了大量有效信息,也使得影像诊断腺样体有无肥大与临床症状并不完全匹配。若要有效利用CBCT提供的三维数据,需要依赖医生的专家知识和临床经验,从大量的影像数据中手动勾画病灶区域,这一过程不仅耗时耗力、单调乏味,而且分割结果的重复性差、主观性强,对医生手动勾画的准确性与效率要求极高,在繁忙的临床工作中,许多精准的三维信息无法被有效利用。因此,在人工智能高速发展的现今,利用深度学习网络对各模态医学影像进行自动/半自动的处理与分析,定量和定性地分析器官组织结构,对人工智能辅助疾病诊断尤为重要。
本研究中,我们在国内首次采用基于注意力机制和编码-解码架构的U-Net网络进行腺样体及鼻咽气道体积预测。U-Net[5]是一种常用的语义分割网络,基于FCN[6]的编码-解码卷积神经网络结构。它由两个路径组成:特征提取路径和特征复原路径。在特征提取路径中,输入数据经过传统的特征提取操作,生成由特征组成的特征图。然后,在特征复原路径中,这些提取的特征通过解码操作转换成与原始图像尺寸相同的分割预测图像。相比于FCN网络,U-Net在扩展路径上保留了更多的特征图通道,以便更多的信息能够流入最终复原的分割图像中。为了减少压缩路径上的信息丢失,U-Net将压缩路径的特征图与扩展路径上的特征图叠加,并通过卷积和上采样操作来整合更多的信息,以进行图像分割。在处理数据量不够的问题上,可以使用数据增强的方法,采用弹性变形的图像增广,以此让网络学习更稳定的图像特征。本研究中,我们先行医生人工标注52例鼻咽部气道和勾勒腺样体边界,对其中34例利用U-Net网络进行模型训练,使用训练好的模型预测剩下18例的分割结果。本研究结果显示,使用深度学习的U-Net网络可以有效地将鼻咽部气道和腺样体预测并分割出来,且与医生人工标注的误差很小,可以作为真实标签来分析患者。无论是对于腺样体体积测量还是鼻咽气道体积测量,医生人工标注后计算与深度学习分割的相似度、准确率及精确率指标均达91%以上,说明模型具有较高的应用价值。这与Leonardi等[7]针对CBCT的鼻窦及咽喉气道标注结果类似。该模型的应用将大大减少医生诊断时间,提高效率。同时,采用深度学习的方法可以避免不同医生之间的差异性,使标签具有唯一性。
因儿童不同年龄期生长发育快慢不一,所以我们将本研究纳入儿童分为2~5岁组、6~9岁组、10~14岁组。2~5岁与6~9岁均为腺样体增长时期,前者鼻咽腔相对较小,后者鼻咽腔相对较大,而10~14岁则腺样体增长达高峰,部分开始萎缩。本研究结果显示,3个年龄段A/N与AV/(AV+NAV)均呈正相关,年龄越大,相关系数越高,考虑与鼻咽腔的大小导致数据的勾勒精准度有差异相关。同时我们也可看出,AV/(AV+NAV)的比值明显小于A/N,提示在临床评估腺样体大小时仅仅二维比值远无法与实际相统一。
本研究仅针对有睡眠打鼾或张口呼吸的患儿进行腺样体及鼻咽气道的深度学习模型建立,初步探讨利用U-Net网络建立儿童腺样体及鼻咽气道全自动图像分割的可行性,之后可进一步完善上气道相关结构(包括鼻腔及口腔、下咽腔等)的深度学习模型建立,再结合PSG监测,可对OSA患儿整体上气道阻塞评估做全面的辅助诊断。另外,今后可以进一步扩充数据集数量,将对低年龄组数据获得更有裨益。
综上所述,本研究在国内率先应用U-Net网络对儿童腺样体及鼻咽气道进行全自动图像分割深度学习模型的建立,其模型评价指标良好,可提供精确的儿童鼻咽部腺样体体积及鼻咽腔占比,为今后进一步研究导致OSA的腺样体肥大的三维诊断标准提供有利的大数据计算模型。在本研究中,深度学习分割与医生人工标注相比,具有高度的相似度、准确率及精确率,充分表明该深度学习模型可以精准、高效的获得临床数据,进一步提高临床工作效率。
Funding Statement
深圳市“医疗卫生三名工程”项目资助(No:SZSM202003003);深圳市科技计划资助(No:JCYJ20200109114244249;JSGG20220606140202005)
Footnotes
利益冲突 所有作者均声明不存在利益冲突
Contributor Information
高 毅 (Yi GAO), Email: gaoyi@szu.edu.cn.
张 庆丰 (Qingfeng ZHANG), Email: zxyyebh@163.com.
References
- 1.师 炎敏, 裴 晓婷, 李 润涛, et al. CT容积模型分析儿童腺样体大小与鼻咽腔容积的相关性. 中国医学影像技术. 2020;36(3):377–381. [Google Scholar]
- 2.杨 文麒, 张 亚琼, 郭 靖晗, et al. 儿童阻塞性睡眠呼吸暂停低通气综合征上气道形态的锥形束CT研究. 口腔疾病防治. 2022;30(11):792–797. [Google Scholar]
- 3.徐光宪, 冯春, 马飞. 基于UNet的医学图像分割综述[J/OL]. 计算机科学与探索, 2023: 1-18.
- 4.Fujioka M, Young LW, Girdany BR. Radiographic evaluation of adenoidal size in children: adenoidal-nasopharyngeal ratio. AJR Am J Roentgenol. 1979;133(3):401–404. doi: 10.2214/ajr.133.3.401. [DOI] [PubMed] [Google Scholar]
- 5.Anwar SM, Majid M, Qayyum A, et al. Medical Image Analysis using Convolutional Neural Networks: A Review. J Med Syst. 2018;42(11):226. doi: 10.1007/s10916-018-1088-1. [DOI] [PubMed] [Google Scholar]
- 6.Huang SY, Hsu WL, Hsu RJ, et al. Fully Convolutional Network for the Semantic Segmentation of Medical Images: A Survey. Diagnostics (Basel) 2022;12(11):2765. doi: 10.3390/diagnostics12112765. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 7.Leonardi R, Lo Giudice A, Farronato M, et al. Fully automatic segmentation of sinonasal cavity and pharyngeal airway based on convolutional neural networks. Am J Orthod Dentofacial Orthop. 2021;159(6):824–835. doi: 10.1016/j.ajodo.2020.05.017. [DOI] [PubMed] [Google Scholar]