. 2023 Jun 6;36(5):2179–2193. doi: 10.1007/s10278-023-00825-w

Table 5.

Agreement of 2d and 3d CNN predictions with visual and manual annotations over the training and test data sets. Mean, standard deviation, and sample size of Dice scores for segmentation are reported

2d CNN	Visual		Manual
*Dice score*	Train	Test	Train	Test
All	0.69 ± 0.09 (n = 50)	0.63 ± 0.10 (n = 10)	0.73 ± 0.15 (n = 50)	0.65 ± 0.20 (n = 10)
Foregut	0.54 ± 0.17 (n = 50)	0.49 ± 0.21 (n = 10)	0.39 ± 0.32 (n = 24)	0.22 ± 0.26 (n = 8)
Midgut	0.55 ± 0.13 (n = 50)	0.48 ± 0.09 (n = 10)	0.50 ± 0.28 (n = 44)	0.44 ± 0.28 (n = 9)
Hindgut	0.38 ± 0.14 (n = 50)	0.30 ± 0.14 (n = 10)	0.35 ± 0.27 (n = 48)	0.30 ± 0.26 (n = 9)
3d CNN	Visual		Manual
*Dice score*	Train	Test	Train	Test
All	0.75 ± 0.06 (n = 50)	0.69 ± 0.07 (n = 10)	0.75 ± 0.14 (n = 50)	0.69 ± 0.17 (n = 10)
Foregut	0.64 ± 0.12 (n = 50)	0.52 ± 0.19 (n = 10)	0.48 ± 0.33 (n = 27)	0.31 ± 0.27 (n = 8)
Midgut	0.59 ± 0.13 (n = 50)	0.55 ± 0.13 (n = 10)	0.59 ± 0.24 (n = 37)	0.47 ± 0.30 (n = 8)
Hindgut	0.51 ± 0.18 (n = 50)	0.38 ± 0.14 (n = 10)	0.45 ± 0.30 (n = 46)	0.44 ± 0.20 (n = 8)