. 2023 Apr 28;13:6986. doi: 10.1038/s41598-023-34190-z

Table 3.

Structure of the backbone feature extraction network.

Input	Layer	Filter Size	exp size	out	ECA	NL	stride
320² × 3	Convolution	3 × 3	–	16	False	h-swish	1
320² × 16	Bottleneck1	3 × 3	16	16	False	ReLU	1
320² × 16	Bottleneck2	3 × 3	64	24	False	ReLU	2
160² × 24	Bottleneck3	3 × 3	72	24	False	ReLU	1
160² × 24	TF-Bottleneck1	5 × 5	72	40	True	ReLU	2
80² × 40	TF-Bottleneck2	5 × 5	120	40	True	ReLU	1
80² × 40	TF-Bottleneck3	5 × 5	120	40	True	ReLU	1
80² × 40	Bottleneck4	3 × 3	240	80	False	h-swish	2
40² × 80	Bottleneck5	3 × 3	200	80	False	h-swish	1
40² × 80	Bottleneck6	3 × 3	184	80	False	h-swish	1
40² × 80	Bottleneck7	3 × 3	184	80	False	h-swish	1
40² × 80	TF-Bottleneck4	3 × 3	480	112	True	h-swish	1
40² × 112	TF-Bottleneck5	3 × 3	672	112	True	h-swish	1
40² × 112	TF-Bottleneck6	5 × 5	672	160	True	h-swish	2
20² × 160	TF-Bottleneck7	5 × 5	960	160	True	h-swish	1
20² × 160	TF-Bottleneck8	5 × 5	960	160	True	h-swish	1
20² × 160	Flatten	–	–	–	False	–	–
1² × 64,000	Dense	–	–	128	False	–	–