. 2023 Dec 13;21(12):e3002366. doi: 10.1371/journal.pbio.3002366

Table 5. DeepSpeech2 architecture.

Input	(201, 161)
Conv2d_1(in_channels = 1, out_channels = 32, kernel_size = [41,11], stride = [2,2], padding = [20,5])	[32, 81, 101]
BatchNorm2d_1(num_features = 32)	[32, 81, 101]
HardTanh_1(min_val = 0, max_val = 20)	[32, 81, 101]
Conv2d_2(in_channels = 32, out_channels = 32, kernel_size = [21,11], stride = [2,1], padding = [10,5])	[32, 41, 101]
BatchNorm2d_2(num_features = 32)	[32, 41, 101]
HardTanh_2(min_val = 0, max_val = 20)	[32, 41, 101]
LSTM_1(input_size = 1,312, hidden_size = 1,024, bidirectional = True)	(2, 1,024)
SequenceWise BatchNorm1d_1(num_features = 1,024)	(101, 1,024)
LSTM_2(input_size = 1,024, hidden_size = 1,024, bidirectional = True)	(2, 1,024)
SequenceWise BatchNorm1d_2(num_features = 1,024)	(101, 1,024)
LSTM_3(input_size = 1,024, hidden_size = 1,024, bidirectional = True)	(2, 1,024)
SequenceWise BatchNorm1d_3(num_features = 1,024)	(101, 1,024)
LSTM_4(input_size = 1,024, hidden_size = 1,024, bidirectional = True)	(2, 1,024)
SequenceWise BatchNorm1d_4(num_features = 1,024)	(101, 1,024)
LSTM_5(input_size = 1,024, hidden_size = 1,024, bidirectional = True)	(2, 1,024)
BatchNorm1d_5(num_features = 1,024)	(101, 1,024)
Linear_1(in_features = 1,024, out_features = 29	[101, 29]