. 2024 Apr 1;19(4):e0301098. doi: 10.1371/journal.pone.0301098

Table 7. Supervised Audiovisual Correspondence performance.

Training Set	Embeddings	RNN	Loss	Acc. (%)
AVMIT	YamNet + EffNetB0	FRNN	0.4223	81.30
MIT 16	YamNet + EffNetB0	FRNN	0.5371	73.33
AVMIT	YamNet + EffNetB0	GRU	0.3971	81.82
MIT 16	YamNet + EffNetB0	GRU	0.5124	75.47
AVMIT	YamNet + EffNetB0	LSTM	0.4006	82.24
MIT 16	YamNet + EffNetB0	LSTM	0.5143	74.17
AVMIT	VGGish + VGG-16	FRNN	0.5352	73.18
MIT 16	VGGish + VGG-16	FRNN	0.5695	71.09
AVMIT	VGGish + VGG-16	GRU	0.5289	72.92
MIT 16	VGGish + VGG-16	GRU	0.6921	67.19
AVMIT	VGGish + VGG-16	LSTM	0.4671	77.55
MIT 16	VGGish + VGG-16	LSTM	0.7877	58.39