Skip to main content
. 2024 Apr 1;19(4):e0301098. doi: 10.1371/journal.pone.0301098

Table 7. Supervised Audiovisual Correspondence performance.

Training Set Embeddings RNN Loss Acc. (%)
AVMIT YamNet + EffNetB0 FRNN 0.4223 81.30
MIT 16 YamNet + EffNetB0 FRNN 0.5371 73.33
AVMIT YamNet + EffNetB0 GRU 0.3971 81.82
MIT 16 YamNet + EffNetB0 GRU 0.5124 75.47
AVMIT YamNet + EffNetB0 LSTM 0.4006 82.24
MIT 16 YamNet + EffNetB0 LSTM 0.5143 74.17
AVMIT VGGish + VGG-16 FRNN 0.5352 73.18
MIT 16 VGGish + VGG-16 FRNN 0.5695 71.09
AVMIT VGGish + VGG-16 GRU 0.5289 72.92
MIT 16 VGGish + VGG-16 GRU 0.6921 67.19
AVMIT VGGish + VGG-16 LSTM 0.4671 77.55
MIT 16 VGGish + VGG-16 LSTM 0.7877 58.39