Table 7. Supervised Audiovisual Correspondence performance.
Training Set | Embeddings | RNN | Loss | Acc. (%) |
---|---|---|---|---|
AVMIT | YamNet + EffNetB0 | FRNN | 0.4223 | 81.30 |
MIT 16 | YamNet + EffNetB0 | FRNN | 0.5371 | 73.33 |
AVMIT | YamNet + EffNetB0 | GRU | 0.3971 | 81.82 |
MIT 16 | YamNet + EffNetB0 | GRU | 0.5124 | 75.47 |
AVMIT | YamNet + EffNetB0 | LSTM | 0.4006 | 82.24 |
MIT 16 | YamNet + EffNetB0 | LSTM | 0.5143 | 74.17 |
AVMIT | VGGish + VGG-16 | FRNN | 0.5352 | 73.18 |
MIT 16 | VGGish + VGG-16 | FRNN | 0.5695 | 71.09 |
AVMIT | VGGish + VGG-16 | GRU | 0.5289 | 72.92 |
MIT 16 | VGGish + VGG-16 | GRU | 0.6921 | 67.19 |
AVMIT | VGGish + VGG-16 | LSTM | 0.4671 | 77.55 |
MIT 16 | VGGish + VGG-16 | LSTM | 0.7877 | 58.39 |