. 2022 Dec 9;3(12):100616. doi: 10.1016/j.patter.2022.100616

Table 2.

An overview of the recent audio self-supervised learning methods

Model	Speech	Input format	Framework	Encoder	Loss	Inspired by
LIM⁷³ (2019)	✓	raw waveform	1(b)	SincNet	BCE, MINE, or NCE loss	SimCLR
COLA⁷⁴ (2021)	✗	log mel-filterbanks	1(b)	EfficientNet	InfoNCE loss	SimCLR
CLAR⁸¹ (2021, semi)	✗	raw waveform log mel-spectrogram	1(b)	1D ResNet-18 ResNet-18	NT-Xent + cross-entropy	SimCLR
Fonseca et al.⁷⁵ (2021)	✗	log mel-spectrogram	1(b)	ResNet, VGG, CRNN	NT-Xent loss	SimCLR
Wang et al.⁸² (2020)	✗	raw waveform + log mel-filterbanks	1(b)	CNN ResNet	NT-Xent loss + cross-entropy	SimCLR
BYOL-A⁸³ (2021)	✗	log mel-spectrogram	2(a)	CNN	MSE loss	BYOL
Carr³⁷ (2021)	✓	MFCCs	1(a)	context-free network	Fenchel-Young loss	–
Ryan³⁸ (2020)	✗	constant-Q transform spectrogram	1(a)	AlexNet	triplet loss	–
Speech2Vec⁹⁰ (2018)	✓	mel spectrogram	3	RNN	MSE loss	Word2Vec
Audio2Vec⁸⁹ (2020)	✓✗	MFCCs	3	CNN	MSE loss	Word2Vec
DeCoAR⁹¹ (2020)	✓	log filterbank features	3	RNN	L1 loss	Word2Vec
Audio Word2Vec¹⁹⁵ (2019)	✓	MFCCs	3	RNN	MSE loss	Word2Vec
Mockingjay⁹⁵ (2020)	✓	mel spectrogram	4(b)	transformer	L1 loss	BERT
TERA⁹⁶ (2021)	✓	log mel spectrogram	4(b)	transformer	L1 loss	BERT
Audio ALBERT⁹⁸ (2021)	✓	log mel spectrogram	4(b)	transformer	L1 loss	BERT
DAPC⁹⁹ (2021)	✓	spectrogram	4(b)	transformer	modified MSE loss + orthogonality penalty	BERT
PASE⁸⁵ (2019)	✓	raw waveform	1(a)	SincNet + CNN	L1, BCE loss	MTL
PASE+⁸⁷ (2020)	✓	raw waveform	1(a)	SincNet + CNN + QRNN	MSE, BCE loss	MTL
APC⁶⁶ (2019)	✓	log mel spectrogram	4(a)	RNN	L1 loss	–
VQ-APC¹¹⁴ (2020)	✓	log mel spectrogram	4(a)	RNN, transformer	L1 loss	–
NPC⁶⁹ (2021)	✓	log mel spectrogram	–	CNN + masked CNN	L1 loss	–
CPC⁴² (2018)	✓	raw waveform	4(a)	ResNet + GRU	InfoNCE loss	–
CPC v2⁷¹ (2020)	✓	raw waveform	4(a)	ResNet + masked CNN	InfoNCE loss	–
CPC2⁹³ (2021)	✓	raw waveform	4(a)	ResNet + LSTM	InfoNCE loss	–
wav2vec⁷⁷ (2019)	✓	raw waveform	4(a)	1D CNN	contrastive loss	–
VQ-wav2vec⁷⁸ (2019)	✓	raw waveform	4(a)	1D CNN + BERT	contrastive loss	BERT
wav2vec 2.0⁷² (2020)	✓	raw waveform	4(b)	1D CNN + transformer	contrastive loss	BERT
HuBERT¹¹² (2021)	✓	raw waveform	4(b)	1D CNN + transformer	contrastive loss	BERT
WavLM¹¹³ (2022)	✓	raw waveform	4(b)	1D CNN + transformer	contrastive loss	BERT

Model, speech (i.e., whether a method addresses speech tasks or it is designed for general audio representations), framework (referring to Figures 1, 2, 3, and 4), encoder, loss, and the previous technology by which the methods are inspired, are given.