. 2021 Apr 14;110(5):989–1028. doi: 10.1007/s10994-021-05968-x

Table 5.

Macro F1 performance across data sets and classifiers

dataset model	articles	bbc	fox	hatespeech	insults	kenyan	mbti	pan-2017	questions	sarcasm	semeval-2017	semeval2019	subjects	yelp
dummy-stratified	0.05 (0.0)	0.31 (0.02)	0.18 (0.01)	0.77 (0.0)	0.3 (0.02)	0.53 (0.03)	0.14 (0.01)	0.52 (0.11)	0.2 (0.01)	0.49 (0.01)	0.38 (0.01)	0.34 (0.0)	0.37 (0.03)	0.29 (0.01)
LR (word)	0.62 (0.0)	0.96 (0.0)	0.86 (0.0)	0.84 (0.0)	0.58 (0.0)	0.96 (0.0)	0.58 (0.0)	0.77 (0.24)	0.78 (0.0)	0.78 (0.0)	0.51 (0.0)	0.54 (0.02)	0.96 (0.0)	0.49 (0.0)
SVM (word)	0.63 (0.0)	0.96 (0.0)	0.86 (0.0)	0.81 (0.0)	0.63 (0.0)	0.97 (0.0)	0.65 (0.0)	0.82 (0.26)	0.82 (0.0)	0.78 (0.0)	0.45 (0.0)	0.53 (0.03)	0.95 (0.0)	0.49 (0.0)
LR (char)	0.68 (0.0)	0.95 (0.0)	0.8 (0.0)	0.83 (0.0)	0.64 (0.0)	0.95 (0.0)	0.4 (0.0)	0.8 (0.22)	0.76 (0.0)	0.77 (0.0)	0.42 (0.0)	0.54 (0.0)	0.98 (0.0)	0.48 (0.0)
SVM (char)	0.69 (0.0)	0.94 (0.0)	0.82 (0.0)	0.83 (0.0)	0.62 (0.0)	0.96 (0.0)	0.48 (0.0)	0.79 (0.24)	0.78 (0.0)	0.77 (0.0)	0.43 (0.0)	0.56 (0.04)	0.98 (0.0)	0.46 (0.0)
LR (char + word)	0.7 (0.0)	0.96 (0.0)	0.86 (0.0)	0.83 (0.0)	0.64 (0.0)	0.91 (0.0)	0.65 (0.0)	0.81 (0.26)	0.82 (0.0)	0.81 (0.0)	0.42 (0.0)	0.56 (0.0)	0.97 (0.0)	0.5 (0.0)
SVM (char + word)	0.64 (0.0)	0.95 (0.0)	0.88 (0.0)	0.81 (0.0)	0.59 (0.01)	0.97 (0.0)	0.5 (0.0)	0.75 (0.21)	0.78 (0.0)	0.8 (0.04)	0.54 (0.0)	0.56 (0.03)	0.98 (0.0)	0.43 (0.0)
bert-base	0.84 (0.0)	0.99 (0.0)	1.0 (0.0)	0.88 (0.0)	0.78 (0.01)	1.0 (0.02)	0.33 (0.09)	0.68 (0.16)	0.96 (0.0)	0.92 (0.0)	0.67 (0.01)	0.67 (0.01)	0.99 (0.01)	0.58 (0.01)
roberta-base	0.82 (0.0)	0.99 (0.0)	1.0 (0.0)	0.89 (0.01)	0.77 (0.01)	0.99 (0.02)	0.26 (0.07)	0.69 (0.15)	0.96 (0.0)	0.93 (0.0)	0.71 (0.13)	0.67 (0.25)	0.98 (0.0)	0.56 (0.01)
TPOT	0.64 (0.0)	0.97 (0.0)	0.93 (0.01)	0.84 (0.0)	0.62 (0.01)	0.97 (0.0)	0.67 (0.01)	0.82 (0.22)	0.82 (0.0)	0.8 (0.0)	0.53 (0.0)	0.40 (0.0)	0.97 (0.0)	0.53 (0.0)
doc2vec (lr)	0.65 (0.0)	0.98 (0.01)	0.77 (0.01)	0.82 (0.0)	0.39 (0.01)	0.97 (0.01)	0.54 (0.01)	0.81 (0.23)	0.47 (0.0)	0.75 (0.0)	0.34 (0.0)	0.36 (0.01)	0.95 (0.01)	0.49 (0.01)
doc2vec (svm)	0.64 (0.0)	0.97 (0.01)	0.7 (0.01)	0.82 (0.0)	0.39 (0.01)	0.95 (0.01)	0.5 (0.01)	0.79 (0.22)	0.54 (0.01)	0.76 (0.0)	0.34 (0.0)	0.37 (0.01)	0.95 (0.01)	0.47 (0.0)
autoBOT-lr-neural	0.81 (0.0)	0.99 (0.0)	0.85 (0.0)	0.81 (0.0)	0.28 (0.02)	0.95 (0.0)	0.57 (0.0)	0.83 (0.21)	0.53 (0.01)	0.7 (0.0)	0.45 (0.0)	0.36 (0.01)	0.98 (0.0)	0.52 (0.0)
autoBOT-svm-neural	0.81 (0.0)	0.98 (0.0)	0.84 (0.01)	0.82 (0.0)	0.49 (0.01)	0.97 (0.0)	0.59 (0.01)	0.82 (0.19)	0.56 (0.0)	0.74 (0.0)	0.47 (0.01)	0.48 (0.01)	0.98 (0.0)	0.49 (0.0)
autoBOT-lr-symbolic	0.81 (0.0)	0.98 (0.0)	0.85 (0.0)	0.81 (0.0)	0.29 (0.02)	0.96 (0.0)	0.58 (0.0)	0.83 (0.21)	0.54 (0.01)	0.7 (0.0)	0.46 (0.01)	0.37 (0.01)	0.97 (0.0)	0.52 (0.01)
autoBOT-svm-symbolic	0.81 (0.0)	0.98 (0.0)	0.84 (0.01)	0.82 (0.0)	0.48 (0.01)	0.97 (0.0)	0.59 (0.01)	0.82 (0.19)	0.56 (0.01)	0.74 (0.0)	0.47 (0.01)	0.48 (0.01)	0.99 (0.0)	0.49 (0.01)
autoBOT-lr-neurosymbolic	0.81 (0.0)	0.99 (0.0)	0.84 (0.0)	0.81 (0.0)	0.29 (0.02)	0.96 (0.0)	0.58 (0.0)	0.83 (0.21)	0.54 (0.01)	0.7 (0.0)	0.46 (0.01)	0.36 (0.01)	0.97 (0.0)	0.52 (0.0)
autoBOT-svm-neurosymbolic	0.81 (0.0)	0.98 (0.0)	0.84 (0.0)	0.82 (0.0)	0.48 (0.02)	0.97 (0.0)	0.58 (0.0)	0.82 (0.19)	0.56 (0.0)	0.74 (0.0)	0.47 (0.01)	0.47 (0.0)	0.98 (0.0)	0.49 (0.01)
autoBOT-base-neural	0.8 (0.0)	0.99 (0.0)	0.86 (0.01)	0.82 (0.0)	0.49 (0.08)	0.97 (0.01)	0.6 (0.01)	0.84 (0.21)	0.37 (0.06)	0.67 (0.02)	0.34 (0.08)	0.46 (0.06)	0.99 (0.0)	0.52 (0.0)
autoBOT-base-neurosymbolic	0.8 (0.01)	0.99 (0.0)	0.86 (0.01)	0.82 (0.01)	0.63 (0.04)	0.97 (0.01)	0.61 (0.01)	0.84 (0.21)	0.78 (0.02)	0.79 (0.01)	0.54 (0.03)	0.57 (0.04)	0.99 (0.0)	0.52 (0.01)
autoBOT-base-symbolic	0.78 (0.01)	0.99 (0.0)	0.88 (0.01)	0.82 (0.01)	0.66 (0.04)	0.96 (0.01)	0.63 (0.0)	0.83 (0.23)	0.79 (0.01)	0.82 (0.01)	0.56 (0.04)	0.63 (0.06)	0.99 (0.0)	0.48 (0.01)