Skip to main content
. 2021 Apr 14;110(5):989–1028. doi: 10.1007/s10994-021-05968-x

Table 5.

Macro F1 performance across data sets and classifiers

dataset model articles bbc fox hatespeech insults kenyan mbti pan-2017 questions sarcasm semeval-2017 semeval2019 subjects yelp
dummy-stratified 0.05 (0.0) 0.31 (0.02) 0.18 (0.01) 0.77 (0.0) 0.3 (0.02) 0.53 (0.03) 0.14 (0.01) 0.52 (0.11) 0.2 (0.01) 0.49 (0.01) 0.38 (0.01) 0.34 (0.0) 0.37 (0.03) 0.29 (0.01)
LR (word) 0.62 (0.0) 0.96 (0.0) 0.86 (0.0) 0.84 (0.0) 0.58 (0.0) 0.96 (0.0) 0.58 (0.0) 0.77 (0.24) 0.78 (0.0) 0.78 (0.0) 0.51 (0.0) 0.54 (0.02) 0.96 (0.0) 0.49 (0.0)
SVM (word) 0.63 (0.0) 0.96 (0.0) 0.86 (0.0) 0.81 (0.0) 0.63 (0.0) 0.97 (0.0) 0.65 (0.0) 0.82 (0.26) 0.82 (0.0) 0.78 (0.0) 0.45 (0.0) 0.53 (0.03) 0.95 (0.0) 0.49 (0.0)
LR (char) 0.68 (0.0) 0.95 (0.0) 0.8 (0.0) 0.83 (0.0) 0.64 (0.0) 0.95 (0.0) 0.4 (0.0) 0.8 (0.22) 0.76 (0.0) 0.77 (0.0) 0.42 (0.0) 0.54 (0.0) 0.98 (0.0) 0.48 (0.0)
SVM (char) 0.69 (0.0) 0.94 (0.0) 0.82 (0.0) 0.83 (0.0) 0.62 (0.0) 0.96 (0.0) 0.48 (0.0) 0.79 (0.24) 0.78 (0.0) 0.77 (0.0) 0.43 (0.0) 0.56 (0.04) 0.98 (0.0) 0.46 (0.0)
LR (char + word) 0.7 (0.0) 0.96 (0.0) 0.86 (0.0) 0.83 (0.0) 0.64 (0.0) 0.91 (0.0) 0.65 (0.0) 0.81 (0.26) 0.82 (0.0) 0.81 (0.0) 0.42 (0.0) 0.56 (0.0) 0.97 (0.0) 0.5 (0.0)
SVM (char + word) 0.64 (0.0) 0.95 (0.0) 0.88 (0.0) 0.81 (0.0) 0.59 (0.01) 0.97 (0.0) 0.5 (0.0) 0.75 (0.21) 0.78 (0.0) 0.8 (0.04) 0.54 (0.0) 0.56 (0.03) 0.98 (0.0) 0.43 (0.0)
bert-base 0.84 (0.0) 0.99 (0.0) 1.0 (0.0) 0.88 (0.0) 0.78 (0.01) 1.0 (0.02) 0.33 (0.09) 0.68 (0.16) 0.96 (0.0) 0.92 (0.0) 0.67 (0.01) 0.67 (0.01) 0.99 (0.01) 0.58 (0.01)
roberta-base 0.82 (0.0) 0.99 (0.0) 1.0 (0.0) 0.89 (0.01) 0.77 (0.01) 0.99 (0.02) 0.26 (0.07) 0.69 (0.15) 0.96 (0.0) 0.93 (0.0) 0.71 (0.13) 0.67 (0.25) 0.98 (0.0) 0.56 (0.01)
TPOT 0.64 (0.0) 0.97 (0.0) 0.93 (0.01) 0.84 (0.0) 0.62 (0.01) 0.97 (0.0) 0.67 (0.01) 0.82 (0.22) 0.82 (0.0) 0.8 (0.0) 0.53 (0.0) 0.40 (0.0) 0.97 (0.0) 0.53 (0.0)
doc2vec (lr) 0.65 (0.0) 0.98 (0.01) 0.77 (0.01) 0.82 (0.0) 0.39 (0.01) 0.97 (0.01) 0.54 (0.01) 0.81 (0.23) 0.47 (0.0) 0.75 (0.0) 0.34 (0.0) 0.36 (0.01) 0.95 (0.01) 0.49 (0.01)
doc2vec (svm) 0.64 (0.0) 0.97 (0.01) 0.7 (0.01) 0.82 (0.0) 0.39 (0.01) 0.95 (0.01) 0.5 (0.01) 0.79 (0.22) 0.54 (0.01) 0.76 (0.0) 0.34 (0.0) 0.37 (0.01) 0.95 (0.01) 0.47 (0.0)
autoBOT-lr-neural 0.81 (0.0) 0.99 (0.0) 0.85 (0.0) 0.81 (0.0) 0.28 (0.02) 0.95 (0.0) 0.57 (0.0) 0.83 (0.21) 0.53 (0.01) 0.7 (0.0) 0.45 (0.0) 0.36 (0.01) 0.98 (0.0) 0.52 (0.0)
autoBOT-svm-neural 0.81 (0.0) 0.98 (0.0) 0.84 (0.01) 0.82 (0.0) 0.49 (0.01) 0.97 (0.0) 0.59 (0.01) 0.82 (0.19) 0.56 (0.0) 0.74 (0.0) 0.47 (0.01) 0.48 (0.01) 0.98 (0.0) 0.49 (0.0)
autoBOT-lr-symbolic 0.81 (0.0) 0.98 (0.0) 0.85 (0.0) 0.81 (0.0) 0.29 (0.02) 0.96 (0.0) 0.58 (0.0) 0.83 (0.21) 0.54 (0.01) 0.7 (0.0) 0.46 (0.01) 0.37 (0.01) 0.97 (0.0) 0.52 (0.01)
autoBOT-svm-symbolic 0.81 (0.0) 0.98 (0.0) 0.84 (0.01) 0.82 (0.0) 0.48 (0.01) 0.97 (0.0) 0.59 (0.01) 0.82 (0.19) 0.56 (0.01) 0.74 (0.0) 0.47 (0.01) 0.48 (0.01) 0.99 (0.0) 0.49 (0.01)
autoBOT-lr-neurosymbolic 0.81 (0.0) 0.99 (0.0) 0.84 (0.0) 0.81 (0.0) 0.29 (0.02) 0.96 (0.0) 0.58 (0.0) 0.83 (0.21) 0.54 (0.01) 0.7 (0.0) 0.46 (0.01) 0.36 (0.01) 0.97 (0.0) 0.52 (0.0)
autoBOT-svm-neurosymbolic 0.81 (0.0) 0.98 (0.0) 0.84 (0.0) 0.82 (0.0) 0.48 (0.02) 0.97 (0.0) 0.58 (0.0) 0.82 (0.19) 0.56 (0.0) 0.74 (0.0) 0.47 (0.01) 0.47 (0.0) 0.98 (0.0) 0.49 (0.01)
autoBOT-base-neural 0.8 (0.0) 0.99 (0.0) 0.86 (0.01) 0.82 (0.0) 0.49 (0.08) 0.97 (0.01) 0.6 (0.01) 0.84 (0.21) 0.37 (0.06) 0.67 (0.02) 0.34 (0.08) 0.46 (0.06) 0.99 (0.0) 0.52 (0.0)
autoBOT-base-neurosymbolic 0.8 (0.01) 0.99 (0.0) 0.86 (0.01) 0.82 (0.01) 0.63 (0.04) 0.97 (0.01) 0.61 (0.01) 0.84 (0.21) 0.78 (0.02) 0.79 (0.01) 0.54 (0.03) 0.57 (0.04) 0.99 (0.0) 0.52 (0.01)
autoBOT-base-symbolic 0.78 (0.01) 0.99 (0.0) 0.88 (0.01) 0.82 (0.01) 0.66 (0.04) 0.96 (0.01) 0.63 (0.0) 0.83 (0.23) 0.79 (0.01) 0.82 (0.01) 0.56 (0.04) 0.63 (0.06) 0.99 (0.0) 0.48 (0.01)