Table 4:

Detailed accuracy for ablation experiments using LOMO evaluation. All tests are on FL data. Last column repeats LOMO results from Table 1 to facilitate comparison. RF is random forest, SSH is our semi-supervised hierarchical classifier.

	Train lab, RF		Train lab+FL, RF		Train lab, SSH		Train lab+FL, SSH
	% Total	Acc	% Total	Acc	% Total	Acc	% Total	Acc
Level 1	40.8	68.2	45.4	70.3	29.9	82.2	35.8	86.4
Level 2	36.7	61.8	30.5	71.2	35.1	80.1	30.2	85.5
Level 3	15.5	50.3	17.5	60.9	26.2	69.9	28.7	77.8
Level 4	7.0	48.9	6.7	61.1	8.9	70.4	5.4	74.9

Overall (intakes)		61.7		68.4		77.3		83.1

Meal-level (unweighted)		59.3		68.9		71.9		76.5
Meal-level (weighted)		59.9		68.2		76.7		80.1