. Author manuscript; available in PMC: 2022 May 11.

Published in final edited form as: Proc IEEE Int Conf Comput Vis. 2021 Oct;2021:13557–13567. doi: 10.1109/iccv48922.2021.01332

Table 6:

Results on Kinetics-700 dataset (K700), Charades dataset (Chad), something-something-V2 dataset (SS), UCF-101 and HMDB (HM) dataset. The evaluation metrics are mean average precision (mAP) in percentage for Charades (32×4 input is used), top-1 accuracy for Kinetics 700, something-something-V2 (TSN styled dataloader is used), UCF and HMDB.

Model	Input	K700	Chad	SS	UCF	HM

I3D [7]	32×2	58.7	32.9	50.0	95.1	74.3
TSM [37]	8(TSN)	-	-	59.3	94.5	70.7
I3D101 [59]	32 × 4	40.3	-	-	-
CSN152 [49]	32 × 2	70.1	-	-	-	-
TEINet[39]	16 (TSN)	-	-	62.1	96.7	73.3
SF101 [19]	64×2	70.2	-	60.9	-	-
SF101-NL [19]	64×2	70.6	45.2	-	-	-
X3D-XL [18]	16 × 5	-	47.1	-	-	-

VidTr-M	16 × 4	69.5	-	61.9	96.6	74.4
VidTr-L	32 × 2	70.2	43.5	63.0	96.7	74.4
En-VidTr-L	32 × 2	70.8	47.3	-	-	-