TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Spatio-Temporal Action Localization	AVA-Kinetics	ACAR (multi-scale, ensemble)	val mAP	40.49	# 5
Spatio-Temporal Action Localization	AVA-Kinetics	ACAR (multi-scale, ensemble)	test mAP	39.62	# 1
Spatio-Temporal Action Localization	AVA-Kinetics	ACAR (multi-scale, R-101, 8 × 8)	val mAP	36.36	# 7
Action Recognition	AVA v2.1	ACAR-Net, SlowFast R-101 (Kinetics-400 pretraining)	mAP (Val)	30.0	# 2
Action Recognition	AVA v2.2	ACAR-Net, SlowFast R-101 (Kinetics-700 pretraining)	mAP	31.72	# 24

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/actor-context-actor-relation-network-for/action-recognition-in-videos-on-ava-v21)](https://paperswithcode.com/sota/action-recognition-in-videos-on-ava-v21?p=actor-context-actor-relation-network-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/actor-context-actor-relation-network-for/spatio-temporal-action-localization-on-ava)](https://paperswithcode.com/sota/spatio-temporal-action-localization-on-ava?p=actor-context-actor-relation-network-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/actor-context-actor-relation-network-for/action-recognition-on-ava-v2-2)](https://paperswithcode.com/sota/action-recognition-on-ava-v2-2?p=actor-context-actor-relation-network-for)`

Actor-Context-Actor Relation Network for Spatio-Temporal Action Localization

CVPR 2021 · Junting Pan, Siyu Chen, Mike Zheng Shou, Yu Liu, Jing Shao, Hongsheng Li ·

Localizing persons and recognizing their actions from videos is a challenging task towards high-level video understanding. Recent advances have been achieved by modeling direct pairwise relations between entities. In this paper, we take one step further, not only model direct relations between pairs but also take into account indirect higher-order relations established upon multiple elements. We propose to explicitly model the Actor-Context-Actor Relation, which is the relation between two actors based on their interactions with the context. To this end, we design an Actor-Context-Actor Relation Network (ACAR-Net) which builds upon a novel High-order Relation Reasoning Operator and an Actor-Context Feature Bank to enable indirect relation reasoning for spatio-temporal action localization. Experiments on AVA and UCF101-24 datasets show the advantages of modeling actor-context-actor relations, and visualization of attention maps further verifies that our model is capable of finding relevant higher-order relations to support action detection. Notably, our method ranks first in the AVA-Kineticsaction localization task of ActivityNet Challenge 2020, out-performing other entries by a significant margin (+6.71mAP). Training code and models will be available at https://github.com/Siyu-C/ACAR-Net.

PDF Abstract CVPR 2021 PDF CVPR 2021 Abstract

Code

Add Remove Mark official

Siyu-C/ACAR-Net official

198

towhee-io/towhee

2,996

salmank255/ROADSlowFast

Tasks

Add Remove

Action Detection

Action Localization

Action Recognition

Relation

Relation Network

Spatio-Temporal Action Localization

Temporal Action Localization

Video Understanding

Datasets

Kinetics

AVA

Kinetics-700

Results from the Paper

Edit

Ranked #2 on Action Recognition on AVA v2.1

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Spatio-Temporal Action Localization	AVA-Kinetics	ACAR (multi-scale, ensemble)	val mAP	40.49	# 5	Compare
Spatio-Temporal Action Localization	AVA-Kinetics	ACAR (multi-scale, ensemble)	test mAP	39.62	# 1	Compare
Action Recognition	AVA v2.1	ACAR-Net, SlowFast R-101 (Kinetics-400 pretraining)	mAP (Val)	30.0	# 2	Compare
Action Recognition	AVA v2.2	ACAR-Net, SlowFast R-101 (Kinetics-700 pretraining)	mAP	31.72	# 24	Compare

Results from Other Papers

Task	Dataset	Model	Metric Name	Metric Value	Rank	Uses Extra Training Data	Source Paper	Compare
Spatio-Temporal Action Localization	AVA-Kinetics	ACAR (multi-scale, R-101, 8 × 8)	val mAP	36.36	# 7			See all

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

Actor-Context-Actor Relation Network for Spatio-Temporal Action Localization

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit