AVA-ActiveSpeaker

Introduced by Roth et al. in AVA-ActiveSpeaker: An Audio-Visual Dataset for Active Speaker Detection

Contains temporally labeled face tracks in video, where each face instance is labeled as speaking or not, and whether the speech is audible. This dataset contains about 3.65 million human labeled frames or about 38.5 hours of face tracks, and the corresponding audio.

Source: AVA-ActiveSpeaker: An Audio-Visual Dataset for Active Speaker Detection

Homepage

Benchmarks

Add a new result Link an existing benchmark

Trend	Task	Dataset Variant	Best Model	Paper	Code
	Audio-Visual Active Speaker Detection	AVA-ActiveSpeaker	SPELL+

Papers

Paper	Code	Results	Date	Stars

Dataset Loaders

Add Remove

No data loaders found. You can submit your data loader here.

Tasks

Speech Enhancement
Speaker Diarization
Self-Supervised Learning

Audio-Visual Active Speaker Detection

AVA-ActiveSpeaker

Benchmarks

Add a new result Link an existing benchmark

Papers

Dataset Loaders

Add Remove

Tasks

Similar Datasets

Aesthetic Visual Analysis

AVA

Usage

License

Modalities

Languages

AVA-ActiveSpeaker

Benchmarks Edit Add a new result Link an existing benchmark

Papers

Dataset Loaders Edit Add Remove

Tasks Edit

Similar Datasets

Aesthetic Visual Analysis

AVA

Usage

License Edit

Modalities Edit

Languages Edit

Benchmarks

Add a new result Link an existing benchmark

Dataset Loaders

Add Remove

Tasks

License

Modalities

Languages