CAS-VSR-W1k (LRW-1000)

Introduced by Yang et al. in LRW-1000: A Naturally-Distributed Large-Scale Benchmark for Lip Reading in the Wild

LRW-1000 has been renamed as CAS-VSR-W1k.* It is a naturally-distributed large-scale benchmark for word-level lipreading in the wild, including 1000 classes with about 718,018 video samples from more than 2000 individual speakers. There are more than 1,000,000 Chinese character instances in total. Each class corresponds to the syllables of a Mandarin word which is composed by one or several Chinese characters. This dataset aims to cover a natural variability over different speech modes and imaging conditions to incorporate challenges encountered in practical applications.

Source: VIPL

Homepage

Benchmarks

Add a new result Link an existing benchmark

Trend	Task	Dataset Variant	Best Model	Paper	Code
	Lipreading	CAS-VSR-W1k (LRW-1000)	3D-ResNet + Bi-GRU + MixUp + Label Smooth + Cosine LR

Papers

Paper	Code	Results	Date	Stars

Dataset Loaders

Add Remove

No data loaders found. You can submit your data loader here.

Tasks

Audio-Visual Speech Recognition

Similar Datasets

LRW

Source: https://arxiv.org/pdf/1810.06990v6.pdf.

Usage

License

research-only, non-commercial

CAS-VSR-W1k (LRW-1000)

Benchmarks

Add a new result Link an existing benchmark

Papers

Dataset Loaders

Add Remove

Tasks

Similar Datasets

LRW

Usage

License

Modalities

Languages

CAS-VSR-W1k (LRW-1000)

Benchmarks Edit Add a new result Link an existing benchmark

Papers

Dataset Loaders Edit Add Remove

Tasks Edit

Similar Datasets

LRW

Usage

License Edit

Modalities Edit

Languages Edit

Benchmarks

Add a new result Link an existing benchmark

Dataset Loaders

Add Remove

Tasks

License

Modalities

Languages