TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Speech Recognition	Common Voice English	Whisper (Large v2)	Word Error Rate (WER)	9.4%	# 2
Speech Recognition	Common Voice French	Whisper (Large v2)	Test WER	13.9%	# 8
Speech Recognition	Common Voice German	Whisper (Large v2)	Test WER	6.4%	# 7
Speech Recognition	Common Voice Italian	Whisper (Large v2)	Test WER	7.1%	# 1
Speech Recognition	Common Voice Spanish	Whisper (Large v2)	Test WER	5.6%	# 2

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/robust-speech-recognition-via-large-scale-1/speech-recognition-on-common-voice-italian)](https://paperswithcode.com/sota/speech-recognition-on-common-voice-italian?p=robust-speech-recognition-via-large-scale-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/robust-speech-recognition-via-large-scale-1/speech-recognition-on-common-voice-english)](https://paperswithcode.com/sota/speech-recognition-on-common-voice-english?p=robust-speech-recognition-via-large-scale-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/robust-speech-recognition-via-large-scale-1/speech-recognition-on-common-voice-spanish)](https://paperswithcode.com/sota/speech-recognition-on-common-voice-spanish?p=robust-speech-recognition-via-large-scale-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/robust-speech-recognition-via-large-scale-1/speech-recognition-on-common-voice-german)](https://paperswithcode.com/sota/speech-recognition-on-common-voice-german?p=robust-speech-recognition-via-large-scale-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/robust-speech-recognition-via-large-scale-1/speech-recognition-on-common-voice-french)](https://paperswithcode.com/sota/speech-recognition-on-common-voice-french?p=robust-speech-recognition-via-large-scale-1)`

Robust Speech Recognition via Large-Scale Weak Supervision

Preprint 2022 · Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, Ilya Sutskever ·

We study the capabilities of speech processing systems trained simply to predict large amounts of transcripts of audio on the internet. When scaled to 680,000 hours of multilingual and multitask supervision, the resulting models generalize well to standard benchmarks and are often competitive with prior fully supervised results but in a zero-shot transfer setting without the need for any fine-tuning. When compared to humans, the models approach their accuracy and robustness. We are releasing models and inference code to serve as a foundation for further work on robust speech processing.

PDF Abstract Preprint 2022 PDF Preprint 2022 Abstract

Code

Add Remove Mark official

openai/whisper official

↳ Quickstart in

Colab

60,416

huggingface/transformers

125,118

ggerganov/whisper.cpp

31,194

m-bain/whisperx

↳ Quickstart in

Replicate

8,996

sanchit-gandhi/whisper-jax

↳ Quickstart in

Colab

Spaces

4,081

See all 9 implementations

Tasks

Add Remove

Robust Speech Recognition

speech-recognition

Speech Recognition

Datasets

LibriSpeech

Common Voice VoxPopuli FLEURS Multilingual LibriSpeech VoxLingua107 Earnings-21

Results from the Paper

Edit

Ranked #1 on Speech Recognition on Common Voice Italian (using extra training data)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Speech Recognition	Common Voice English	Whisper (Large v2)	Word Error Rate (WER)	9.4%	# 2	Compare
Speech Recognition	Common Voice French	Whisper (Large v2)	Test WER	13.9%	# 8	Compare
Speech Recognition	Common Voice German	Whisper (Large v2)	Test WER	6.4%	# 7	Compare
Speech Recognition	Common Voice Italian	Whisper (Large v2)	Test WER	7.1%	# 1	Compare
Speech Recognition	Common Voice Spanish	Whisper (Large v2)	Test WER	5.6%	# 2	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

Robust Speech Recognition via Large-Scale Weak Supervision

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove