Machine Translation

2154 papers with code • 80 benchmarks • 77 datasets

Machine translation is the task of translating a sentence in a source language to a different target language.

Approaches for machine translation can range from rule-based to statistical to neural-based. More recently, encoder-decoder attention-based architectures like BERT have attained major improvements in machine translation.

One of the most popular datasets used to benchmark machine translation systems is the WMT family of datasets. Some of the most commonly used evaluation metrics for machine translation systems include BLEU, METEOR, NIST, and others.

( Image credit: Google seq2seq )

Benchmarks

Add a Result

These leaderboards are used to track progress in Machine Translation

Dataset	Best Model	Compare
WMT2014 English-German	Transformer Cycle (Rev)	See all
WMT2014 English-French	Transformer+BT (ADMIN init)	See all
IWSLT2014 German-English	PiNMT	See all
WMT2016 English-Romanian	DeLighT	See all
ACES	HWTSC-Teacher-Sim	See all
WMT2016 Romanian-English	fast-noisy-channel-modeling	See all
WMT2014 German-English	Bi-SimCut	See all
IWSLT2015 German-English	PS-KD	See all
WMT2016 English-German	MADL	See all
IWSLT2015 English-Vietnamese	EnViT5 + MTet	See all
IWSLT2015 English-German	PS-KD	See all
WMT2016 German-English	FLAN 137B (few-shot, k=11)	See all
WMT2015 English-German	ByteNet	See all
IWSLT2014 English-German	PiNMT	See all
WMT2016 English-Russian	Attentional encoder-decoder + BPE	See all
WMT 2017 Latvian-English	Transformer trained on highly filtered data	See all
WMT2014 French-English	FLAN 137B (few-shot, k=9)	See all
WMT2017 Chinese-English	StrokeNet	See all
WMT 2017 English-Chinese	DynamicConv	See all
FRMT (Portuguese - Portugal)	PaLM 2	See all
FRMT (Chinese - Mainland)	PaLM 2	See all
FRMT (Chinese - Taiwan)	PaLM 2	See all
FRMT (Portuguese - Brazil)	PaLM 2	See all
flores95-devtest X-eng	SeamlessM4T Large	See all
flores95-devtest eng-X	SeamlessM4T Large	See all
WMT 2018 Finnish-English	CT+B/S construction	See all
20NEWS	tensorflow/tensor2tensor	See all
WMT2019 English-German	Facebook FAIR (ensemble)	See all
WMT2014 English-Czech	Evolved Transformer Big	See all
IWSLT2017 English-French	Transformer base + BPE-Dropout	See all
IWSLT2017 English-Arabic	Transformer base + BPE-Dropout	See all
IWSLT2017 Arabic-English	Transformer base + BPE-Dropout	See all
IWSLT2017 French-English	Transformer base + BPE-Dropout	See all
Itihasa	Baseline (en->sn)	See all
Arba Sicula	Larger	See all
IWSLT2017 German-English	Adaptively Sparse Transformer (alpha-entmax)	See all
IWSLT2015 Vietnamese-English	HeadMask (Random-18)	See all
WMT2017 Turkish-English	Random-18	See all
WMT2015 English-Russian	C2-50k Segmentation	See all
IWSLT2015 Thai-English	Seq-KD + Seq-Inter + Word-KD	See all
WMT2016 Russian-English	Attentional encoder-decoder + BPE	See all
WMT2016 English-Czech	Attentional encoder-decoder + BPE	See all
WMT2016 Czech-English	Attentional encoder-decoder + BPE	See all
WMT 2018 English-Estonian	Multi-pass backtranslated adapted transformer	See all
WMT 2018 English-Finnish	Transformer trained on highly filtered data	See all
WMT 2018 Estonian-English	Multi-pass backtranslated adapted transformer	See all
ACCURAT balanced test corpus for under resourced languages Russian-Estonian	Multilingual Transformer	See all
WMT 2017 English-Latvian	Transformer trained on highly filtered data	See all
ACCURAT balanced test corpus for under resourced languages Estonian-Russian	Multilingual Transformer	See all
WMT2019 Finnish-English	CT+B/S construction	See all
WMT2017 Finnish-English	CT+B/S construction	See all
WMT2016 Finnish-English	CT+B/S construction	See all
IWSLT2015 Chinese-English	BP-Transformer	See all
WMT2019 German-English	Exploiting Mono at Scale (single)	See all
WMT2016 English-French	DeLighT	See all
Business Scene Dialogue JA-EN	Transformer-base	See all
Business Scene Dialogue EN-JA	Transformer-base	See all
V_A (trained on T_H)	M_C	See all
V_B (trained on T_H)	M_C	See all
V_C (trained on T_H)	M_C	See all
WMT2017 English-German	OmniNetP	See all
WMT2017 English-Finnish	OmniNetP	See all
WMT2017 English-French	OmniNetP	See all
WMT2017 Russian-English	OmniNetP	See all
WMT2019 English-Japanese	fiore	See all
Tatoeba (EN-to-EL)	PENELOPIE Transformers-based NMT (EN2EL)	See all
Tatoeba (EL-to-EN)	PENELOPIE (Transformers-based Greek-to-English NMT)	See all
slone/myv_ru_2022 ru-myv	slone/mbart-large-51-mul-myv-v1	See all
slone/myv_ru_2022 myv-ru	slone/mbart-large-51-myv-mul-v1	See all
WMT 2022 English-Czech	Vega-MT	See all
WMT 2022 English-German	Vega-MT	See all
WMT 2022 English-Japanese	Vega-MT	See all
WMT 2022 English-Russian	Vega-MT	See all
WMT 2022 English-Chinese	Vega-MT	See all
WMT 2022 Czech-English	Vega-MT	See all
WMT 2022 German-English	Vega-MT	See all
WMT 2022 Japanese-English	Vega-MT	See all
WMT 2022 Russian-English	Vega-MT	See all
WMT 2022 Chinese-English	Vega-MT	See all
Alexa Point of View	T5	See all

Show all 80 benchmarks

Collapse benchmarks

Libraries

Use these libraries to find Machine Translation models and implementations

awslabs/sockeye

24 papers

1,206

pytorch/fairseq

15 papers

29,292

huggingface/transformers

14 papers

125,385

tensorflow/tensor2tensor

10 papers

14,913

See all 14 libraries.

Datasets

Subtasks

Unsupervised Machine Translation

Automatic Post-Editing

Low-Resource Neural Machine Translation

Clinical Language Translation

Legal Document Translation

Latest papers

Most implemented Social Latest No code

Control-DAG: Constrained Decoding for Non-Autoregressive Directed Acyclic T5 using Weighted Finite State Automata

faceonlive/ai-research • 10 Apr 2024

The Directed Acyclic Transformer is a fast non-autoregressive (NAR) model that performs well in Neural Machine Translation.

186

10 Apr 2024

Paper
Code

SLPL SHROOM at SemEval2024 Task 06: A comprehensive study on models ability to detect hallucination

faceonlive/ai-research • 7 Apr 2024

Language models, particularly generative models, are susceptible to hallucinations, generating outputs that contradict factual knowledge or the source text.

186

07 Apr 2024

Paper
Code

F-MALLOC: Feed-forward Memory Allocation for Continual Learning in Neural Machine Translation

wjmacro/continualmt • • 7 Apr 2024

In the evolving landscape of Neural Machine Translation (NMT), the pretrain-then-finetune paradigm has yielded impressive results.

07 Apr 2024

Paper
Code

Low-Resource Machine Translation through Retrieval-Augmented LLM Prompting: A Study on the Mambai Language

raphaelmerx/mambai • 7 Apr 2024

Leveraging a novel corpus derived from a Mambai language manual and additional sentences translated by a native speaker, we examine the efficacy of few-shot LLM prompting for machine translation (MT) in this low-resource context.

07 Apr 2024

Paper
Code

KazQAD: Kazakh Open-Domain Question Answering Dataset

is2ai/kazqad • 6 Apr 2024

We introduce KazQAD -- a Kazakh open-domain question answering (ODQA) dataset -- that can be used in both reading comprehension and full ODQA settings, as well as for information retrieval experiments.

06 Apr 2024

Paper
Code

Large Language Models for Expansion of Spoken Language Understanding Systems to New Languages

samsung/mt-llm-nlu • • 3 Apr 2024

In the on-device scenario (tiny and not pretrained SLU), our method improved the Overall Accuracy from 5. 31% to 22. 06% over the baseline Global-Local Contrastive Learning Framework (GL-CLeF) method.

03 Apr 2024

Paper
Code

Low-resource neural machine translation with morphological modeling

anzeyimana/kinmt_naacl2024 • • 3 Apr 2024

An attention augmentation scheme to the transformer model is proposed in a generic form to allow integration of pre-trained language models and also facilitate modeling of word order relationships between the source and target languages.

03 Apr 2024

Paper
Code

An image speaks a thousand words, but can everyone listen? On translating images for cultural relevance

simran-khanuja/image-transcreation • • 1 Apr 2024

First, we build three pipelines comprising state-of-the-art generative models to do the task.

01 Apr 2024

Paper
Code

AAdaM at SemEval-2024 Task 1: Augmentation and Adaptation for Multilingual Semantic Textual Relatedness

uds-lsv/aadam • 1 Apr 2024

This paper presents our system developed for the SemEval-2024 Task 1: Semantic Textual Relatedness for African and Asian Languages.

01 Apr 2024

Paper
Code

KazParC: Kazakh Parallel Corpus for Machine Translation

is2ai/kazparc • • 28 Mar 2024

We introduce KazParC, a parallel corpus designed for machine translation across Kazakh, English, Russian, and Turkish.

28 Mar 2024

Paper
Code

Machine Translation

Benchmarks Add a Result

Libraries

Datasets

Subtasks

Latest papers

Content

Benchmarks

Add a Result