TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Arithmetic Reasoning	GSM8K	Branch-Train-MiX 4x7B (sampling top-2 experts)	Accuracy	37.1	# 129
Code Generation	HumanEval	Branch-Train-Merge 4x7B (top-1)	Pass@1	30.8	# 77
Code Generation	HumanEval	Branch-Train-MiX 4x7B (sampling top-2 experts)	Pass@1	28.7	# 84
Math Word Problem Solving	MATH	Branch-Train-MiX 4x7B (sampling top-2 experts)	Accuracy	17.8	# 80
Code Generation	MBPP	Branch-Train-Merge 4x7B (top-2)	Accuracy	42.6	# 67
Code Generation	MBPP	Branch-Train-MiX 4x7B (sampling top-2 experts)	Accuracy	39.4	# 71
Multi-task Language Understanding	MMLU	Branch-Train-MiX 4x7B (sampling top-1 experts)	Average (%)	53.2	# 61
Question Answering	TriviaQA	Branch-Train-MiX 4x7B (sampling top-2 experts)	EM	57.1	# 30
Common Sense Reasoning	WinoGrande	Branch-Train-MiX 4x7B (sampling top-1 expert)	Accuracy	70.6	# 34

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/branch-train-mix-mixing-expert-llms-into-a/question-answering-on-triviaqa)](https://paperswithcode.com/sota/question-answering-on-triviaqa?p=branch-train-mix-mixing-expert-llms-into-a)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/branch-train-mix-mixing-expert-llms-into-a/common-sense-reasoning-on-winogrande)](https://paperswithcode.com/sota/common-sense-reasoning-on-winogrande?p=branch-train-mix-mixing-expert-llms-into-a)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/branch-train-mix-mixing-expert-llms-into-a/multi-task-language-understanding-on-mmlu)](https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu?p=branch-train-mix-mixing-expert-llms-into-a)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/branch-train-mix-mixing-expert-llms-into-a/code-generation-on-mbpp)](https://paperswithcode.com/sota/code-generation-on-mbpp?p=branch-train-mix-mixing-expert-llms-into-a)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/branch-train-mix-mixing-expert-llms-into-a/code-generation-on-humaneval)](https://paperswithcode.com/sota/code-generation-on-humaneval?p=branch-train-mix-mixing-expert-llms-into-a)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/branch-train-mix-mixing-expert-llms-into-a/math-word-problem-solving-on-math)](https://paperswithcode.com/sota/math-word-problem-solving-on-math?p=branch-train-mix-mixing-expert-llms-into-a)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/branch-train-mix-mixing-expert-llms-into-a/arithmetic-reasoning-on-gsm8k)](https://paperswithcode.com/sota/arithmetic-reasoning-on-gsm8k?p=branch-train-mix-mixing-expert-llms-into-a)`

Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM

12 Mar 2024 · Sainbayar Sukhbaatar, Olga Golovneva, Vasu Sharma, Hu Xu, Xi Victoria Lin, Baptiste Rozière, Jacob Kahn, Daniel Li, Wen-tau Yih, Jason Weston, Xian Li ·

We investigate efficient methods for training Large Language Models (LLMs) to possess capabilities in multiple specialized domains, such as coding, math reasoning and world knowledge. Our method, named Branch-Train-MiX (BTX), starts from a seed model, which is branched to train experts in embarrassingly parallel fashion with high throughput and reduced communication cost. After individual experts are asynchronously trained, BTX brings together their feedforward parameters as experts in Mixture-of-Expert (MoE) layers and averages the remaining parameters, followed by an MoE-finetuning stage to learn token-level routing. BTX generalizes two special cases, the Branch-Train-Merge method, which does not have the MoE finetuning stage to learn routing, and sparse upcycling, which omits the stage of training experts asynchronously. Compared to alternative approaches, BTX achieves the best accuracy-efficiency tradeoff.

PDF Abstract

Code

Add Remove Mark official

Leeroo-AI/mergoo

238

Tasks

Add Remove

Arithmetic Reasoning

Code Generation

Common Sense Reasoning

Math

Math Word Problem Solving

Multi-task Language Understanding

Question Answering

World Knowledge

Datasets

Natural Questions

MMLU

GSM8K

TriviaQA

HumanEval

MATH

PIQA

WinoGrande MBPP

SIQA

Results from the Paper

Add Remove

Ranked #30 on Question Answering on TriviaQA

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Arithmetic Reasoning	GSM8K	Branch-Train-MiX 4x7B (sampling top-2 experts)	Accuracy	37.1	# 129	Compare
Code Generation	HumanEval	Branch-Train-Merge 4x7B (top-1)	Pass@1	30.8	# 77	Compare
Code Generation	HumanEval	Branch-Train-MiX 4x7B (sampling top-2 experts)	Pass@1	28.7	# 84	Compare
Math Word Problem Solving	MATH	Branch-Train-MiX 4x7B (sampling top-2 experts)	Accuracy	17.8	# 80	Compare
Code Generation	MBPP	Branch-Train-Merge 4x7B (top-2)	Accuracy	42.6	# 67	Compare
Code Generation	MBPP	Branch-Train-MiX 4x7B (sampling top-2 experts)	Accuracy	39.4	# 71	Compare
Multi-task Language Understanding	MMLU	Branch-Train-MiX 4x7B (sampling top-1 experts)	Average (%)	53.2	# 61	Compare
Question Answering	TriviaQA	Branch-Train-MiX 4x7B (sampling top-2 experts)	EM	57.1	# 30	Compare
Common Sense Reasoning	WinoGrande	Branch-Train-MiX 4x7B (sampling top-1 expert)	Accuracy	70.6	# 34	Compare

Methods

Add Remove

MoE

Edit Social Preview

Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit Add Remove

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Add Remove

Methods

Add Remove