TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Zero-Shot Transfer Image Classification	ImageNet	LiT ViT-e	Accuracy (Private)	85.4	# 6
Zero-Shot Transfer Image Classification	ImageNet	PaLI	Accuracy (Private)	72.11	# 20
Image Classification	ImageNet	ViT-e	Top 1 Accuracy	90.9%	# 6
Image Classification	ImageNet	ViT-e	Number of params	3900M	# 976
Zero-Shot Transfer Image Classification	ImageNet-A	PaLI	Accuracy (Private)	44.7	# 13
Zero-Shot Transfer Image Classification	ImageNet-A	LiT ViT-e	Accuracy (Private)	88.0	# 3
Zero-Shot Transfer Image Classification	ImageNet-R	PaLI	Accuracy	81.97	# 12
Zero-Shot Transfer Image Classification	ImageNet-R	LiT ViT-e	Accuracy	96.1	# 3
Zero-Shot Transfer Image Classification	ImageNet-S	PaLI	Top 5 Accuracy	79.3	# 1
Zero-Shot Transfer Image Classification	ImageNet-S	PaLI	Accuracy (Private)	63.83	# 1
Zero-Shot Transfer Image Classification	ImageNet V2	LiT ViT-e	Accuracy (Private)	80.6	# 4
Image Classification	ImageNet V2	ViT-e	Top 1 Accuracy	84.3	# 2
Zero-Shot Transfer Image Classification	ImageNet V2	PaLI	Accuracy (Private)	64.46	# 13
Image Captioning	nocaps in-domain	PaLI	CIDEr	149.1	# 1
Image Captioning	nocaps in-domain	PaLI	CIDEr	121.09	# 4
Image Captioning	nocaps in-domain	PaLI	B1	88.02	# 3
Image Captioning	nocaps in-domain	PaLI	B2	75.21	# 3
Image Captioning	nocaps in-domain	PaLI	B3	59.38	# 3
Image Captioning	nocaps in-domain	PaLI	B4	41.16	# 2
Image Captioning	nocaps in-domain	PaLI	ROUGE-L	64.39	# 1
Image Captioning	nocaps in-domain	PaLI	METEOR	34.22	# 1
Image Captioning	nocaps in-domain	PaLI	SPICE	15.69	# 3
Image Captioning	nocaps near-domain	PaLI	SPICE	15.75	# 3
Image Captioning	nocaps near-domain	PaLI	CIDEr	124.35	# 2
Image Captioning	nocaps near-domain	PaLI	B1	88.57	# 2
Image Captioning	nocaps near-domain	PaLI	B2	75.56	# 2
Image Captioning	nocaps near-domain	PaLI	B3	58.99	# 1
Image Captioning	nocaps near-domain	PaLI	B4	39.98	# 1
Image Captioning	nocaps near-domain	PaLI	ROUGE-L	63.99	# 1
Image Captioning	nocaps near-domain	PaLI	METEOR	33.47	# 1
Image Captioning	nocaps near-domain	PaLI	SPICE	15.75	# 3
Image Captioning	nocaps out-of-domain	PaLI	CIDEr	126.67	# 1
Image Captioning	nocaps out-of-domain	PaLI	B1	86.28	# 1
Image Captioning	nocaps out-of-domain	PaLI	B2	71.19	# 2
Image Captioning	nocaps out-of-domain	PaLI	B3	52.63	# 2
Image Captioning	nocaps out-of-domain	PaLI	B4	32.0	# 1
Image Captioning	nocaps out-of-domain	PaLI	ROUGE-L	61.35	# 1
Image Captioning	nocaps out-of-domain	PaLI	METEOR	30.99	# 1
Image Captioning	nocaps out-of-domain	PaLI	SPICE	15.49	# 3
Image Classification	ObjectNet	ViT-e	Top-1 Accuracy	72.0	# 13
Zero-Shot Transfer Image Classification	ObjectNet	LiT ViT-e	Accuracy (Private)	84.9	# 2
Zero-Shot Transfer Image Classification	ObjectNet	PaLI	Accuracy (Private)	42.62	# 9
Zero-Shot Transfer Image Classification	ObjectNet	PaLI	Top 5 Accuracy	58.35	# 1
Visual Question Answering (VQA)	OK-VQA	PaLI 17B	Accuracy	64.5	# 4
Visual Question Answering (VQA)	TextVQA test-standard	PaLI	overall	73.1	# 1
Visual Question Answering (VQA)	VizWiz 2020 VQA	PaLI	overall	73.3	# 1
Visual Question Answering (VQA)	VQA v2 test-dev	PaLI	Accuracy	84.3	# 1

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/pali-a-jointly-scaled-multilingual-language/zero-shot-transfer-image-classification-on-9)](https://paperswithcode.com/sota/zero-shot-transfer-image-classification-on-9?p=pali-a-jointly-scaled-multilingual-language)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/pali-a-jointly-scaled-multilingual-language/image-captioning-on-nocaps-in-domain)](https://paperswithcode.com/sota/image-captioning-on-nocaps-in-domain?p=pali-a-jointly-scaled-multilingual-language)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/pali-a-jointly-scaled-multilingual-language/image-captioning-on-nocaps-out-of-domain)](https://paperswithcode.com/sota/image-captioning-on-nocaps-out-of-domain?p=pali-a-jointly-scaled-multilingual-language)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/pali-a-jointly-scaled-multilingual-language/visual-question-answering-on-textvqa-test-1)](https://paperswithcode.com/sota/visual-question-answering-on-textvqa-test-1?p=pali-a-jointly-scaled-multilingual-language)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/pali-a-jointly-scaled-multilingual-language/visual-question-answering-on-vizwiz-2020-vqa)](https://paperswithcode.com/sota/visual-question-answering-on-vizwiz-2020-vqa?p=pali-a-jointly-scaled-multilingual-language)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/pali-a-jointly-scaled-multilingual-language/visual-question-answering-on-vqa-v2-test-dev)](https://paperswithcode.com/sota/visual-question-answering-on-vqa-v2-test-dev?p=pali-a-jointly-scaled-multilingual-language)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/pali-a-jointly-scaled-multilingual-language/image-classification-on-imagenet-v2)](https://paperswithcode.com/sota/image-classification-on-imagenet-v2?p=pali-a-jointly-scaled-multilingual-language)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/pali-a-jointly-scaled-multilingual-language/image-captioning-on-nocaps-near-domain)](https://paperswithcode.com/sota/image-captioning-on-nocaps-near-domain?p=pali-a-jointly-scaled-multilingual-language)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/pali-a-jointly-scaled-multilingual-language/zero-shot-transfer-image-classification-on-6)](https://paperswithcode.com/sota/zero-shot-transfer-image-classification-on-6?p=pali-a-jointly-scaled-multilingual-language)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/pali-a-jointly-scaled-multilingual-language/zero-shot-transfer-image-classification-on-5)](https://paperswithcode.com/sota/zero-shot-transfer-image-classification-on-5?p=pali-a-jointly-scaled-multilingual-language)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/pali-a-jointly-scaled-multilingual-language/zero-shot-transfer-image-classification-on-4)](https://paperswithcode.com/sota/zero-shot-transfer-image-classification-on-4?p=pali-a-jointly-scaled-multilingual-language)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/pali-a-jointly-scaled-multilingual-language/zero-shot-transfer-image-classification-on-3)](https://paperswithcode.com/sota/zero-shot-transfer-image-classification-on-3?p=pali-a-jointly-scaled-multilingual-language)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/pali-a-jointly-scaled-multilingual-language/visual-question-answering-on-ok-vqa)](https://paperswithcode.com/sota/visual-question-answering-on-ok-vqa?p=pali-a-jointly-scaled-multilingual-language)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/pali-a-jointly-scaled-multilingual-language/zero-shot-transfer-image-classification-on-1)](https://paperswithcode.com/sota/zero-shot-transfer-image-classification-on-1?p=pali-a-jointly-scaled-multilingual-language)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/pali-a-jointly-scaled-multilingual-language/image-classification-on-imagenet)](https://paperswithcode.com/sota/image-classification-on-imagenet?p=pali-a-jointly-scaled-multilingual-language)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/pali-a-jointly-scaled-multilingual-language/image-classification-on-objectnet)](https://paperswithcode.com/sota/image-classification-on-objectnet?p=pali-a-jointly-scaled-multilingual-language)`

PaLI: A Jointly-Scaled Multilingual Language-Image Model

14 Sep 2022 · Xi Chen, Xiao Wang, Soravit Changpinyo, AJ Piergiovanni, Piotr Padlewski, Daniel Salz, Sebastian Goodman, Adam Grycner, Basil Mustafa, Lucas Beyer, Alexander Kolesnikov, Joan Puigcerver, Nan Ding, Keran Rong, Hassan Akbari, Gaurav Mishra, Linting Xue, Ashish Thapliyal, James Bradbury, Weicheng Kuo, Mojtaba Seyedhosseini, Chao Jia, Burcu Karagol Ayan, Carlos Riquelme, Andreas Steiner, Anelia Angelova, Xiaohua Zhai, Neil Houlsby, Radu Soricut ·

Effective scaling and a flexible task interface enable large language models to excel at many tasks. We present PaLI (Pathways Language and Image model), a model that extends this approach to the joint modeling of language and vision. PaLI generates text based on visual and textual inputs, and with this interface performs many vision, language, and multimodal tasks, in many languages. To train PaLI, we make use of large pre-trained encoder-decoder language models and Vision Transformers (ViTs). This allows us to capitalize on their existing capabilities and leverage the substantial cost of training them. We find that joint scaling of the vision and language components is important. Since existing Transformers for language are much larger than their vision counterparts, we train a large, 4-billion parameter ViT (ViT-e) to quantify the benefits from even larger-capacity vision models. To train PaLI, we create a large multilingual mix of pretraining tasks, based on a new image-text training set containing 10B images and texts in over 100 languages. PaLI achieves state-of-the-art in multiple vision and language tasks (such as captioning, visual question-answering, scene-text understanding), while retaining a simple, modular, and scalable design.

PDF Abstract

Code

Add Remove Mark official

google-research/big_vision official

↳ Quickstart in

Colab

1,557

Tasks

Add Remove

Few-Shot Image Classification

Image Captioning

Image Classification

Question Answering

Visual Question Answering

Visual Question Answering (VQA)

Visual Reasoning

Zero-Shot Image Classification

Zero-Shot Transfer Image Classification

Datasets

ImageNet

Visual Question Answering

Visual Genome test

SuperGLUE

Visual Question Answering v2.0

ImageNet-R

XNLI

ImageNet-A

Conceptual Captions

OK-VQA

ImageNet-Sketch

TextVQA

COCO Captions

XQuAD

TyDiQA

NoCaps

VizWiz

ObjectNet

ST-VQA TextCaps

XTREME JFT-3B

TyDiQA-GoldP

ImageNet-S WebLI

Results from the Paper

Edit

Ranked #1 on Zero-Shot Transfer Image Classification on ImageNet-S

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Zero-Shot Transfer Image Classification	ImageNet	LiT ViT-e	Accuracy (Private)	85.4	# 6	Compare
Zero-Shot Transfer Image Classification	ImageNet	PaLI	Accuracy (Private)	72.11	# 20	Compare
Image Classification	ImageNet	ViT-e	Top 1 Accuracy	90.9%	# 6	Compare
Image Classification	ImageNet	ViT-e	Number of params	3900M	# 976	Compare
Zero-Shot Transfer Image Classification	ImageNet-A	PaLI	Accuracy (Private)	44.7	# 13	Compare
Zero-Shot Transfer Image Classification	ImageNet-A	LiT ViT-e	Accuracy (Private)	88.0	# 3	Compare
Zero-Shot Transfer Image Classification	ImageNet-R	PaLI	Accuracy	81.97	# 12	Compare
Zero-Shot Transfer Image Classification	ImageNet-R	LiT ViT-e	Accuracy	96.1	# 3	Compare
Zero-Shot Transfer Image Classification	ImageNet-S	PaLI	Top 5 Accuracy	79.3	# 1	Compare
Zero-Shot Transfer Image Classification	ImageNet-S	PaLI	Accuracy (Private)	63.83	# 1	Compare
Zero-Shot Transfer Image Classification	ImageNet V2	LiT ViT-e	Accuracy (Private)	80.6	# 4	Compare
Image Classification	ImageNet V2	ViT-e	Top 1 Accuracy	84.3	# 2	Compare
Zero-Shot Transfer Image Classification	ImageNet V2	PaLI	Accuracy (Private)	64.46	# 13	Compare
Image Captioning	nocaps in-domain	PaLI	CIDEr	149.1	# 1	Compare
			CIDEr	121.09	# 4	Compare
			B1	88.02	# 3	Compare
			B2	75.21	# 3	Compare
			B3	59.38	# 3	Compare
			B4	41.16	# 2	Compare
			ROUGE-L	64.39	# 1	Compare
			METEOR	34.22	# 1	Compare
			SPICE	15.69	# 3	Compare
Image Captioning	nocaps near-domain	PaLI	SPICE	15.75	# 3	Compare
			CIDEr	124.35	# 2	Compare
			B1	88.57	# 2	Compare
			B2	75.56	# 2	Compare
			B3	58.99	# 1	Compare
			B4	39.98	# 1	Compare
			ROUGE-L	63.99	# 1	Compare
			METEOR	33.47	# 1	Compare
			SPICE	15.75	# 3	Compare
Image Captioning	nocaps out-of-domain	PaLI	CIDEr	126.67	# 1	Compare
			B1	86.28	# 1	Compare
			B2	71.19	# 2	Compare
			B3	52.63	# 2	Compare
			B4	32.0	# 1	Compare
			ROUGE-L	61.35	# 1	Compare
			METEOR	30.99	# 1	Compare
			SPICE	15.49	# 3	Compare
Image Classification	ObjectNet	ViT-e	Top-1 Accuracy	72.0	# 13	Compare
Zero-Shot Transfer Image Classification	ObjectNet	LiT ViT-e	Accuracy (Private)	84.9	# 2	Compare
Zero-Shot Transfer Image Classification	ObjectNet	PaLI	Accuracy (Private)	42.62	# 9	Compare
Zero-Shot Transfer Image Classification	ObjectNet	PaLI	Top 5 Accuracy	58.35	# 1	Compare
Visual Question Answering (VQA)	OK-VQA	PaLI 17B	Accuracy	64.5	# 4	Compare
Visual Question Answering (VQA)	TextVQA test-standard	PaLI	overall	73.1	# 1	Compare
Visual Question Answering (VQA)	VizWiz 2020 VQA	PaLI	overall	73.3	# 1	Compare
Visual Question Answering (VQA)	VQA v2 test-dev	PaLI	Accuracy	84.3	# 1	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

PaLI: A Jointly-Scaled Multilingual Language-Image Model

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove