TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Action Recognition	EPIC-KITCHENS-100	OMNIVORE (Swin-B, finetuned)	Action@1	49.9	# 6
Action Recognition	EPIC-KITCHENS-100	OMNIVORE (Swin-B, finetuned)	Verb@1	69.5	# 12
Action Recognition	EPIC-KITCHENS-100	OMNIVORE (Swin-B, finetuned)	Noun@1	61.7	# 6
Image Classification	ImageNet	Omnivore (Swin-B)	Top 1 Accuracy	85.3%	# 231
Image Classification	ImageNet	Omnivore (Swin-L)	Top 1 Accuracy	86.0%	# 176
Image Classification	iNaturalist 2018	OMNIVORE (Swin-L)	Top-1 Accuracy	84.1%	# 10
Action Classification	Kinetics-400	OMNIVORE (Swin-L)	Acc@1	84.1	# 55
Action Classification	Kinetics-400	OMNIVORE (Swin-L)	Acc@5	96.1	# 40
Action Classification	Kinetics-400	OMNIVORE (Swin-B)	Acc@1	84.0	# 56
Action Classification	Kinetics-400	OMNIVORE (Swin-B)	Acc@5	96.2	# 39
Semantic Segmentation	NYU Depth v2	OMNIVORE (Swin-L, finetuned)	Mean IoU	56.8%	# 9
Semantic Segmentation	NYU Depth v2	OMNIVORE (Swin-B, finetuned)	Mean IoU	55.1%	# 15
Action Recognition	Something-Something V2	OMNIVORE (Swin-B, IN-21K+ Kinetics400 pretrain)	Top-1 Accuracy	71.4	# 28
Action Recognition	Something-Something V2	OMNIVORE (Swin-B, IN-21K+ Kinetics400 pretrain)	Top-5 Accuracy	93.5	# 17
Scene Recognition	SUN-RGBD	OMNIVORE (Swin-B)	Accuracy (%)	67.2	# 1

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/omnivore-a-single-model-for-many-visual/scene-recognition-on-sun-rgbd)](https://paperswithcode.com/sota/scene-recognition-on-sun-rgbd?p=omnivore-a-single-model-for-many-visual)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/omnivore-a-single-model-for-many-visual/action-recognition-on-epic-kitchens-100)](https://paperswithcode.com/sota/action-recognition-on-epic-kitchens-100?p=omnivore-a-single-model-for-many-visual)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/omnivore-a-single-model-for-many-visual/semantic-segmentation-on-nyu-depth-v2)](https://paperswithcode.com/sota/semantic-segmentation-on-nyu-depth-v2?p=omnivore-a-single-model-for-many-visual)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/omnivore-a-single-model-for-many-visual/image-classification-on-inaturalist-2018)](https://paperswithcode.com/sota/image-classification-on-inaturalist-2018?p=omnivore-a-single-model-for-many-visual)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/omnivore-a-single-model-for-many-visual/action-recognition-in-videos-on-something)](https://paperswithcode.com/sota/action-recognition-in-videos-on-something?p=omnivore-a-single-model-for-many-visual)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/omnivore-a-single-model-for-many-visual/action-classification-on-kinetics-400)](https://paperswithcode.com/sota/action-classification-on-kinetics-400?p=omnivore-a-single-model-for-many-visual)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/omnivore-a-single-model-for-many-visual/image-classification-on-imagenet)](https://paperswithcode.com/sota/image-classification-on-imagenet?p=omnivore-a-single-model-for-many-visual)`

Omnivore: A Single Model for Many Visual Modalities

CVPR 2022 · Rohit Girdhar, Mannat Singh, Nikhila Ravi, Laurens van der Maaten, Armand Joulin, Ishan Misra ·

Prior work has studied different visual modalities in isolation and developed separate architectures for recognition of images, videos, and 3D data. Instead, in this paper, we propose a single model which excels at classifying images, videos, and single-view 3D data using exactly the same model parameters. Our 'Omnivore' model leverages the flexibility of transformer-based architectures and is trained jointly on classification tasks from different modalities. Omnivore is simple to train, uses off-the-shelf standard datasets, and performs at-par or better than modality-specific models of the same size. A single Omnivore model obtains 86.0% on ImageNet, 84.1% on Kinetics, and 67.1% on SUN RGB-D. After finetuning, our models outperform prior work on a variety of vision tasks and generalize across modalities. Omnivore's shared visual representation naturally enables cross-modal recognition without access to correspondences between modalities. We hope our results motivate researchers to model visual modalities together.

PDF Abstract CVPR 2022 PDF CVPR 2022 Abstract

Code

Add Remove Mark official

facebookresearch/omnivore official

543

towhee-io/towhee

2,996

Tasks

Add Remove

Action Classification

Action Recognition

Image Classification

Scene Recognition

Semantic Segmentation

Datasets

ImageNet

Kinetics

Places

NYUv2 ImageNet-1K

Kinetics 400

iNaturalist

SUN RGB-D

Something-Something V2

EPIC-KITCHENS-100

Results from the Paper

Edit

Ranked #1 on Scene Recognition on SUN-RGBD (using extra training data)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Action Recognition	EPIC-KITCHENS-100	OMNIVORE (Swin-B, finetuned)	Action@1	49.9	# 6	Compare
			Verb@1	69.5	# 12	Compare
			Noun@1	61.7	# 6	Compare
Image Classification	ImageNet	Omnivore (Swin-B)	Top 1 Accuracy	85.3%	# 231	Compare
Image Classification	ImageNet	Omnivore (Swin-L)	Top 1 Accuracy	86.0%	# 176	Compare
Image Classification	iNaturalist 2018	OMNIVORE (Swin-L)	Top-1 Accuracy	84.1%	# 10	Compare
Action Classification	Kinetics-400	OMNIVORE (Swin-L)	Acc@1	84.1	# 55	Compare
Action Classification	Kinetics-400	OMNIVORE (Swin-L)	Acc@5	96.1	# 40	Compare
Action Classification	Kinetics-400	OMNIVORE (Swin-B)	Acc@1	84.0	# 56	Compare
Action Classification	Kinetics-400	OMNIVORE (Swin-B)	Acc@5	96.2	# 39	Compare
Semantic Segmentation	NYU Depth v2	OMNIVORE (Swin-L, finetuned)	Mean IoU	56.8%	# 9	Compare
Semantic Segmentation	NYU Depth v2	OMNIVORE (Swin-B, finetuned)	Mean IoU	55.1%	# 15	Compare
Action Recognition	Something-Something V2	OMNIVORE (Swin-B, IN-21K+ Kinetics400 pretrain)	Top-1 Accuracy	71.4	# 28	Compare
Action Recognition	Something-Something V2	OMNIVORE (Swin-B, IN-21K+ Kinetics400 pretrain)	Top-5 Accuracy	93.5	# 17	Compare
Scene Recognition	SUN-RGBD	OMNIVORE (Swin-B)	Accuracy (%)	67.2	# 1	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

Omnivore: A Single Model for Many Visual Modalities

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove