TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Long-Context Understanding	Ada-LEval (BestAnswer)	GPT-4-Turbo-0125	2k	73.5	# 1
Long-Context Understanding	Ada-LEval (BestAnswer)	GPT-4-Turbo-0125	4k	65.5	# 2
Long-Context Understanding	Ada-LEval (BestAnswer)	GPT-4-Turbo-0125	8k	56.5	# 1
Long-Context Understanding	Ada-LEval (BestAnswer)	GPT-4-Turbo-0125	16k	44.5	# 1
Long-Context Understanding	Ada-LEval (BestAnswer)	GPT-4-Turbo-0125	1k	73.5	# 2
Long-Context Understanding	Ada-LEval (BestAnswer)	GPT-4-Turbo-0125	6k	63.0	# 1
Long-Context Understanding	Ada-LEval (BestAnswer)	GPT-4-Turbo-0125	12k	52.0	# 1
Long-Context Understanding	Ada-LEval (BestAnswer)	GPT-4-Turbo-0125	32k	30.0	# 1
Long-Context Understanding	Ada-LEval (BestAnswer)	GPT-4-Turbo-0125	64k	0.0	# 2
Long-Context Understanding	Ada-LEval (BestAnswer)	GPT-4-Turbo-0125	128k	0.0	# 1
Long-Context Understanding	Ada-LEval (BestAnswer)	GPT-4-Turbo-1106	2k	73.5	# 1
Long-Context Understanding	Ada-LEval (BestAnswer)	GPT-4-Turbo-1106	4k	67.5	# 1
Long-Context Understanding	Ada-LEval (BestAnswer)	GPT-4-Turbo-1106	8k	53.5	# 2
Long-Context Understanding	Ada-LEval (BestAnswer)	GPT-4-Turbo-1106	16k	44.0	# 2
Long-Context Understanding	Ada-LEval (BestAnswer)	GPT-4-Turbo-1106	1k	74.0	# 1
Long-Context Understanding	Ada-LEval (BestAnswer)	GPT-4-Turbo-1106	6k	59.5	# 2
Long-Context Understanding	Ada-LEval (BestAnswer)	GPT-4-Turbo-1106	12k	49.5	# 2
Long-Context Understanding	Ada-LEval (BestAnswer)	GPT-4-Turbo-1106	32k	16.0	# 2
Long-Context Understanding	Ada-LEval (BestAnswer)	GPT-4-Turbo-1106	64k	0.0	# 2
Long-Context Understanding	Ada-LEval (BestAnswer)	GPT-4-Turbo-1106	128k	0.0	# 1
Long-Context Understanding	Ada-LEval (TSort)	GPT-4-Turbo-1106	2k	18.5	# 1
Long-Context Understanding	Ada-LEval (TSort)	GPT-4-Turbo-1106	4k	15.5	# 2
Long-Context Understanding	Ada-LEval (TSort)	GPT-4-Turbo-1106	8k	7.5	# 2
Long-Context Understanding	Ada-LEval (TSort)	GPT-4-Turbo-1106	16k	3.5	# 4
Long-Context Understanding	Ada-LEval (TSort)	GPT-4-Turbo-1106	32k	6.0	# 1
Long-Context Understanding	Ada-LEval (TSort)	GPT-4-Turbo-1106	64k	6.0	# 1
Long-Context Understanding	Ada-LEval (TSort)	GPT-4-Turbo-1106	128k	6.0	# 1
Long-Context Understanding	Ada-LEval (TSort)	GPT-4-Turbo-0125	2k	15.5	# 2
Long-Context Understanding	Ada-LEval (TSort)	GPT-4-Turbo-0125	4k	16.5	# 1
Long-Context Understanding	Ada-LEval (TSort)	GPT-4-Turbo-0125	8k	8.5	# 1
Long-Context Understanding	Ada-LEval (TSort)	GPT-4-Turbo-0125	16k	5.5	# 1
Long-Context Understanding	Ada-LEval (TSort)	GPT-4-Turbo-0125	32k	2.0	# 2
Long-Context Understanding	Ada-LEval (TSort)	GPT-4-Turbo-0125	64k	4.0	# 2
Long-Context Understanding	Ada-LEval (TSort)	GPT-4-Turbo-0125	128k	2.0	# 2
Common Sense Reasoning	ARC (Challenge)	GPT-4 (few-shot, k=25)	Accuracy	96.4	# 1
Common Sense Reasoning	ARC (Challenge)	GPT-3.5 (few-shot, k=25)	Accuracy	85.2	# 12
Visual Question Answering	BenchLMM	GPT-4V	GPT-3.5 score	58.37	# 1
Factual Inconsistency Detection in Chart Captioning	CHOCOLATE-LLM	GPT-4V	Kendall's Tau-c	0.205	# 1
Visual Question Answering (VQA)	CORE-MM	GPT-4V	Overall score	74.44	# 1
Visual Question Answering (VQA)	CORE-MM	GPT-4V	Deductive	74.86	# 1
Visual Question Answering (VQA)	CORE-MM	GPT-4V	Analogical	69.86	# 1
Visual Question Answering (VQA)	CORE-MM	GPT-4V	Params	-	# 1
Visual Question Answering (VQA)	CORE-MM	GPT-4V	Abductive	77.88	# 1
Question Answering	DROP Test	GPT 3.5 (few-shot, k=3)	F1	64.1	# 11
Question Answering	DROP Test	GPT-4 (few-shot, k=3)	F1	80.9	# 6
Arithmetic Reasoning	GSM8K	GPT-4 (few-shot, k=5, CoT)	Accuracy	93	# 16
Arithmetic Reasoning	GSM8K	GPT-3.5 (few-shot, k=5)	Accuracy	57.1	# 109
Sentence Completion	HellaSwag	GPT-4 (10-shot)	Accuracy	95.3	# 4
Sentence Completion	HellaSwag	GPT-3.5 (10-shot)	Accuracy	85.5	# 19
Code Generation	HumanEval	GPT-3.5 Turbo (zero-shot)	Pass@1	48.1	# 47
Code Generation	HumanEval	GPT-4 (0-shot)	Pass@1	67.0	# 26
Visual Question Answering (VQA)	InfiMM-Eval	GPT-4V	Overall score	74.44	# 1
Visual Question Answering (VQA)	InfiMM-Eval	GPT-4V	Deductive	74.86	# 1
Visual Question Answering (VQA)	InfiMM-Eval	GPT-4V	Abductive	77.88	# 1
Visual Question Answering (VQA)	InfiMM-Eval	GPT-4V	Analogical	69.86	# 1
Multi-task Language Understanding	MMLU	GPT-4 (few-shot)	Average (%)	86.4	# 5
Multi-task Language Understanding	MMLU	GPT-3.5 Turbo	Average (%)	70.0	# 31
Visual Question Answering	MM-Vet	GPT-4V-Turbo-detail:high	GPT-4 score	67.6±0.1	# 2
Visual Question Answering	MM-Vet	GPT-4V-Turbo-detail:low	GPT-4 score	60.2±0.3	# 8
Visual Question Answering	MM-Vet	GPT-4V	GPT-4 score	67.7±0.3	# 1
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-4 (100-shot)	Wasserstein Distance (WD)	73.6	# 3
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-4 (100-shot)	# Correct Groups	249	# 5
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-4 (100-shot)	Fowlkes Mallows Score (FMS)	42.8	# 4
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-4 (100-shot)	Adjusted Rand Index (ARI)	28.5	# 4
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-4 (100-shot)	Adjusted Mutual Information (AMI)	32.3	# 4
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-4 (100-shot)	# Solved Walls	3	# 6
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-4 (1-shot)	Wasserstein Distance (WD)	73.4	# 2
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-4 (1-shot)	# Correct Groups	262	# 4
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-4 (1-shot)	Fowlkes Mallows Score (FMS)	43.7	# 2
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-4 (1-shot)	Adjusted Rand Index (ARI)	29.7	# 2
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-4 (1-shot)	Adjusted Mutual Information (AMI)	33.5	# 2
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-4 (1-shot)	# Solved Walls	4	# 5
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-3.5-turbo (1-shot)	Wasserstein Distance (WD)	82.3	# 9
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-3.5-turbo (1-shot)	# Correct Groups	123	# 10
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-3.5-turbo (1-shot)	Fowlkes Mallows Score (FMS)	34.4	# 9
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-3.5-turbo (1-shot)	Adjusted Rand Index (ARI)	18.2	# 10
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-3.5-turbo (1-shot)	Adjusted Mutual Information (AMI)	21.2	# 10
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-3.5-turbo (1-shot)	# Solved Walls	0	# 10
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-3.5-turbo (0-shot)	Wasserstein Distance (WD)	82.5	# 10
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-3.5-turbo (0-shot)	# Correct Groups	114	# 11
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-3.5-turbo (0-shot)	Fowlkes Mallows Score (FMS)	34.0	# 10
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-3.5-turbo (0-shot)	Adjusted Rand Index (ARI)	18.4	# 9
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-3.5-turbo (0-shot)	Adjusted Mutual Information (AMI)	21.6	# 9
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-3.5-turbo (0-shot)	# Solved Walls	0	# 10
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-4 (0-shot)	Wasserstein Distance (WD)	75.8	# 5
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-4 (0-shot)	# Correct Groups	239	# 6
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-4 (0-shot)	Fowlkes Mallows Score (FMS)	41.5	# 5
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-4 (0-shot)	Adjusted Rand Index (ARI)	27.2	# 5
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-4 (0-shot)	Adjusted Mutual Information (AMI)	30.7	# 5
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-4 (0-shot)	# Solved Walls	6	# 3
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-3.5-turbo (3-shot)	Wasserstein Distance (WD)	80.9	# 7
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-3.5-turbo (3-shot)	# Correct Groups	140	# 8
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-3.5-turbo (3-shot)	Fowlkes Mallows Score (FMS)	36.8	# 7
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-3.5-turbo (3-shot)	Adjusted Rand Index (ARI)	21.3	# 7
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-3.5-turbo (3-shot)	Adjusted Mutual Information (AMI)	24.7	# 7
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-3.5-turbo (3-shot)	# Solved Walls	0	# 10
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-3.5-turbo (5-shot)	Wasserstein Distance (WD)	80.6	# 6
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-3.5-turbo (5-shot)	# Correct Groups	149	# 7
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-3.5-turbo (5-shot)	Fowlkes Mallows Score (FMS)	37.3	# 6
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-3.5-turbo (5-shot)	Adjusted Rand Index (ARI)	22.0	# 6
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-3.5-turbo (5-shot)	Adjusted Mutual Information (AMI)	25.4	# 6
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-3.5-turbo (5-shot)	# Solved Walls	2	# 7
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-3.5-turbo (10-shot)	Wasserstein Distance (WD)	81.2	# 8
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-3.5-turbo (10-shot)	# Correct Groups	137	# 9
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-3.5-turbo (10-shot)	Fowlkes Mallows Score (FMS)	36.1	# 8
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-3.5-turbo (10-shot)	Adjusted Rand Index (ARI)	20.4	# 8
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-3.5-turbo (10-shot)	Adjusted Mutual Information (AMI)	24.0	# 8
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-3.5-turbo (10-shot)	# Solved Walls	2	# 7
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-4 (5-shot)	Wasserstein Distance (WD)	72.9	# 1
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-4 (5-shot)	# Correct Groups	269	# 3
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-4 (5-shot)	Fowlkes Mallows Score (FMS)	43.4	# 3
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-4 (5-shot)	Adjusted Rand Index (ARI)	29.1	# 3
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-4 (5-shot)	Adjusted Mutual Information (AMI)	32.8	# 3
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-4 (5-shot)	# Solved Walls	7	# 2
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-4 (3-shot)	Wasserstein Distance (WD)	73.7	# 4
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-4 (3-shot)	# Correct Groups	272	# 2
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-4 (3-shot)	Fowlkes Mallows Score (FMS)	43.9	# 1
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-4 (3-shot)	Adjusted Rand Index (ARI)	29.9	# 1
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-4 (3-shot)	Adjusted Mutual Information (AMI)	33.6	# 1
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-4 (3-shot)	# Solved Walls	5	# 4
Bug fixing	SWE-bench	GPT-4	Resolved (unassisted)	0%	# 4
Bug fixing	SWE-bench	GPT-4	Resolved (assisted)	1.74%	# 4
Question Answering	TruthfulQA	GPT-4 (RLHF)	MC1	0.59	# 1
Visual Question Answering	ViP-Bench	GPT-4V-turbo-detail:low (Visual Prompt)	GPT-4 score (bbox)	52.8	# 2
Visual Question Answering	ViP-Bench	GPT-4V-turbo-detail:low (Visual Prompt)	GPT-4 score (human)	51.4	# 2
Visual Question Answering	ViP-Bench	GPT-4V-turbo-detail:high (Visual Prompt)	GPT-4 score (bbox)	60.7	# 1
Visual Question Answering	ViP-Bench	GPT-4V-turbo-detail:high (Visual Prompt)	GPT-4 score (human)	59.9	# 1
Common Sense Reasoning	WinoGrande	GPT-3.5 (5-shot)	Accuracy	81.6	# 11
Common Sense Reasoning	WinoGrande	GPT-4 (5-shot)	Accuracy	87.5	# 7

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gpt-4-technical-report-1/long-context-understanding-on-ada-leval)](https://paperswithcode.com/sota/long-context-understanding-on-ada-leval?p=gpt-4-technical-report-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gpt-4-technical-report-1/long-context-understanding-on-ada-leval-tsort)](https://paperswithcode.com/sota/long-context-understanding-on-ada-leval-tsort?p=gpt-4-technical-report-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gpt-4-technical-report-1/common-sense-reasoning-on-arc-challenge)](https://paperswithcode.com/sota/common-sense-reasoning-on-arc-challenge?p=gpt-4-technical-report-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gpt-4-technical-report-1/visual-question-answering-on-benchlmm)](https://paperswithcode.com/sota/visual-question-answering-on-benchlmm?p=gpt-4-technical-report-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gpt-4-technical-report-1/factual-inconsistency-detection-in-chart-1)](https://paperswithcode.com/sota/factual-inconsistency-detection-in-chart-1?p=gpt-4-technical-report-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gpt-4-technical-report-1/visual-question-answering-vqa-on-core-mm-1)](https://paperswithcode.com/sota/visual-question-answering-vqa-on-core-mm-1?p=gpt-4-technical-report-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gpt-4-technical-report-1/visual-question-answering-vqa-on-core-mm)](https://paperswithcode.com/sota/visual-question-answering-vqa-on-core-mm?p=gpt-4-technical-report-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gpt-4-technical-report-1/visual-question-answering-on-mm-vet)](https://paperswithcode.com/sota/visual-question-answering-on-mm-vet?p=gpt-4-technical-report-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gpt-4-technical-report-1/task-1-grouping-on-ocw)](https://paperswithcode.com/sota/task-1-grouping-on-ocw?p=gpt-4-technical-report-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gpt-4-technical-report-1/question-answering-on-truthfulqa)](https://paperswithcode.com/sota/question-answering-on-truthfulqa?p=gpt-4-technical-report-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gpt-4-technical-report-1/visual-question-answering-on-vip-bench)](https://paperswithcode.com/sota/visual-question-answering-on-vip-bench?p=gpt-4-technical-report-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gpt-4-technical-report-1/sentence-completion-on-hellaswag)](https://paperswithcode.com/sota/sentence-completion-on-hellaswag?p=gpt-4-technical-report-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gpt-4-technical-report-1/bug-fixing-on-swe-bench)](https://paperswithcode.com/sota/bug-fixing-on-swe-bench?p=gpt-4-technical-report-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gpt-4-technical-report-1/multi-task-language-understanding-on-mmlu)](https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu?p=gpt-4-technical-report-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gpt-4-technical-report-1/question-answering-on-drop-test)](https://paperswithcode.com/sota/question-answering-on-drop-test?p=gpt-4-technical-report-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gpt-4-technical-report-1/common-sense-reasoning-on-winogrande)](https://paperswithcode.com/sota/common-sense-reasoning-on-winogrande?p=gpt-4-technical-report-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gpt-4-technical-report-1/arithmetic-reasoning-on-gsm8k)](https://paperswithcode.com/sota/arithmetic-reasoning-on-gsm8k?p=gpt-4-technical-report-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gpt-4-technical-report-1/code-generation-on-humaneval)](https://paperswithcode.com/sota/code-generation-on-humaneval?p=gpt-4-technical-report-1)`

GPT-4 Technical Report

Preprint 2023 · OpenAI, :, Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, Red Avila, Igor Babuschkin, Suchir Balaji, Valerie Balcom, Paul Baltescu, Haiming Bao, Mohammad Bavarian, Jeff Belgum, Irwan Bello, Jake Berdine, Gabriel Bernadett-Shapiro, Christopher Berner, Lenny Bogdonoff, Oleg Boiko, Madelaine Boyd, Anna-Luisa Brakman, Greg Brockman, Tim Brooks, Miles Brundage, Kevin Button, Trevor Cai, Rosie Campbell, Andrew Cann, Brittany Carey, Chelsea Carlson, Rory Carmichael, Brooke Chan, Che Chang, Fotis Chantzis, Derek Chen, Sully Chen, Ruby Chen, Jason Chen, Mark Chen, Ben Chess, Chester Cho, Casey Chu, Hyung Won Chung, Dave Cummings, Jeremiah Currier, Yunxing Dai, Cory Decareaux, Thomas Degry, Noah Deutsch, Damien Deville, Arka Dhar, David Dohan, Steve Dowling, Sheila Dunning, Adrien Ecoffet, Atty Eleti, Tyna Eloundou, David Farhi, Liam Fedus, Niko Felix, Simón Posada Fishman, Juston Forte, Isabella Fulford, Leo Gao, Elie Georges, Christian Gibson, Vik Goel, Tarun Gogineni, Gabriel Goh, Rapha Gontijo-Lopes, Jonathan Gordon, Morgan Grafstein, Scott Gray, Ryan Greene, Joshua Gross, Shixiang Shane Gu, Yufei Guo, Chris Hallacy, Jesse Han, Jeff Harris, Yuchen He, Mike Heaton, Johannes Heidecke, Chris Hesse, Alan Hickey, Wade Hickey, Peter Hoeschele, Brandon Houghton, Kenny Hsu, Shengli Hu, Xin Hu, Joost Huizinga, Shantanu Jain, Shawn Jain, Joanne Jang, Angela Jiang, Roger Jiang, Haozhun Jin, Denny Jin, Shino Jomoto, Billie Jonn, Heewoo Jun, Tomer Kaftan, Łukasz Kaiser, Ali Kamali, Ingmar Kanitscheider, Nitish Shirish Keskar, Tabarak Khan, Logan Kilpatrick, Jong Wook Kim, Christina Kim, Yongjik Kim, Jan Hendrik Kirchner, Jamie Kiros, Matt Knight, Daniel Kokotajlo, Łukasz Kondraciuk, Andrew Kondrich, Aris Konstantinidis, Kyle Kosic, Gretchen Krueger, Vishal Kuo, Michael Lampe, Ikai Lan, Teddy Lee, Jan Leike, Jade Leung, Daniel Levy, Chak Ming Li, Rachel Lim, Molly Lin, Stephanie Lin, Mateusz Litwin, Theresa Lopez, Ryan Lowe, Patricia Lue, Anna Makanju, Kim Malfacini, Sam Manning, Todor Markov, Yaniv Markovski, Bianca Martin, Katie Mayer, Andrew Mayne, Bob McGrew, Scott Mayer McKinney, Christine McLeavey, Paul McMillan, Jake McNeil, David Medina, Aalok Mehta, Jacob Menick, Luke Metz, Andrey Mishchenko, Pamela Mishkin, Vinnie Monaco, Evan Morikawa, Daniel Mossing, Tong Mu, Mira Murati, Oleg Murk, David Mély, Ashvin Nair, Reiichiro Nakano, Rajeev Nayak, Arvind Neelakantan, Richard Ngo, Hyeonwoo Noh, Long Ouyang, Cullen O'Keefe, Jakub Pachocki, Alex Paino, Joe Palermo, Ashley Pantuliano, Giambattista Parascandolo, Joel Parish, Emy Parparita, Alex Passos, Mikhail Pavlov, Andrew Peng, Adam Perelman, Filipe de Avila Belbute Peres, Michael Petrov, Henrique Ponde de Oliveira Pinto, Michael, Pokorny, Michelle Pokrass, Vitchyr H. Pong, Tolly Powell, Alethea Power, Boris Power, Elizabeth Proehl, Raul Puri, Alec Radford, Jack Rae, Aditya Ramesh, Cameron Raymond, Francis Real, Kendra Rimbach, Carl Ross, Bob Rotsted, Henri Roussez, Nick Ryder, Mario Saltarelli, Ted Sanders, Shibani Santurkar, Girish Sastry, Heather Schmidt, David Schnurr, John Schulman, Daniel Selsam, Kyla Sheppard, Toki Sherbakov, Jessica Shieh, Sarah Shoker, Pranav Shyam, Szymon Sidor, Eric Sigler, Maddie Simens, Jordan Sitkin, Katarina Slama, Ian Sohl, Benjamin Sokolowsky, Yang song, Natalie Staudacher, Felipe Petroski Such, Natalie Summers, Ilya Sutskever, Jie Tang, Nikolas Tezak, Madeleine B. Thompson, Phil Tillet, Amin Tootoonchian, Elizabeth Tseng, Preston Tuggle, Nick Turley, Jerry Tworek, Juan Felipe Cerón Uribe, Andrea Vallone, Arun Vijayvergiya, Chelsea Voss, Carroll Wainwright, Justin Jay Wang, Alvin Wang, Ben Wang, Jonathan Ward, Jason Wei, CJ Weinmann, Akila Welihinda, Peter Welinder, Jiayi Weng, Lilian Weng, Matt Wiethoff, Dave Willner, Clemens Winter, Samuel Wolrich, Hannah Wong, Lauren Workman, Sherwin Wu, Jeff Wu, Michael Wu, Kai Xiao, Tao Xu, Sarah Yoo, Kevin Yu, Qiming Yuan, Wojciech Zaremba, Rowan Zellers, Chong Zhang, Marvin Zhang, Shengjia Zhao, Tianhao Zheng, Juntang Zhuang, William Zhuk, Barret Zoph ·

We report the development of GPT-4, a large-scale, multimodal model which can accept image and text inputs and produce text outputs. While less capable than humans in many real-world scenarios, GPT-4 exhibits human-level performance on various professional and academic benchmarks, including passing a simulated bar exam with a score around the top 10% of test takers. GPT-4 is a Transformer-based model pre-trained to predict the next token in a document. The post-training alignment process results in improved performance on measures of factuality and adherence to desired behavior. A core component of this project was developing infrastructure and optimization methods that behave predictably across a wide range of scales. This allowed us to accurately predict some aspects of GPT-4's performance based on models trained with no more than 1/1,000th the compute of GPT-4.

PDF Abstract Preprint 2023 PDF Preprint 2023 Abstract

Code

Add Remove Mark official

openai/evals official

13,901

shmsw25/factscore

211

unispac/visual-adversarial-examples…

↳ Quickstart in

Spaces

115

gpt4life/alpagasus

emrgnt-cmplxty/zero-shot-replication

See all 9 implementations

Tasks

Add Remove

Arithmetic Reasoning

Bug fixing

Code Generation

Common Sense Reasoning

Factual Inconsistency Detection in Chart Captioning

Long-Context Understanding

Math

Multi-task Language Understanding

Only Connect Walls Dataset Task 1 (Grouping)

Question Answering

Sentence Completion

Visual Question Answering

Visual Question Answering (VQA)

Datasets

MMLU

GSM8K

HumanEval

HellaSwag

WinoGrande

DROP

TruthfulQA

MM-Vet

ARC (AI2 Reasoning Challenge)

InfiMM-Eval

ViP-Bench

OCW

BenchLMM SWE-bench

CHOCOLATE CORE-MM

Results from the Paper

Edit

Ranked #1 on Long-Context Understanding on Ada-LEval (BestAnswer)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Long-Context Understanding	Ada-LEval (BestAnswer)	GPT-4-Turbo-0125	2k	73.5	# 1	Compare
			4k	65.5	# 2	Compare
			8k	56.5	# 1	Compare
			16k	44.5	# 1	Compare
			1k	73.5	# 2	Compare
			6k	63.0	# 1	Compare
			12k	52.0	# 1	Compare
			32k	30.0	# 1	Compare
			64k	0.0	# 2	Compare
			128k	0.0	# 1	Compare
Long-Context Understanding	Ada-LEval (BestAnswer)	GPT-4-Turbo-1106	2k	73.5	# 1	Compare
			4k	67.5	# 1	Compare
			8k	53.5	# 2	Compare
			16k	44.0	# 2	Compare
			1k	74.0	# 1	Compare
			6k	59.5	# 2	Compare
			12k	49.5	# 2	Compare
			32k	16.0	# 2	Compare
			64k	0.0	# 2	Compare
			128k	0.0	# 1	Compare
Long-Context Understanding	Ada-LEval (TSort)	GPT-4-Turbo-1106	2k	18.5	# 1	Compare
			4k	15.5	# 2	Compare
			8k	7.5	# 2	Compare
			16k	3.5	# 4	Compare
			32k	6.0	# 1	Compare
			64k	6.0	# 1	Compare
			128k	6.0	# 1	Compare
Long-Context Understanding	Ada-LEval (TSort)	GPT-4-Turbo-0125	2k	15.5	# 2	Compare
			4k	16.5	# 1	Compare
			8k	8.5	# 1	Compare
			16k	5.5	# 1	Compare
			32k	2.0	# 2	Compare
			64k	4.0	# 2	Compare
			128k	2.0	# 2	Compare
Common Sense Reasoning	ARC (Challenge)	GPT-4 (few-shot, k=25)	Accuracy	96.4	# 1	Compare
Common Sense Reasoning	ARC (Challenge)	GPT-3.5 (few-shot, k=25)	Accuracy	85.2	# 12	Compare
Visual Question Answering	BenchLMM	GPT-4V	GPT-3.5 score	58.37	# 1	Compare
Factual Inconsistency Detection in Chart Captioning	CHOCOLATE-LLM	GPT-4V	Kendall's Tau-c	0.205	# 1	Compare
Visual Question Answering (VQA)	CORE-MM	GPT-4V	Overall score	74.44	# 1	Compare
			Deductive	74.86	# 1	Compare
			Analogical	69.86	# 1	Compare
			Params	-	# 1	Compare
			Abductive	77.88	# 1	Compare
Question Answering	DROP Test	GPT 3.5 (few-shot, k=3)	F1	64.1	# 11	Compare
Question Answering	DROP Test	GPT-4 (few-shot, k=3)	F1	80.9	# 6	Compare
Arithmetic Reasoning	GSM8K	GPT-4 (few-shot, k=5, CoT)	Accuracy	93	# 16	Compare
Arithmetic Reasoning	GSM8K	GPT-3.5 (few-shot, k=5)	Accuracy	57.1	# 109	Compare
Sentence Completion	HellaSwag	GPT-4 (10-shot)	Accuracy	95.3	# 4	Compare
Sentence Completion	HellaSwag	GPT-3.5 (10-shot)	Accuracy	85.5	# 19	Compare
Code Generation	HumanEval	GPT-3.5 Turbo (zero-shot)	Pass@1	48.1	# 47	Compare
Code Generation	HumanEval	GPT-4 (0-shot)	Pass@1	67.0	# 26	Compare
Visual Question Answering (VQA)	InfiMM-Eval	GPT-4V	Overall score	74.44	# 1	Compare
			Deductive	74.86	# 1	Compare
			Abductive	77.88	# 1	Compare
			Analogical	69.86	# 1	Compare
Multi-task Language Understanding	MMLU	GPT-4 (few-shot)	Average (%)	86.4	# 5	Compare
Multi-task Language Understanding	MMLU	GPT-3.5 Turbo	Average (%)	70.0	# 31	Compare
Visual Question Answering	MM-Vet	GPT-4V-Turbo-detail:high	GPT-4 score	67.6±0.1	# 2	Compare
Visual Question Answering	MM-Vet	GPT-4V-Turbo-detail:low	GPT-4 score	60.2±0.3	# 8	Compare
Visual Question Answering	MM-Vet	GPT-4V	GPT-4 score	67.7±0.3	# 1	Compare
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-4 (100-shot)	Wasserstein Distance (WD)	73.6	# 3	Compare
			# Correct Groups	249	# 5	Compare
			Fowlkes Mallows Score (FMS)	42.8	# 4	Compare
			Adjusted Rand Index (ARI)	28.5	# 4	Compare
			Adjusted Mutual Information (AMI)	32.3	# 4	Compare
			# Solved Walls	3	# 6	Compare
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-4 (1-shot)	Wasserstein Distance (WD)	73.4	# 2	Compare
			# Correct Groups	262	# 4	Compare
			Fowlkes Mallows Score (FMS)	43.7	# 2	Compare
			Adjusted Rand Index (ARI)	29.7	# 2	Compare
			Adjusted Mutual Information (AMI)	33.5	# 2	Compare
			# Solved Walls	4	# 5	Compare
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-3.5-turbo (1-shot)	Wasserstein Distance (WD)	82.3	# 9	Compare
			# Correct Groups	123	# 10	Compare
			Fowlkes Mallows Score (FMS)	34.4	# 9	Compare
			Adjusted Rand Index (ARI)	18.2	# 10	Compare
			Adjusted Mutual Information (AMI)	21.2	# 10	Compare
			# Solved Walls	0	# 10	Compare
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-3.5-turbo (0-shot)	Wasserstein Distance (WD)	82.5	# 10	Compare
			# Correct Groups	114	# 11	Compare
			Fowlkes Mallows Score (FMS)	34.0	# 10	Compare
			Adjusted Rand Index (ARI)	18.4	# 9	Compare
			Adjusted Mutual Information (AMI)	21.6	# 9	Compare
			# Solved Walls	0	# 10	Compare
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-4 (0-shot)	Wasserstein Distance (WD)	75.8	# 5	Compare
			# Correct Groups	239	# 6	Compare
			Fowlkes Mallows Score (FMS)	41.5	# 5	Compare
			Adjusted Rand Index (ARI)	27.2	# 5	Compare
			Adjusted Mutual Information (AMI)	30.7	# 5	Compare
			# Solved Walls	6	# 3	Compare
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-3.5-turbo (3-shot)	Wasserstein Distance (WD)	80.9	# 7	Compare
			# Correct Groups	140	# 8	Compare
			Fowlkes Mallows Score (FMS)	36.8	# 7	Compare
			Adjusted Rand Index (ARI)	21.3	# 7	Compare
			Adjusted Mutual Information (AMI)	24.7	# 7	Compare
			# Solved Walls	0	# 10	Compare
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-3.5-turbo (5-shot)	Wasserstein Distance (WD)	80.6	# 6	Compare
			# Correct Groups	149	# 7	Compare
			Fowlkes Mallows Score (FMS)	37.3	# 6	Compare
			Adjusted Rand Index (ARI)	22.0	# 6	Compare
			Adjusted Mutual Information (AMI)	25.4	# 6	Compare
			# Solved Walls	2	# 7	Compare
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-3.5-turbo (10-shot)	Wasserstein Distance (WD)	81.2	# 8	Compare
			# Correct Groups	137	# 9	Compare
			Fowlkes Mallows Score (FMS)	36.1	# 8	Compare
			Adjusted Rand Index (ARI)	20.4	# 8	Compare
			Adjusted Mutual Information (AMI)	24.0	# 8	Compare
			# Solved Walls	2	# 7	Compare
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-4 (5-shot)	Wasserstein Distance (WD)	72.9	# 1	Compare
			# Correct Groups	269	# 3	Compare
			Fowlkes Mallows Score (FMS)	43.4	# 3	Compare
			Adjusted Rand Index (ARI)	29.1	# 3	Compare
			Adjusted Mutual Information (AMI)	32.8	# 3	Compare
			# Solved Walls	7	# 2	Compare
Only Connect Walls Dataset Task 1 (Grouping)	OCW	GPT-4 (3-shot)	Wasserstein Distance (WD)	73.7	# 4	Compare
			# Correct Groups	272	# 2	Compare
			Fowlkes Mallows Score (FMS)	43.9	# 1	Compare
			Adjusted Rand Index (ARI)	29.9	# 1	Compare
			Adjusted Mutual Information (AMI)	33.6	# 1	Compare
			# Solved Walls	5	# 4	Compare
Bug fixing	SWE-bench	GPT-4	Resolved (unassisted)	0%	# 4	Compare
Bug fixing	SWE-bench	GPT-4	Resolved (assisted)	1.74%	# 4	Compare
Question Answering	TruthfulQA	GPT-4 (RLHF)	MC1	0.59	# 1	Compare
Visual Question Answering	ViP-Bench	GPT-4V-turbo-detail:low (Visual Prompt)	GPT-4 score (bbox)	52.8	# 2	Compare
Visual Question Answering	ViP-Bench	GPT-4V-turbo-detail:low (Visual Prompt)	GPT-4 score (human)	51.4	# 2	Compare
Visual Question Answering	ViP-Bench	GPT-4V-turbo-detail:high (Visual Prompt)	GPT-4 score (bbox)	60.7	# 1	Compare
Visual Question Answering	ViP-Bench	GPT-4V-turbo-detail:high (Visual Prompt)	GPT-4 score (human)	59.9	# 1	Compare
Common Sense Reasoning	WinoGrande	GPT-3.5 (5-shot)	Accuracy	81.6	# 11	Compare
Common Sense Reasoning	WinoGrande	GPT-4 (5-shot)	Accuracy	87.5	# 7	Compare

Methods

Add Remove

Absolute Position Encodings • Adam • BPE • Dense Connections • Dropout • GPT-4 • Label Smoothing • Layer Normalization • Linear Layer • Multi-Head Attention • Position-Wise Feed-Forward Layer • Residual Connection • Scaled Dot-Product Attention • Softmax • Test • Transformer

Edit Social Preview

GPT-4 Technical Report

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove