CriticBench Dataset | Papers With Code

Name:*

Full name (optional):

Description (Markdown and $\LaTeX$ enabled):*

**CriticBench** is a comprehensive benchmark designed to assess the abilities of **Large Language Models (LLMs)** to critique and rectify their reasoning across various tasks. It encompasses five reasoning domains:

1. **Mathematical**
2. **Commonsense**
3. **Symbolic**
4. **Coding**
5. **Algorithmic**

CriticBench compiles **15 datasets** and incorporates responses from **three LLM families**. By utilizing CriticBench, researchers evaluate and dissect the performance of **17 LLMs** in **generation**, **critique**, and **correction reasoning** (referred to as **GQC reasoning**). Notable findings include:

1. A **linear relationship** in GQC capabilities, with critique-focused training significantly enhancing performance.
2. **Task-dependent variation** in correction effectiveness, with logic-oriented tasks being more amenable to correction.
3. **GQC knowledge inconsistencies** that decrease as model size increases.
4. An intriguing **inter-model critiquing dynamic**, where stronger models excel at critiquing weaker ones, while weaker models surprisingly surpass stronger ones in self-critique.

(1) CriticBench: Benchmarking LLMs for Critique-Correct Reasoning. https://arxiv.org/abs/2402.14809.
(2) CriticBench: Benchmarking LLMs for Critique-Correct Reasoning. http://export.arxiv.org/abs/2402.14809.
(3) CriticBench: Benchmarking LLMs for Critique-Correct Reasoning. https://openreview.net/forum?id=sc5i7q6DQO.
(4) CriticBench: Benchmarking LLMs for Critique-Correct Reasoning - arXiv.org. https://arxiv.org/html/2402.14809v2.
(5) undefined. https://doi.org/10.48550/arXiv.2402.14809.

Homepage URL (optional):

Paper where the dataset was introduced:

Introduction date:

Dataset license:

URL to full license terms:

Image

Currently

datasets/e536bc48-7126-451d-b309-3ff8e774e262.png Clear

Change

---

CriticBench

Benchmarks

Add a new result Link an existing benchmark

Papers

Dataset Loaders

Add Remove

Tasks

Similar Datasets

AmbigNQ

Usage

License

Modalities

Languages

CriticBench

Benchmarks Edit Add a new result Link an existing benchmark

Papers

Dataset Loaders Edit Add Remove

Tasks Edit