TruthfulQA

Introduced by Lin et al. in TruthfulQA: Measuring How Models Mimic Human Falsehoods

TruthfulQA is a benchmark to measure whether a language model is truthful in generating answers to questions. The benchmark comprises 817 questions that span 38 categories, including health, law, finance and politics. The authors crafted questions that some humans would answer falsely due to a false belief or misconception.

Homepage

Benchmarks

Add a new result Link an existing benchmark

Trend	Task	Dataset Variant	Best Model	Paper	Code
	Question Answering	TruthfulQA	GPT-4

Papers

Paper	Code	Results	Date	Stars

Dataset Loaders

Add Remove

huggingface/datasets (truthfull_qa-tr)

18,406

huggingface/datasets (truthful_qa_rephrased)

18,406

huggingface/datasets (truthful_qa)

18,406

Tasks

Question Answering

Similar Datasets

WinoGrande

HaluEval

ARC (AI2 Reasoning Challenge)

HellaSwag

Source: https://arxiv.org/pdf/2109.07958v1.pdf.

Usage

License

Unknown

TruthfulQA

Benchmarks

Add a new result Link an existing benchmark

Papers

Dataset Loaders

Add Remove

Tasks

Similar Datasets

WinoGrande

HaluEval

ARC (AI2 Reasoning Challenge)

HellaSwag

Usage

License

Modalities

Languages

TruthfulQA

Benchmarks Edit Add a new result Link an existing benchmark

Papers

Dataset Loaders Edit Add Remove

Tasks Edit

Similar Datasets

WinoGrande

HaluEval

ARC (AI2 Reasoning Challenge)

HellaSwag

Usage

License Edit

Modalities Edit

Languages Edit

Benchmarks

Add a new result Link an existing benchmark

Dataset Loaders

Add Remove

Tasks

License

Modalities

Languages