MS MARCO (Microsoft Machine Reading Comprehension Dataset)

Introduced by Bajaj et al. in MS MARCO: A Human Generated MAchine Reading COmprehension Dataset

The MS MARCO (Microsoft MAchine Reading Comprehension) is a collection of datasets focused on deep learning in search. The first dataset was a question answering dataset featuring 100,000 real Bing questions and a human generated answer. Over time the collection was extended with a 1,000,000 question dataset, a natural language generation dataset, a passage ranking dataset, keyphrase extraction dataset, crawling dataset, and a conversational search.

Source: https://microsoft.github.io/msmarco/

Homepage

Benchmarks

Add a new result Link an existing benchmark

Task	Dataset Variant	Best Model
Passage Ranking	MS MARCO	Fine-tuned SOTA
Passage Re-Ranking	MS MARCO	HLATR
Question Answering	MS MARCO	Masque Q&A Style
Information Retrieval	MS MARCO	ConAE-128
TREC 2019 Passage Ranking	MSMARCO	ColBERF PRF Ranker
Passage Retrieval	MS MARCO	TW-BERT
Information Retrieval	MSMARCO	RetroMAE