Deduplicating Training Data Makes Language Models Better

Authors: Katherine Lee, Daphne Ippolito, Andrew Nystrom, Chiyuan Zhang, Douglas Eck, Chris Callison-Burch, Nicholas Carlini (2022)

arXiv: 2107.06499

Domains

Pretraining

TLDR (English)

Systematically demonstrates that deduplicating training data significantly improves language model performance and reduces memorization. By removing near-duplicate and exact-duplicate examples from C4 and RealNews, models perform better on downstream tasks and are far less likely to emit training data verbatim.

TLDR（中文）

系统证明训练数据去重能显著提升语言模型性能并减少记忆效应。通过在 C4 和 RealNews 数据集上去除近似重复和精确重复，模型在下游任务上表现更好，且生成训练数据副本的概率大幅降低。

Appears in These Articles

预训练与 Scaling Law：模型怎么学
Pretraining and Scaling Law: How Models Learn

Co-cited Papers

These papers appear in the same articles as this one

Related Papers

Other papers in the same domain