Stop Uploading Test Data in Plain Text: New Protocols for Dataset Release

作者： Alon Jacovi, Avi Caciularu, Omer Goldman, Yoav Goldberg (2023)

领域

评估

TLDR（中文）

提出检测和预防基准数据污染的系统方法。通过分析模型在污染数据上的异常表现模式（如逐字记忆测试集），可以可靠地检测预训练数据是否包含公开测试集。呼吁发布加密或延迟公开的测试集。

TLDR (English)

Proposes systematic methods for detecting and preventing benchmark data contamination. By analyzing anomalous performance patterns on contaminated data (such as verbatim memorization of test sets), it reliably detects whether pretraining data contains publicly available test sets. Calls for releasing encrypted or delayed-public test sets.

出现在这些文章里

评估与基准：如何判断模型好坏
Evaluation and Benchmarks: Judging Model Quality

同被引用

这些论文与本文出现在同一篇文章中

Stop Uploading Test Data in Plain Text: New Protocols for Dataset Release

领域

TLDR（中文）

TLDR (English)

出现在这些文章里

同被引用

相关论文