Learning to summarize from human feedback

作者： Nisan Stiennon, Long Ouyang, Jeff Wu, Daniel M. Ziegler, Ryan Lowe, Chelsea Voss, Alec Radford, Dario Amodei, Paul Christiano (2020)

arXiv： 2009.01325

领域

对齐

TLDR（中文）

OpenAI 把 RLHF 第一次用到大型语言模型（摘要），证明 RLHF 比 SFT/MLE 在人类偏好上系统性更好。是 InstructGPT 的直接前身。

TLDR (English)

OpenAI's first application of RLHF to large language models (summarization), proving RLHF systematically better than SFT/MLE on human preferences. Direct predecessor to InstructGPT.

Learning to summarize from human feedback

领域

TLDR（中文）

TLDR (English)

相关论文