Red Teaming Language Models with Language Models

作者： Ethan Perez, Saffron Huang, Francis Song, Trevor Cai, Roman Ring, John Aslanides, Amelia Glaese, Nat McAleese, Geoffrey Irving (2022)

arXiv： 2202.03286

领域

安全评估

TLDR（中文）

DeepMind 用一个 LLM 自动产生攻击 prompt 来红队另一个 LLM，把红队工程化。安全/越狱研究从此从"人工搜 prompt"走向自动化范式。

TLDR (English)

DeepMind uses one LLM to automatically generate attack prompts for red-teaming another LLM, engineering red-teaming. Safety/jailbreak research since then shifted from "manual prompt search" to automated paradigm.

出现在这些文章里

安全与对抗：模型的防护与攻击
Safety and Adversarial: Protecting and Attacking Models

同被引用

这些论文与本文出现在同一篇文章中

Red Teaming Language Models with Language Models

领域

TLDR（中文）

TLDR (English)

出现在这些文章里

同被引用

相关论文