安全与对抗：模型的防护与攻击

直觉版：模型也会”被骗”

LLM 的安全问题可以从两个角度看：模型可能”说错话”（幻觉、偏见、有害内容），也可能被恶意输入”骗”去做不该做的事（jailbreak、提示注入）。就像守门人既要识别坏人，也要抵挡欺骗话术。

工程版：分层防御与持续监测

工程防御通常分层实施：

输入层：过滤敏感 prompt、检测已知攻击模式、限制输入长度和格式。
模型层：对齐训练（RLHF、Constitutional AI）、拒绝策略、输出分类器。
输出层：后处理过滤、水印、事实核查、引用验证。
系统层：沙箱执行、权限最小化、审计日志、速率限制。

常见攻击：

Jailbreak：通过角色扮演、编码转换、逻辑陷阱等绕过安全限制。
提示注入：在不可信输入（如网页内容、邮件）中嵌入恶意指令，劫持模型行为。
数据提取：通过精心构造的 prompt 提取训练数据中的隐私信息。

没有完美的防御，关键是纵深防御（defense in depth）和持续红队测试。

研究版：安全的本质是可泛化的拒绝

研究上，安全的核心问题是：模型能否学习”可泛化的拒绝”——即不仅拒绝训练时见过的攻击，也能抵御未见过的变体？当前证据表明，对抗性攻击往往可迁移：在一个模型上发现的 jailbreak 常常对其他模型也有效。

前沿方向包括：自动化红队（用模型攻击模型）、可证明的防御边界、机械可解释性（mechanistic interpretability）定位有害行为回路、以及用形式化方法验证关键系统的输出约束。

🔬 开放研究问题

该领域的关键问题与研究方向：

对抗性攻击（如 GCG）与模型对齐之间的"猫鼠游戏"是否有理论上的平衡点？

相关论文： zou2023 universal , wei2023 jailbroken
间接提示注入（indirect prompt injection）在真实应用中的风险评估框架应该如何构建？

相关论文： greshake2023 notwhat
数据提取攻击（training data extraction）的隐私风险如何量化？差分隐私训练是否是唯一解？

相关论文： carlini2021 extracting

本文引用论文

Jailbroken: How Does LLM Safety Training Fail? — Alexander Wei et al. (2023)
系统化分类越狱手段（在分布外、目标冲突），并解释为什么 RLHF 难以根治。是越狱研究"taxonomy"参考资料。
Red Teaming Language Models with Language Models — Ethan Perez et al. (2022)
DeepMind 用一个 LLM 自动产生攻击 prompt 来红队另一个 LLM，把红队工程化。安全/越狱研究从此从"人工搜 prompt"走向自动化范式。
Universal and Transferable Adversarial Attacks on Aligned Language Models — Andy Zou et al. (2023)
用 GCG 算法找到一段乱码后缀，能把对齐过的 LLaMA-2/Vicuna 全打穿，且攻击在多个闭源模型间迁移。震撼整个安全社区，让"对齐脆弱性"成为主流话题。
Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback — Yuntao Bai et al. (2022)
Anthropic 早期 RLHF 论文，HH-RLHF 数据集自此成为开源对齐研究的"MNIST"。是理解 helpful vs harmless 张力的最早系统化工作。
Extracting Training Data from Large Language Models — Nicholas Carlini et al. (2021)
展示了从 GPT-2 等语言模型中提取训练数据片段的可行性。通过精心设计的解码策略，可以从模型中恢复出数百条逐字记忆的训练样本，揭示了大规模语言模型的隐私风险。
Not What You Have Signed Up For: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection — Kai Greshake et al. (2023)
揭示了间接提示注入攻击：攻击者通过控制 LLM 应用处理的外部数据（如网页、邮件、文档）来注入恶意指令，从而操控应用行为。展示了 Bing Chat、GitHub Copilot 等真实应用中的攻击场景。

安全与对抗：模型的防护与攻击

直觉版：模型也会”被骗”

工程版：分层防御与持续监测

研究版：安全的本质是可泛化的拒绝

🔬 开放研究问题

相关阅读

微调与对齐：让模型听指令、守规矩

评估与基准：如何判断模型好坏

提示工程：与模型对话的艺术

RAG 与检索增强：让模型有外部记忆

本文引用论文