YaRN: Efficient Context Window Extension of Large Language Models

作者： Bowen Peng, Jeffrey Quesnelle, Honglu Fan, Enrico Shippole (2023)

领域

长上下文

TLDR（中文）

在 RoPE 上做 NTK-aware 插值 + 温度修正，少量训练即可把上下文扩到 64K-128K。当下大多数开源模型扩长基本走 YaRN 或其变体。

TLDR (English)

Applies NTK-aware interpolation + temperature correction on RoPE, extending context to 64K-128K with minimal training. Most open-source models today use YaRN or variants for length extension.

出现在这些文章里

长上下文：让模型读得更远
Long Context: Helping Models Read Farther

同被引用

这些论文与本文出现在同一篇文章中

YaRN: Efficient Context Window Extension of Large Language Models

领域

TLDR（中文）

TLDR (English)

出现在这些文章里

同被引用

相关论文