LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models

作者： Yukang Chen, Shengju Qian, Haotian Tang, Xin Lai, Zhijian Liu, Song Han, Jiaya Jia (2023)

领域

长上下文对齐

TLDR（中文）

用 shifted sparse attention + LoRA 把 7B 模型扩到 100K 上下文，且只用一台 8xA100。是长上下文微调的工程标杆；另见 YaRN、PoSE。

TLDR (English)

Uses shifted sparse attention + LoRA to extend 7B model to 100K context with just one 8xA100 machine. Engineering benchmark for long-context fine-tuning; see also YaRN, PoSE.

出现在这些文章里

长上下文：让模型读得更远
Long Context: Helping Models Read Farther

同被引用

这些论文与本文出现在同一篇文章中

LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models

领域

TLDR（中文）

TLDR (English)

出现在这些文章里

同被引用

相关论文