GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers

作者： Elias Frantar, Saleh Ashkboos, Torsten Hoefler, Dan Alistarh (2022)

领域

推理

TLDR（中文）

第一次实现"在单卡上 4-bit 量化 175B 模型而几乎不掉精度"。把 LLM 推理硬件门槛从 8xA100 拉到一张消费级显卡，普及"开源大模型本地跑"。

TLDR (English)

First to achieve "4-bit quantization of 175B model on single GPU with almost no accuracy loss". Lowered LLM inference hardware barrier from 8xA100 to single consumer GPU, popularizing "run open-source LLMs locally".

出现在这些文章里

KV Cache 与量化：让大模型跑得更快
KV Cache and Quantization: Making Large Models Faster

同被引用

这些论文与本文出现在同一篇文章中

GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers

领域

TLDR（中文）

TLDR (English)

出现在这些文章里

同被引用

相关论文