多模态吧 关注:81贴子:270
  • 1回复贴,共1

QLoRA——不损失性能微调量化的大模型

只看楼主收藏回复

QLoRA,这是一种高效的微调方法,是基于LoRA的创新,能够非常大地降低微调大模型时需要的显存而不损失性能,降低了微调的成本,也给个人微调大模型打开了道路。
LLM 通常使用 16 位浮点参数 (即 FP16 或 BF16) 进行训练。因此,存储一个权重值或激活值需要 2 个字节的内存。如果参数能从16位降低到8位或者4位,就能对模型大小进行压缩。但压缩后再进行微调会极大地损失性能,这个问题阻挡了个人对量化后的模型进行微调,现在QLoRA解决了这个问题。
QLoRA足以在单个48GB GPU上微调一个650亿参数模型,同时保持完整的16位微调任务性能。QLoRA通过一个冻结的、4位量化的预训练语言模型反向传播梯度至低秩适配器(LoRA)。我们最好的模型系列,我们命名为Guanaco,在Vicuna基准测试中超越了所有以前公开发布的模型,达到了ChatGPT性能水平的99.3%,而只需要在单个GPU上微调24小时。
QLoRA引入了一些创新来节省内存而不牺牲性能:
(a) 4位NormalFloat (NF4),这是一个对于正态分布权重来说在信息理论上是最优的新数据类型;
(b) 双重量化来通过量化量化常数来减少平均内存占用;
(c) 分页优化器来管理内存峰值



IP属地:广西来自Android客户端1楼2023-06-01 15:08回复
    github项目地址代码与示例:网页链接
    论文:网页链接


    IP属地:广西来自Android客户端2楼2023-06-01 15:09
    回复