大模型压缩量化方案怎么选?无问芯穹Qllm-Eval量化方案全面评估:多模型、多参数、多维度

AI最新资讯4周前发布 tree
13 0 0

今日应用


今日话题


大模型压缩量化方案怎么选?无问芯穹Qllm-Eval量化方案全面评估:多模型、多参数、多维度
大模型压缩量化方案怎么选?无问芯穹Qllm-Eval量化方案全面评估:多模型、多参数、多维度
 

重点标签 Transformer架构大模型压缩量化方案模型性能量化影响

文章摘要


大型语言模型基于Transformer架构展现出卓越的性能,但参数规模庞大导致服务成本高昂。为解决此问题,研究团队进行了大模型压缩技术的研究,特别是训练后量化(Post-Training Quantization,PTQ)技术,以减少模型在存储和计算上的开销。这项研究工作《Evaluating Quantized Large Language Models》(Qllm-Eval)由清华大学电子工程系、无问芯穹和上海交通大学的研究团队完成,并已被ICML’24接收。

量化方案的评估与指导
Qllm-Eval项目提供了关于模型量化的详尽评估,包括不同模型、量化张量类型、量化方法以及不同任务上的性能,对产业实践中的模型量化工作具有重要的指导意义。项目还提供了实验数据和绘图工具的仓库地址,以及对Transformer版本更新的支持。

训练后量化技术
训练后量化技术通过使用低精度格式表示权重、激活值和KV Cache,降低了模型的存储和计算需求。量化过程虽然通常有损,但通过选择合适的量化方式,可以在不显著损失性能的前提下,提高模型的推理速度。

量化方式对模型性能的影响
量化方式的选择对模型性能有显著影响。Qllm-Eval评估了包括权重(W)、权重-激活(WA)、KV Cache(KV)在内的不同张量类型的量化效果,并提出了相应的建议。例如,对于大多数自然语言处理任务,使用W4、W4A8、KV4、W8KV4量化位宽几乎没有性能损失。

任务类型能力评估
Qllm-Eval还评估了五种任务类型能力,包括基本自然语言处理能力、涌现能力、道德规范判断能力、对话能力和长文本能力。评估结果显示,不同任务对量化的容忍度不同,例如,上下文学习和指令跟随任务对量化的容忍度较高,而自我校准能力则较低。

量化带来的加速效果
量化不仅可以减少模型大小,还可以提高模型的推理速度。Efficient LLM survey比较了不同场景下的量化加速效果,发现Weight-only量化可以显著加速decoding阶段,但可能增加prefill阶段的延迟。

总结与未来指引
本文全面评估了PTQ量化技术对大语言模型性能的影响,并提出了未来的研究方向,包括针对MoE模型、长文本和数学推理任务的量化方法,以及结合硬件维度的效率评测。

对文章感兴趣的读者可以联系学术作者进一步讨论。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...