如何把大模型压缩到1bit?论文作者这样说

AI最新资讯4个月前发布 tree
75 0 0

今日应用


今日话题


如何把大模型压缩到1bit?论文作者这样说
如何把大模型压缩到1bit?论文作者这样说
 

重点标签 模型压缩量化OneBit低位宽学术交流

文章摘要


自从大模型受到广泛关注以来,人们一直在寻求降低其部署成本的方法。大模型虽然能力强大,但高成本限制了其应用范围。模型量化技术通过将参数转换为低位宽表示,有效减少空间占用。目前,主流量化方法能够将模型压缩至4bit,但低于3bit的量化仍是一个挑战。清华大学和哈尔滨工业大学的研究者提出了一种名为OneBit的1位量化感知训练(QAT)框架,实现了在极低比特宽度下部署大型语言模型(LLM)。OneBit框架包括一种新的1位参数表示方法和一种基于矩阵分解的参数初始化方法,以提高训练速度。实验结果显示,OneBit在仅使用1位权重矩阵的情况下,能够实现至少83%的非量化性能。

为了帮助大家更深入地了解这项研究,机器之心邀请了论文作者之一徐玉庄,在3月18日的线上分享中解读他们的工作。分享主题为“大模型极限量化方法的探索与创新”,内容涵盖模型量化的基本概念、经典方法和超低位宽量化的挑战与思路。感兴趣的观众可以通过关注机器之心机动组视频号预约直播,并加入交流群参与讨论。

机动组是机器之心发起的人工智能技术社区,专注于学术研究与技术实践,提供技术公开课、学术分享、技术实践和实验室探访等内容。社区成员可以参与线下学术交流会和人才服务、产业技术对接活动。更多信息可以通过访问机动组官网或关注服务号获取。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...