从LLM中完全消除矩阵乘法,效果出奇得好,10亿参数跑在FPGA上接近大脑功耗

AI最新资讯1个月前发布 tree
22 0 0

今日应用


今日话题


从LLM中完全消除矩阵乘法,效果出奇得好,10亿参数跑在FPGA上接近大脑功耗
从LLM中完全消除矩阵乘法,效果出奇得好,10亿参数跑在FPGA上接近大脑功耗
 

重点标签 MatMul神经网络深度学习GPU优化语言模型

文章摘要


深度学习领域,矩阵乘法(MatMul)因其在神经网络操作中的主导地位而备受关注。然而,随着模型规模的扩大,MatMul 所占的计算开销也日益增加。为了解决这一问题,加州大学圣克鲁兹分校等机构的研究者提出了一种全新的方法,即在大型语言模型(LLM)中完全消除 MatMul 操作。这一研究成果不仅在十亿参数规模下保持了强大的性能,而且在内存使用和效率上取得了显著提升。

研究者通过两种主要策略来替代 MatMul:一是使用初等运算代替乘法,如在卷积神经网络(CNN)中用加法代替;二是采用二值或三值化量化方法,在累加前对 MatMul 值进行处理。在语言建模方面,虽然量化方法如 BitNet 显示出可扩展性,但它们仍保留了自注意力机制中的矩阵 – 矩阵相乘(MMM)操作。

为了消除 MatMul,研究者构建了首个可扩展的 MatMul-free 语言模型,通过在密集层中使用加法操作和在自注意力类函数中使用元素级 Hadamard 乘积来完成。具体来说,三值权重消除了密集层中的 MatMul,类似于二值化网络 BNN。此外,为了从自注意力中移除 MatMul,研究者优化了门控循环单元(GRU),使其仅依赖于元素级乘积。

实验结果表明,MatMul-free 模型在性能上与最先进的 Transformer 相当,同时在推理期间需要更少的内存。随着模型规模的增加,MatMul-free 模型与全精度 Transformer 之间的性能差距逐渐缩小。此外,研究者还提供了一种高效的 GPU 模型实现方式,在训练期间相比未优化的基线模型减少了多达 61% 的内存使用。在推理时利用优化的内核,模型内存消耗可以比未优化的模型减少超过 10 倍。

为了进一步提高效率,研究者在 FPGA 上构建了一个自定义硬件解决方案,以 13W 的功耗处理了十亿参数规模的模型,超出了人类可读的吞吐量,使 LLM 更接近大脑般的效率。尽管如此,由于计算资源的限制,研究者尚未在非常大的模型(如参数大于 100B 的模型)上测试 MatMul-free 模型的有效性,因此其实战效果还有待观察。

总的来说,这项研究为深度学习领域提供了一种全新的视角,通过消除 MatMul 操作,不仅提高了模型的计算效率,还为未来更大规模的模型训练和推理提供了可能。随着技术的不断发展,我们有理由相信,MatMul-free 语言模型将在未来的深度学习应用中发挥重要作用。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...