从LLM中完全消除矩阵乘法，效果出奇得好，10亿参数跑在FPGA上接近大脑功耗

AI最新资讯5个月前发布 tree

64 0 0

今日应用

千禾智能

千禾智能，让视频处理变得轻松高效，通过先进AI技术提供专业水平的在线视频处理服务。

今日话题

从LLM中完全消除矩阵乘法，效果出奇得好，10亿参数跑在FPGA上接近大脑功耗

重点标签 MatMul、神经网络、深度学习、GPU优化、语言模型

文章摘要

在深度学习领域，矩阵乘法（MatMul）因其在神经网络操作中的主导地位而备受关注。然而，随着模型规模的扩大，MatMul 所占的计算开销也日益增加。为了解决这一问题，加州大学圣克鲁兹分校等机构的研究者提出了一种全新的方法，即在大型语言模型（LLM）中完全消除 MatMul 操作。这一研究成果不仅在十亿参数规模下保持了强大的性能，而且在内存使用和效率上取得了显著提升。

研究者通过两种主要策略来替代 MatMul：一是使用初等运算代替乘法，如在卷积神经网络（CNN）中用加法代替；二是采用二值或三值化量化方法，在累加前对 MatMul 值进行处理。在语言建模方面，虽然量化方法如 BitNet 显示出可扩展性，但它们仍保留了自注意力机制中的矩阵 – 矩阵相乘（MMM）操作。

为了消除 MatMul，研究者构建了首个可扩展的 MatMul-free 语言模型，通过在密集层中使用加法操作和在自注意力类函数中使用元素级 Hadamard 乘积来完成。具体来说，三值权重消除了密集层中的 MatMul，类似于二值化网络 BNN。此外，为了从自注意力中移除 MatMul，研究者优化了门控循环单元（GRU），使其仅依赖于元素级乘积。

实验结果表明，MatMul-free 模型在性能上与最先进的 Transformer 相当，同时在推理期间需要更少的内存。随着模型规模的增加，MatMul-free 模型与全精度 Transformer 之间的性能差距逐渐缩小。此外，研究者还提供了一种高效的 GPU 模型实现方式，在训练期间相比未优化的基线模型减少了多达 61% 的内存使用。在推理时利用优化的内核，模型内存消耗可以比未优化的模型减少超过 10 倍。

为了进一步提高效率，研究者在 FPGA 上构建了一个自定义硬件解决方案，以 13W 的功耗处理了十亿参数规模的模型，超出了人类可读的吞吐量，使 LLM 更接近大脑般的效率。尽管如此，由于计算资源的限制，研究者尚未在非常大的模型（如参数大于 100B 的模型）上测试 MatMul-free 模型的有效性，因此其实战效果还有待观察。

总的来说，这项研究为深度学习领域提供了一种全新的视角，通过消除 MatMul 操作，不仅提高了模型的计算效率，还为未来更大规模的模型训练和推理提供了可能。随着技术的不断发展，我们有理由相信，MatMul-free 语言模型将在未来的深度学习应用中发挥重要作用。

文章来源

原文地址: 点我阅读全文
原文作者: 机器之心

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

从LLM中完全消除矩阵乘法，效果出奇得好，10亿参数跑在FPGA上接近大脑功耗

今日应用

今日话题

文章摘要

文章来源

ICML 2024：AI对齐与可变和可影响奖励函数

大模型的高考数学成绩单：及格已经非常好了

相关文章

暂无评论

热门网址

热门标签