麻省理工提出“跨层注意力”,极大优化Transformer缓存

AI最新资讯4个月前发布 tree
44 0 0

今日应用


今日话题


麻省理工提出“跨层注意力”,极大优化Transformer缓存
麻省理工提出“跨层注意力”,极大优化Transformer缓存
 

重点标签 Transformer大模型跨层注意力内存优化市场研究

文章摘要


摘要:
专注于AIGC领域的专业社区关注了微软、OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,以及市场研究和AIGC开发者生态。其中,Transformer架构在大模型领域具有显著的影响力,几乎所有知名开闭源模型如ChatGPT、Sora等都基于此架构开发。然而,随着模型参数的指数级增长,Transformer在解码时所需的KV(键值)缓存急剧增加,导致内存占用过大,成为部署和推理的瓶颈。

麻省理工学院的研究人员提出了跨层注意力(Cross-Layer Attention, CLA),通过在不同解码层间共享KV来显著降低内存使用,提升大模型处理长序列和大批次推理任务的效率及准确率。CLA的核心思想是在相邻层之间共享KV,减少模型必须维护的独立KV集合数量,并通过层间连接重用这些激活。此外,CLA提供了灵活的配置,允许开发者根据需要调整共享因子,以平衡内存使用和模型性能。

研究人员在10亿和30亿参数规模上训练了多款CLA和非CLA模型,测试CLA的性能。实验结果显示,CLA在减少KV缓存大小的同时,能够实现与非CLA模型相当的推理准确性。特别是在10亿参数规模的实验中,CLA模型在保持准确度的基础上显著减少了KV缓存的大小。在30亿参数模型的实验中,CLA也展现了其高效性,证明了CLA在大规模模型中的有效性。

本文素材来源于CLA论文,如有侵权请联系删除。

文章来源


原文地址: 点我阅读全文
原文作者: AIGC开放社区

© 版权声明

相关文章

暂无评论

暂无评论...