麻省理工提出“跨层注意力”，极大优化Transformer缓存

AI最新资讯4个月前发布 tree

44 0 0

今日应用

番茄简历

番茄简历 - 利用AI技术打造个性求职简历，提供多样模板，一键导出PDF、图片，助您展现职业魅力！

今日话题

麻省理工提出“跨层注意力”，极大优化Transformer缓存

重点标签 Transformer、大模型、跨层注意力、内存优化、市场研究

文章摘要

摘要：
专注于AIGC领域的专业社区关注了微软、OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，以及市场研究和AIGC开发者生态。其中，Transformer架构在大模型领域具有显著的影响力，几乎所有知名开闭源模型如ChatGPT、Sora等都基于此架构开发。然而，随着模型参数的指数级增长，Transformer在解码时所需的KV（键值）缓存急剧增加，导致内存占用过大，成为部署和推理的瓶颈。

麻省理工学院的研究人员提出了跨层注意力（Cross-Layer Attention, CLA），通过在不同解码层间共享KV来显著降低内存使用，提升大模型处理长序列和大批次推理任务的效率及准确率。CLA的核心思想是在相邻层之间共享KV，减少模型必须维护的独立KV集合数量，并通过层间连接重用这些激活。此外，CLA提供了灵活的配置，允许开发者根据需要调整共享因子，以平衡内存使用和模型性能。

研究人员在10亿和30亿参数规模上训练了多款CLA和非CLA模型，测试CLA的性能。实验结果显示，CLA在减少KV缓存大小的同时，能够实现与非CLA模型相当的推理准确性。特别是在10亿参数规模的实验中，CLA模型在保持准确度的基础上显著减少了KV缓存的大小。在30亿参数模型的实验中，CLA也展现了其高效性，证明了CLA在大规模模型中的有效性。

本文素材来源于CLA论文，如有侵权请联系删除。

文章来源

原文地址: 点我阅读全文
原文作者: AIGC开放社区

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

麻省理工提出“跨层注意力”，极大优化Transformer缓存

今日应用

今日话题

文章摘要

文章来源

美政府再发AI禁令！限制美国人对华AI技术和产品投资

AI“落后生”苹果王者归来，美股狂飙无视地心引力？

相关文章

暂无评论

热门网址

热门标签