直接扩展到无限长,谷歌Infini-Transformer终结上下文长度之争

AI最新资讯4个月前发布 tree
45 0 0

今日应用


今日话题


直接扩展到无限长,谷歌Infini-Transformer终结上下文长度之争
直接扩展到无限长,谷歌Infini-Transformer终结上下文长度之争
 

重点标签 Infini-Transformer谷歌TransformerAI模型

文章摘要


自 2017 年《Attention is All You Need》论文问世以来,Transformer 架构一直主导着生成式人工智能领域。谷歌Transformer 的优化设计最近比较频繁,几天前更新了 Transformer 架构,发布 Mixture-of-Depths(MoD),改变了以往 Transformer 计算模式。

Infini-Transformer 的关键组成部分是一种称为 Infini-attention(无限注意力)的新注意力技术。Infini-attention 增加了压缩内存,可以将使用后的旧片段存储到压缩内存中,输出时会聚合当前上下文信息以及压缩内存中的信息,因而模型可以检索完整的上下文历史。

实验表明,该方法在长上下文语言建模基准测试中的性能优于基线,同时内存参数减少了 100 倍以上。当使用 100K 序列长度进行训练时,该模型实现了更好的困惑度。此外该研究发现,1B 模型在 5K 序列长度的密钥实例上进行了微调,解决了 1M 长度的问题。最后,论文展示了具有 Infini-attention 的 8B 模型经过持续的预训练和任务微调,在 500K 长度的书籍摘要任务上达到了新的 SOTA 结果。

方法介绍

Infini-attention 使 Transformer LLM 能够通过有限的内存占用和计算有效地处理无限长的输入。对 Transformer 注意力层进行微妙但关键的修改,通过持续的预训练和微调将现有 LLM 的上下文窗口扩展到无限长。

实验

该研究在长上下文语言建模、长度为 1M 的密钥上下文块检索和 500K 长度的书籍摘要任务上评估了 Infini-Transformer 模型。结果表明 Infini-Transformer 优于 Transformer-XL 和 Memorizing Transformers 基线,并且与 Memorizing Transformer 模型相比,存储参数减少了 114 倍。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...