今日应用
今日话题
直接扩展到无限长,谷歌Infini-Transformer终结上下文长度之争
重点标签 Infini-Transformer、谷歌、Transformer、AI、模型
文章摘要
自 2017 年《Attention is All You Need》论文问世以来,Transformer 架构一直主导着生成式人工智能领域。谷歌对 Transformer 的优化设计最近比较频繁,几天前更新了 Transformer 架构,发布 Mixture-of-Depths(MoD),改变了以往 Transformer 计算模式。
Infini-Transformer 的关键组成部分是一种称为 Infini-attention(无限注意力)的新注意力技术。Infini-attention 增加了压缩内存,可以将使用后的旧片段存储到压缩内存中,输出时会聚合当前上下文信息以及压缩内存中的信息,因而模型可以检索完整的上下文历史。
实验表明,该方法在长上下文语言建模基准测试中的性能优于基线,同时内存参数减少了 100 倍以上。当使用 100K 序列长度进行训练时,该模型实现了更好的困惑度。此外该研究发现,1B 模型在 5K 序列长度的密钥实例上进行了微调,解决了 1M 长度的问题。最后,论文展示了具有 Infini-attention 的 8B 模型经过持续的预训练和任务微调,在 500K 长度的书籍摘要任务上达到了新的 SOTA 结果。
方法介绍
Infini-attention 使 Transformer LLM 能够通过有限的内存占用和计算有效地处理无限长的输入。对 Transformer 注意力层进行微妙但关键的修改,通过持续的预训练和微调将现有 LLM 的上下文窗口扩展到无限长。
实验
该研究在长上下文语言建模、长度为 1M 的密钥上下文块检索和 500K 长度的书籍摘要任务上评估了 Infini-Transformer 模型。结果表明 Infini-Transformer 优于 Transformer-XL 和 Memorizing Transformers 基线,并且与 Memorizing Transformer 模型相比,存储参数减少了 114 倍。
文章来源
原文地址: 点我阅读全文
原文作者: 机器之心