直接扩展到无限长，谷歌Infini-Transformer终结上下文长度之争

AI最新资讯4个月前发布 tree

45 0 0

今日应用

Rephrase AI

人工智能合成视频创建平台，可在几分钟内将纯文本转换为高度吸引人的专业质量视频。

今日话题

直接扩展到无限长，谷歌 Infini-Transformer终结上下文长度之争
直接扩展到无限长，谷歌Infini-Transformer终结上下文长度之争

重点标签 Infini-Transformer、谷歌、Transformer、AI、模型

文章摘要

自 2017 年《Attention is All You Need》论文问世以来，Transformer 架构一直主导着生成式人工智能领域。谷歌对 Transformer 的优化设计最近比较频繁，几天前更新了 Transformer 架构，发布 Mixture-of-Depths（MoD），改变了以往 Transformer 计算模式。

Infini-Transformer 的关键组成部分是一种称为 Infini-attention（无限注意力）的新注意力技术。Infini-attention 增加了压缩内存，可以将使用后的旧片段存储到压缩内存中，输出时会聚合当前上下文信息以及压缩内存中的信息，因而模型可以检索完整的上下文历史。

实验表明，该方法在长上下文语言建模基准测试中的性能优于基线，同时内存参数减少了 100 倍以上。当使用 100K 序列长度进行训练时，该模型实现了更好的困惑度。此外该研究发现，1B 模型在 5K 序列长度的密钥实例上进行了微调，解决了 1M 长度的问题。最后，论文展示了具有 Infini-attention 的 8B 模型经过持续的预训练和任务微调，在 500K 长度的书籍摘要任务上达到了新的 SOTA 结果。

方法介绍

Infini-attention 使 Transformer LLM 能够通过有限的内存占用和计算有效地处理无限长的输入。对 Transformer 注意力层进行微妙但关键的修改，通过持续的预训练和微调将现有 LLM 的上下文窗口扩展到无限长。

实验

该研究在长上下文语言建模、长度为 1M 的密钥上下文块检索和 500K 长度的书籍摘要任务上评估了 Infini-Transformer 模型。结果表明 Infini-Transformer 优于 Transformer-XL 和 Memorizing Transformers 基线，并且与 Memorizing Transformer 模型相比，存储参数减少了 114 倍。

文章来源

原文地址: 点我阅读全文
原文作者: 机器之心

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

直接扩展到无限长，谷歌Infini-Transformer终结上下文长度之争

今日应用

今日话题

文章摘要

文章来源

中文OCR超越GPT-4V，参数量仅2B，面壁小钢炮拿出了第二弹

CVPR 2024 Highlight｜Seg-NN: 不需要训练的网络反而可大幅提升 3D 小样本分割的性能

相关文章

暂无评论

热门网址

热门标签