今日应用
今日话题
大模型最强架构TTT问世!斯坦福UCSD等5年磨一剑, 一夜推翻Transformer
重点标签 斯坦福UCSD新架构TTT、语言模型方法变革、超越Transformer和Mamba、机器学习模型、测试时间训练层TTT、长视频建模前景
文章摘要
摘要:
斯坦福大学、UCSD、UC伯克利和Meta的研究人员联合提出了一种名为“测试时间训练层”(Test-Time-Training layers,TTT)的全新架构,这一架构有潜力彻底改变现有的语言模型方法。TTT层通过梯度下降对输入token进行压缩,以替代传统的注意力机制,实现了具有表现力记忆的线性复杂度架构。这项研究的核心理念是将上下文压缩到模型权重中,从而在不增加计算负担的同时增强表达能力。实验结果显示,TTT层在性能上超越了当前领先的Transformer和Mamba架构,尤其在处理长上下文时展现出显著优势。
详细内容:
– 新架构TTT:研究人员提出了一种全新的架构,名为“测试时间训练层”(TTT),该架构能够直接替代注意力机制,为语言模型带来变革。
– 机器学习模型:TTT层通过机器学习模型取代了传统的RNN隐藏状态,通过梯度下降压缩上下文,提高了模型的表达能力和效率。
– 超越现有架构:实验结果表明,TTT层在性能上超越了Transformer和Mamba,特别是在处理长上下文时,展现出更低的困惑度和更少的计算量。
– 长视频建模前景:TTT层未来有望应用于长视频建模,通过密集采样帧提高视频建模的质量和效率。
– 研究背景:该研究项目历时一年多,基于超过5年的测试时训练(TTT)理念,旨在开发具有线性复杂度和更强隐藏状态的新型LLM架构。
– 技术实现:TTT层利用自监督学习更新隐藏状态权重,通过梯度下降实现对每个token的“训练”,并采用端到端架构进行元学习,寻找最佳压缩上下文的方式。
– 实验结果:在Pile数据集上,TTT层在短上下文和长上下文中均展现出优越性能,尤其是在8k和32k上下文长度下,性能提升更为明显。
– 实际运行时间优化:研究人员提出了mini-batch TTT和对偶形式等创新,显著提高了TTT层在实际运行时间内的效率。
– 社区反响:TTT层的提出在AI社区引起了热议,被认为是一种可能接近实时上下文的方法,有望为长上下文提供更好的性能,同时降低计算成本。
– 作者介绍:论文的核心作者包括斯坦福大学的Yu Sun、UC San Diego的Xinhao Li和UC Berkeley的Karan Dalal,他们在深度学习、计算机视觉和电子工程等领域具有丰富的研究经验。
结论:
TTT层的提出为语言模型领域带来了重要的技术突破,其在处理长上下文时的高效性能和表达能力,预示着未来在视频建模等应用场景中的巨大潜力。随着进一步的研究和优化,TTT层有望成为推动语言模型发展的关键技术之一。
文章来源
原文地址: 点我阅读全文
原文作者: 极市平台