今日应用
今日话题
小技巧大功效,「仅阅读两次提示」让循环语言模型超越Transformer++
重点标签 AI领域、Transformer、循环语言模型、Just-read-twice、JRT-RNN
文章摘要
JRT-Prompt策略通过在模型生成答案前在上下文中重复信息多次,有效避免了数据排序问题,实现了16个循环语言模型和6项ICL任务上平均11.0%的性能提升。而JRT-RNN则是一种编码器-解码器循环架构,通过改进训练损失和使用Prefix Linear Attention(PLA)线性注意力公式,实现了更高的质量和效率。实验结果显示,JRT-RNN在不同参数设置下分别提供了显著的质量改进和高吞吐量。
摘要:
在人工智能领域,大语言模型的架构正经历着一场变革。随着RWKV、Mamba等新型架构的出现,它们在语言建模困惑度方面展现出与Transformer相媲美的能力,同时在推理期间仅使用恒定的内存量。然而,循环语言模型(LM)在有限的内存下难以处理长上下文信息,导致上下文学习(ICL)的质量受到影响。斯坦福大学和布法罗大学的研究者在论文《Just read twice: closing the recall gap for recurrent language models》中,针对这一问题提出了两种解决方案:Just-read-twice(JRT)提示策略和JRT循环架构。
研究者首先分析了数据排序对内存需求的影响,发现数据流入的顺序会显著改变模型预测存储信息的难度。例如,当根据文档D提问时,如果提示顺序为[Q, D],模型只需记住一个事实;而如果顺序为[D, Q],则需要记住所有事实。基于这一发现,研究者提出了JRT-Prompt策略,通过在模型生成答案前多次重复上下文中的信息,减轻了对数据排序的依赖。实验结果表明,JRT-Prompt在多个循环语言模型和ICL任务上实现了显著的性能提升。
此外,研究者还提出了JRT-RNN,一种编码器-解码器循环架构,灵感来源于Prefix-LMs。JRT-RNN通过使用非因果线性注意力和标准因果线性注意力,提高了模型的质量和效率。实验结果显示,JRT-RNN在不同参数设置下均能提供显著的质量改进和高吞吐量。
JRT-Prompt策略的提出,通过在模型生成答案前多次重复上下文中的信息,有效避免了数据排序问题。这种方法简单易行,且能够与现有的大型语言模型(LLM)一起使用,为上下文学习任务带来了显著的性能提升。
JRT-RNN架构的设计,通过改进训练损失和使用Prefix Linear Attention(PLA)线性注意力公式,进一步提高了模型的质量和效率。实验结果表明,JRT-RNN在上下文学习质量、整体语言建模和生成方面均表现出色,尤其是在处理长上下文记忆任务时。
这项研究为大语言模型的发展提供了新的思路和方法,有望推动人工智能领域在处理长上下文信息方面的进一步突破。
文章来源
原文地址: 点我阅读全文
原文作者: 机器之心