单GPU训练一天,Transformer在100位数字加法上就达能到99%准确率

AI最新资讯1个月前发布 tree
15 0 0

今日应用


今日话题


单GPU训练一天,Transformer在100位数字加法上就达能到99%准确率
单GPU训练一天,Transformer在100位数字加法上就达能到99%准确率
 

重点标签 TransformerAI算术任务Abacus嵌入性能提升

文章摘要


自2017年提出以来,Transformer已成为AI大模型的主流架构,但在算术任务中表现不佳,尤其是加法。这一问题主要源于Transformer无法准确跟踪大范围数字中每个数字的位置。为了解决这一问题,来自马里兰大学、CMU等机构的研究者提出了一种新的方法,通过在每个数字中添加一个嵌入来编码数字相对于开头的位置,从而显著提高了Transformer在算术任务中的准确率。

研究者提出了名为Abacus嵌入的新位置嵌入方法,结合标准位置嵌入使用后,观察到Transformer在算数任务上的准确率显著提高。实验表明,仅训练20位数字的模型就能泛化到120位数操作数的问题,这一数字是之前最先进泛化因子的6倍。此外,研究还发现结合输入注入和looped transformer架构可以在加法问题上实现几乎完美的泛化。

文章还探讨了其他方法来改善Transformer在算术和泛化方面的性能,如输入注入和循环架构。实验设置中,作者训练了仅包含解码器的因果语言模型来解决加法问题,并考虑了两种标准Transformer架构:标准的自回归Transformer模型和通过输入注入增强的模型。

Abacus嵌入通过编码每个数字相对于当前数字起始位置的位置,帮助模型对齐数字,从而解决了Transformer在表示位置信息方面的局限性。实验结果表明,Abacus嵌入可显著提高模型的泛化性能,尤其是在100位及以上的加法问题上。

循环架构也被证明可以进一步提高Transformer执行多位数加法的能力。作者比较了使用不同嵌入对操作数多达40位的加法进行训练的所有架构变体,并发现looped transformer在使用任何一种位置嵌入时都取得了最佳的分布外性能。

最后,研究者还将这些发现扩展到更复杂的问题,包括乘法和排序,在这些领域也展现出了长度泛化。Abacus嵌入模型在15位数乘法的分布内准确率超过了之前的工作,且不需要用零将每个操作数填充到相同长度。在数组排序方面,组合嵌入方法增强了模型的泛化能力。

这项研究为Transformer在算术任务中的应用提供了新的视角,并展示了通过Abacus嵌入和循环架构等技术改进模型性能的可能性。更多研究细节,请参考原论文。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...