讨论下一个token预测时,我们可能正在走进陷阱

AI最新资讯2个月前发布 tree
54 0 0

今日应用


今日话题


讨论下一个token预测时,我们可能正在走进陷阱
讨论下一个token预测时,我们可能正在走进陷阱
 

重点标签 语言模型下一个token预测自回归teacher forcing前瞻性任务

文章摘要


研究背景
文章首先分析了人们对下一个token预测的反对意见,指出这种预测方式可能无法捕捉到人类语言的真正目的。尽管每个token序列的分布都可以通过链式规则和复杂的模型进行模拟,但这种简单的想法忽略了token预测模型在规划能力上的不足。文章强调,在这场争论中,人们没有仔细区分推理阶段的自回归和训练阶段的teacher-forcing两种类型的token预测方式。

方法介绍
文章系统地分析并区分了下一个token预测的两个阶段:teacher forcing自回归。作者认为,现有的论证没有完全分析出token预测模型无法规划任务的全部原因。文章通过图的简单寻路问题,深刻地抓住了解决前瞻性问题的核心本质,并提出了两个假设的故障模式。

实验
文章通过图路径搜索任务的实践,演示了假设的故障模式。在Transformer和Mamba中进行的实验表明,这些问题对于teacher-forced模型来说是普遍的。通过设计指标量化了假设机制发生的程度,并测试了性能是否有所改善。

模型配置
文章评估了Transformer和递归模型两种模型家族,以强调问题的出现与某种特定体系结构无关。使用了从头开始的GPT-Mini和预训练的GPT-2大模型,以及从头开始的Mamba模型。通过长达500个epoch的训练,排除了顿悟现象。

结论
文章通过实验结果验证了提出的假设,即“聪明的汉斯”作弊方法抹去了对学习第一个token的至关重要的监督。作者希望这些研究结果能够启发未来围绕下一个token预测的讨论,并为其奠定坚实的基础。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...