今日应用
今日话题
讨论下一个token预测时,我们可能正在走进陷阱
重点标签 语言模型、下一个token预测、自回归、teacher forcing、前瞻性任务
文章摘要
研究背景
文章首先分析了人们对下一个token预测的反对意见,指出这种预测方式可能无法捕捉到人类语言的真正目的。尽管每个token序列的分布都可以通过链式规则和复杂的模型进行模拟,但这种简单的想法忽略了token预测模型在规划能力上的不足。文章强调,在这场争论中,人们没有仔细区分推理阶段的自回归和训练阶段的teacher-forcing两种类型的token预测方式。
方法介绍
文章系统地分析并区分了下一个token预测的两个阶段:teacher forcing和自回归。作者认为,现有的论证没有完全分析出token预测模型无法规划任务的全部原因。文章通过图的简单寻路问题,深刻地抓住了解决前瞻性问题的核心本质,并提出了两个假设的故障模式。
实验
文章通过图路径搜索任务的实践,演示了假设的故障模式。在Transformer和Mamba中进行的实验表明,这些问题对于teacher-forced模型来说是普遍的。通过设计指标量化了假设机制发生的程度,并测试了性能是否有所改善。
模型配置
文章评估了Transformer和递归模型两种模型家族,以强调问题的出现与某种特定体系结构无关。使用了从头开始的GPT-Mini和预训练的GPT-2大模型,以及从头开始的Mamba模型。通过长达500个epoch的训练,排除了顿悟现象。
结论
文章通过实验结果验证了提出的假设,即“聪明的汉斯”作弊方法抹去了对学习第一个token的至关重要的监督。作者希望这些研究结果能够启发未来围绕下一个token预测的讨论,并为其奠定坚实的基础。
文章来源
原文地址: 点我阅读全文
原文作者: 机器之心
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...