讨论下一个token预测时，我们可能正在走进陷阱

AI最新资讯4个月前发布 tree

75 0 0

今日应用

盘友圈

一键搜索阿里云盘、百度网盘、夸克网盘中的资源

今日话题

讨论下一个token预测时，我们可能正在走进陷阱

重点标签 语言模型、下一个token预测、自回归、teacher forcing、前瞻性任务

文章摘要

研究背景
文章首先分析了人们对下一个token预测的反对意见，指出这种预测方式可能无法捕捉到人类语言的真正目的。尽管每个token序列的分布都可以通过链式规则和复杂的模型进行模拟，但这种简单的想法忽略了token预测模型在规划能力上的不足。文章强调，在这场争论中，人们没有仔细区分推理阶段的自回归和训练阶段的teacher-forcing两种类型的token预测方式。

方法介绍
文章系统地分析并区分了下一个token预测的两个阶段：teacher forcing和自回归。作者认为，现有的论证没有完全分析出token预测模型无法规划任务的全部原因。文章通过图的简单寻路问题，深刻地抓住了解决前瞻性问题的核心本质，并提出了两个假设的故障模式。

实验
文章通过图路径搜索任务的实践，演示了假设的故障模式。在Transformer和Mamba中进行的实验表明，这些问题对于teacher-forced模型来说是普遍的。通过设计指标量化了假设机制发生的程度，并测试了性能是否有所改善。

模型配置
文章评估了Transformer和递归模型两种模型家族，以强调问题的出现与某种特定体系结构无关。使用了从头开始的GPT-Mini和预训练的GPT-2大模型，以及从头开始的Mamba模型。通过长达500个epoch的训练，排除了顿悟现象。

结论
文章通过实验结果验证了提出的假设，即“聪明的汉斯”作弊方法抹去了对学习第一个token的至关重要的监督。作者希望这些研究结果能够启发未来围绕下一个token预测的讨论，并为其奠定坚实的基础。

文章来源

原文地址: 点我阅读全文
原文作者: 机器之心

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

讨论下一个token预测时，我们可能正在走进陷阱

今日应用

今日话题

文章摘要

文章来源

离职谷歌的Transformer作者创业，连发3个模型（附技术报告）

剑桥团队开源：赋能多模态大模型RAG应用，首个预训练通用多模态后期交互知识检索器

相关文章

暂无评论

热门网址

热门标签