标签:teacher forcing

讨论下一个token预测时,我们可能正在走进陷阱

研究背景 文章首先分析了人们对下一个token预测的反对意见,指出这种预测方式可能无法捕捉到人类语言的真正目的。尽管每个token序列的分布都可以通过链式规...