从80个模型中构建Scaling Law:华人博士生新作,思维链提出者力荐

AI最新资讯2个月前发布 tree
30 0 0

今日应用


今日话题


从80个模型中构建Scaling Law:华人博士生新作,思维链提出者力荐
从80个模型中构建Scaling Law:华人博士生新作,思维链提出者力荐
 

重点标签 AI领域扩展定律可观察的扩展定律语言模型后训练干预措施

文章摘要


研究者们发现,不同模型之间的训练计算效率和能力存在很大差异,但这些差异与一个简单的、广义的扩展定律是一致的。该定律认为,语言模型的性能是低维能力空间的函数,而模型系列之间的差异仅在于将训练计算转换为能力的效率。使用这种方法,研究者们能够展示许多其他类型的扩展研究具有惊人的可预测性,包括涌现现象、智能体性能和后训练干预措施的预测。

论文标题为《Observational Scaling Laws and the Predictability of Language Model Performance》,作者之一的华人学者Yangjun Ruan本科毕业于浙江大学。该研究还得到了思维链提出者Jason Wei的转发评论,他表示非常喜欢这项研究。

研究者们通过对标准的LM基准分析,发现了一些能力度量与模型家族内部的计算量之间存在扩展定律关系,并且在不同模型家族与下游指标上也存在这种关系。他们将这种扩展关系称为可观察的扩展定律。研究表明,使用可观察的扩展定律成本低且简单,只需评估10-20个模型就可以轻松地对基准和后训练干预进行扩展预测。

此外,研究还探讨了LM是否在某些计算阈值下具有不连续出现的“涌现”能力,以及这些能力是否可以使用小模型进行预测。可观察的扩展定律表明,其中一些现象遵循平滑的S形曲线,并且可以使用小型sub Llama-2 7B模型进行准确预测。

在智能体能力方面,研究表明,LM作为智能体的更高级、更复杂的能力可以使用可观察的扩展定律来预测。通过这种方法,研究者们仅使用较弱的模型(sub GPT-3.5)就能精确预测GPT-4的性能,并将编程能力确定为驱动智能体性能的因素。

在后训练方法扩展方面,研究表明,即使将扩展定律拟合到较弱的模型(sub Llama-2 7B)上,扩展定律也可以可靠地预测后训练方法的收益,例如思维链(Chain-of-Thought)、自洽性(Self-Consistency)等。

研究者们还通过实验验证了这些扩展定律的有用性,并在论文发布后预注册了对未来模型的预测,以测试扩展定律是否对当前的模型过拟合。相关代码已在GitHub上放出,供有兴趣的研究者参考和使用。

总的来说,这项研究提出了可观察的扩展定律,利用了计算、简单能力度量和复杂下游指标之间可预测的对数线性关系,为AI领域的研究提供了新的视角和方法。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...