大模型思维链(Chain-of-Thought)技术原理

AI最新资讯2个月前发布 tree
46 0 0

今日应用


今日话题


大模型思维链(Chain-of-Thought)技术原理
大模型思维链(Chain-of-Thought)技术原理
 

重点标签 CoT技术思维链大模型推理能力Jason Wei

文章摘要


极市导读:本文详细介绍了思维链(Chain-of-Thought,CoT)技术及其在大语言模型中的应用和改进。文章首先回顾了提示学习(prompt learning)的背景,然后深入探讨了CoT技术如何提升大模型的逻辑推理能力。接着,文章介绍了CoT技术的开山之作,以及其提出者Jason Wei的贡献。文章还讨论了CoT技术的多个改进方向,包括Zero-shot-CoT、自洽性(Self-consistency)、最少到最多提示(Least to Most prompting)以及Flan-PaLM/T5模型。最后,文章指出了CoT技术的局限性,并提出了提升小模型推理能力的方法。

背景:2021年,提示学习浪潮兴起,OpenAI在2020年的论文中提出了Zero-shot、One-shot、Few-shot三种不同的prompt方法。尽管Few-shot方法降低了对特定任务数据的需求,但其结果仍不如微调模型,且需要少量特定任务数据。因此,CoT技术被提出以解决需要推理的问题。

大模型“涌现”的思维链:CoT技术被认为是大语言模型“智能涌现”的核心能力之一,能够增强模型的逻辑推理能力。文章强调,只有解锁了思维链技术,大语言模型才有可能在竞争中具备能力优势。

1. 思维链概念的开山之作Jason Wei在谷歌大脑提出了CoT概念,并发现它能够增强大语言模型的推理能力。CoT提示方法通过向模型展示少量示例,鼓励模型解释其推理过程,从而引导出更准确的结果。

2. Zero-shot-CoT:零样本思维链提示过程是一种简单的零样本提示,通过在问题结尾附加“Let’s think step by step”来引导大语言模型生成思维链。

3. 自洽性(Self-consistency):通过对答案进行多数投票,自洽性方法可以显著提高CoT性能。

4. LtM(Least to Most prompting):最少到最多提示过程将问题分解为子问题,然后逐个解决,是受到针对儿童的现实教育策略的启发而发展出的一种技术。

5. Flan-PaLM/T5:通过在超大规模任务上进行微调,Flan-T5模型具备了极强的泛化性能,能够在1800多个NLP任务上表现良好。

6. 提升小模型的推理能力:Fine-tune-CoT方法旨在利用大语言模型的思维链推理能力来指导小模型解决复杂任务。

7. CoT的局限性:尽管CoT技术在某些领域表现出色,但它在模型规模、应用领域和精确性方面仍有局限。

总结:文章指出,CoT技术已被广泛应用,但国内对其重视程度不够。文章强调,对大语言模型的认知和谷歌、OpenAI存在差距,需要加强研究和应用。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...