OpenAI前对齐团队「遗作」:RLHF不够用了!用GPT-4训练GPT-4

今日应用


今日话题


OpenAI前对齐团队「遗作」:RLHF不够用了!用GPT-4训练GPT-4
OpenAI前对齐团队「遗作」:RLHF不够用了!用GPT-4训练GPT-4
 

重点标签 CriticGPTChatGPTAI模型代码审查错误检测

文章摘要


摘要:
OpenAI 研究团队开发了一个名为 CriticGPT 的新模型,它基于 GPT-4 构建,专门用于识别和批评 ChatGPT 代码输出中的错误。CriticGPT 的加入显著提升了审查 ChatGPT 代码的准确率,提高了60%。该模型通过撰写批判性评论,指出 ChatGPT 回答中的不准确之处,帮助训练师发现问题。尽管CriticGPT的建议并非总是正确,但它在很多情况下比人类专家更擅长发现错误,甚至在一些被认为是「完美无缺」的任务中也能找出问题。

CriticGPT 的开发背景是随着 ChatGPT 在推理能力和行为表现上的提升,其错误变得越来越难以察觉,给AI训练师在发现不准确的答案时带来了挑战。为了应对这一挑战,OpenAI 研究团队采用了类似于 InstructGPTChatGPT 的自回归 Transformer 策略,通过训练「问题 – 答案」对,使模型输出的批评遵循特定格式。

在评价过程中,人工训练师将根据全面性、是否捕捉到特定错误、是否包含臆想的错误或特别吹毛求疵的小问题,以及回答的风格和有用程度,对来自 LLM 的批评进行1-7的等级评价。此外,通过比较批评与 Elo 评分,研究人员可以得出特定属性的偏好率。

CriticGPT 的训练采用了与 ChatGPT 类似的 RLHF 管线,包括篡改、抽取批评、人工评分、奖励模型预测和PPO优化策略等步骤。CriticGPT 还应用了一种称为强制采样束搜索(FSBS)的推理时采样策略,以生成更长且更全面的批评,同时减少幻觉或吹毛求疵的发生率。

尽管CriticGPT在提升代码审查准确性方面取得了显著成果,但研究团队也指出,CriticGPT 仍然会产生幻觉,这种幻觉还会影响训练师,让他们在标记的时候也出错。此外,CriticGPT 目前主要集中在单点错误的检测,对于分散在多个部分的错误还需进一步研究。研究团队计划进一步扩大该研究,并将其付诸实践,以帮助 AI 训练师更好地理解和评估越来越复杂的 AI 系统输出。

参考链接:
– [OpenAI 论文链接](https://cdn.openai.com/llm-critics-help-catch-llm-bugs-paper.pdf)
– [CriticGPT 技术报告](https://cdn.openai.com/papers/gpt-4.pdf)
– [OpenAI 官方博客](https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4/)
– [Jan Leike 社交媒体帖子](https://x.com/janleike/status/1806386442568142995)

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...