OpenAI前对齐团队「遗作」：RLHF不够用了！用GPT-4训练GPT-4

AI最新资讯4个月前发布 tree

45 0 0

今日应用

万彩AI

万彩AI是一款强大的AI内容创作工具合集，除了提供AI智能写作支持之外，还集成了AI换脸、照片数字人制作和AI短视频制作等强大的AI生成内容功能，进一步扩展了AI的创作领域，使您的创作具有无限可能

今日话题

OpenAI前对齐团队「遗作」：RLHF不够用了！用GPT-4训练GPT-4

重点标签 CriticGPT、ChatGPT、AI模型、代码审查、错误检测

文章摘要

摘要：
OpenAI 研究团队开发了一个名为 CriticGPT 的新模型，它基于 GPT-4 构建，专门用于识别和批评 ChatGPT 代码输出中的错误。CriticGPT 的加入显著提升了审查 ChatGPT 代码的准确率，提高了60%。该模型通过撰写批判性评论，指出 ChatGPT 回答中的不准确之处，帮助训练师发现问题。尽管CriticGPT的建议并非总是正确，但它在很多情况下比人类专家更擅长发现错误，甚至在一些被认为是「完美无缺」的任务中也能找出问题。

CriticGPT 的开发背景是随着 ChatGPT 在推理能力和行为表现上的提升，其错误变得越来越难以察觉，给AI训练师在发现不准确的答案时带来了挑战。为了应对这一挑战，OpenAI 研究团队采用了类似于 InstructGPT 和 ChatGPT 的自回归 Transformer 策略，通过训练「问题 – 答案」对，使模型输出的批评遵循特定格式。

在评价过程中，人工训练师将根据全面性、是否捕捉到特定错误、是否包含臆想的错误或特别吹毛求疵的小问题，以及回答的风格和有用程度，对来自 LLM 的批评进行1-7的等级评价。此外，通过比较批评与 Elo 评分，研究人员可以得出特定属性的偏好率。

CriticGPT 的训练采用了与 ChatGPT 类似的 RLHF 管线，包括篡改、抽取批评、人工评分、奖励模型预测和PPO优化策略等步骤。CriticGPT 还应用了一种称为强制采样束搜索（FSBS）的推理时采样策略，以生成更长且更全面的批评，同时减少幻觉或吹毛求疵的发生率。

尽管CriticGPT在提升代码审查准确性方面取得了显著成果，但研究团队也指出，CriticGPT 仍然会产生幻觉，这种幻觉还会影响训练师，让他们在标记的时候也出错。此外，CriticGPT 目前主要集中在单点错误的检测，对于分散在多个部分的错误还需进一步研究。研究团队计划进一步扩大该研究，并将其付诸实践，以帮助 AI 训练师更好地理解和评估越来越复杂的 AI 系统输出。

参考链接：
– [OpenAI 论文链接](https://cdn.openai.com/llm-critics-help-catch-llm-bugs-paper.pdf)
– [CriticGPT 技术报告](https://cdn.openai.com/papers/gpt-4.pdf)
– [OpenAI 官方博客](https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4/)
– [Jan Leike 社交媒体帖子](https://x.com/janleike/status/1806386442568142995)

文章来源

原文地址: 点我阅读全文
原文作者: 机器之心

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

OpenAI前对齐团队「遗作」：RLHF不够用了！用GPT-4训练GPT-4

今日应用

今日话题

文章摘要

文章来源

宋制汉服AI写真 | 跟着墨雨云间学爆改！一键解锁小美娘同款宋韵清冷风汉服写真！

击败Gemini-1.5-Pro、GPT-4V，从容大模型多模态能力跻身全球前三

相关文章

暂无评论

热门网址

热门标签