北大新作:让大模型来做peer-review结果会怎样?

未分类4个月前发布 tree
67 0 0
↑ 点击蓝字 关注极市平台
北大新作:让大模型来做peer-review结果会怎样?
作者丨CVer粉丝投稿
来源丨CVer
编辑丨极市平台

极市导读

 

让大模型来做peer-review结果会怎样? >>加入极市CV技术交流群,走在计算机视觉的最前沿

PiCO: Peer Review in LLMs based on the Consistency Optimization.

论文:https://arxiv.org/abs/2402.01830

github.com/PKU-YuanGroup/Peer-review-in-LLMs

北大新作:让大模型来做peer-review结果会怎样?

和人类论文审稿一样,大模型也可以来进行peer-review吗?北大团队受启发于同行评审机制(peer-review),探索了一种全新的开放环境下大模型无监督自动评估方法,叫做“PiCO”。该工作的核心点是想去回答如下问题,

在开放环境下,能否通过无监督的方式来得到比较公平、合理、且更接近人类偏好的大模型能力排序?

背景

现有的大模型评估方式面临着各式各样的问题,基于Benchmark的评估方式没法对齐人类实际使用的真实偏好,同时开始有不少文章讨伐这种基于Benchmark评估方式的合理性。其中不乏包括含沙射影型,在说自家模型性能好的同时,暗示某些大模型可能无意间过拟合了一些benckmark。基于众包标注的评估方式成本昂贵且对新模型不友好,例如最著名的Chatbot Arena平台在新模型发布后也需要数天才能得到准确结果。

https://lmarena.ai/?leaderboard

由此,我们在思考人类是怎么评估自己的能力排名的,一些场景中,在没有上帝来给出ground-truth的情况下,我们是怎么无监督的、默契对一些能力排名达成一致且没有异议。这是一个对整个系统进行优化的过程,想让整个系统达到稳定要求整个系统的熵降到最低。

PiCO 框架

北大新作:让大模型来做peer-review结果会怎样?

我们团队希望去探索一种无监督的、开放环境下的大模型全新评估方式,叫做“peer-review-in-LLMs”。总的来说,整套评估框架满足以下几点:

  • 评估所用数据集是无监督的,且整个过程是没有人类反馈(human-feedback)的;

  • 每个大模型能够当裁判来评估其它大模型对不同问题的回答,且其回答也会被其它大模型评价,整个过程满足“peer-review”的机制;

  • 我们希望通过优化每个大模型的“能力权重”来使得整个评估系统的熵最小,熵最小意味着所有的大模型对于优化后的排名“无异议”;

  • 一致性假设:高能力的大模型能够做出更为准确评估“Review”,且相比低能力的大模型也能获得更高的得分,我们基于该假设对整个系统的排名进行优化。

PiCO是如何做到的?

具体来说,整个过程分为”peer-review”阶段和”一致性优化”阶段。在”peer-review”阶段中,

我们首先会去收集一个包含 个问题的无监督数据集 , 以及包含 个大模型的候选池 ;

然后,我们让所有的大模型去回答每一个问题并最终得到一个回答集 ;

接着,我们将相同问题的不同回答构成 pair 对 ,并从候选池中随机挑选一个大模型 来评估其偏序关系最终构成一个四元祖 ,其中 i 代表问题下标, 代表模型下标, 代表模型 的”能力权重”;

最终,我们可以得到一个回答偏序数据集 “Answer-Ranking data”

北大新作:让大模型来做peer-review结果会怎样?

在”一致性优化“阶段中,我们希望通过优化每个大模型的“能力权重”使得其能力 w 和得分 G 满足一致性。即,

北大新作:让大模型来做peer-review结果会怎样?

其中一致性优化目标使用的是皮尔森系数, 得分 表示如果模型 认为 j 的答案比 k 好, 那么模型 的得分加

举个例子,在学术圈的真实 “peer-review”机制中,如果整个系统只包含”某巨佬 Lecun (L) “, “某老师 Teacher ( ) “, “本菜鸡我 (I)”。显然, 我们三之间的学术水平应该满足以下关系, 即 。此外, 我们各自提交了一篇文章让彼此审稿, 那么理想状态下, 我们三的得分排序也应当是 。另一方面, 能力越强的 Lecun 来评估 具有越强的说服力; 相反,能力越弱的我去评估 的偏序关系可信度也相对更低。

PiCO还引入了一种无监督的淘汰机制,通过迭代移除得分最低的模型以提升一致性优化的评估效果。

实验结果

北大新作:让大模型来做peer-review结果会怎样?

消融实验的结果表明所提假设的正确性,即高水平的大模型可以比低水平模型更准确地评估其他模型的回答(置信度),并且高水平的大模型也可以获得更高的回答排名得分,模型的能力与评分通常具有一致性。

北大新作:让大模型来做peer-review结果会怎样?

PiCO方法在多个基于排名的指标上超越了包括Claude-3在内的所有基线方法,尤其在斯皮尔曼和肯德尔相关系数上显著提高。相比现有SOTA方法PRD和PRE,PiCO通过无监督学习实现了更高的评价效果,避免了依赖人为反馈带来的偏差。总体而言,PiCO利用“群体智慧”比单一模型方法更准确地对齐人类排名。

北大新作:让大模型来做peer-review结果会怎样?

模型本身在评估过程中会带有偏好,特别是像ChatGLM-6B和Mpt-7B这类模型,通常认为自己的结果优于其他模型,表现出明显的偏向性。本文提出的方法通过引入学得的置信度权重 w来重新加权,显著减小了这种偏好差距,从而有效减轻了系统的评估偏差,使评估更加公平。

北大新作:让大模型来做peer-review结果会怎样?

较弱的模型往往评估能力较差,增加了系统中的噪声,因此去除这些较弱模型能够提高系统的稳健性。PiCO通过无监督方法自动学习到删除阈值,实验证明去除约60%的较弱模型后系统损失达到最低,而删除过多强模型则会对评估过程产生不利影响。

北大新作:让大模型来做peer-review结果会怎样?

PiCO方法在精度和RBP等指标上超越了所有基线,证明其在LLM排名预测上更加准确,且与其他方法相比消耗的token相近但无需人工标注。实验结果还表明一致性优化过程具有稳定性,学习到的权重 w 能有效收敛

一致性假设的背后人类的评估系统在大模型上也适用,该工作还在进行更为深入的挖掘,欢迎关注~

北大新作:让大模型来做peer-review结果会怎样?

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

北大新作:让大模型来做peer-review结果会怎样?

点击阅读原文进入CV社区

收获更多技术干货

© 版权声明

相关文章

暂无评论

暂无评论...