Jason Wei点赞!Google DeepMind推出新的大模型幻觉评估方案,模型越大越事实精准

AI最新资讯2个月前发布 tree
44 0 0

今日应用


今日话题


Jason Wei点赞!Google DeepMind推出新的大模型幻觉评估方案,模型越大越事实精准
Jason Wei点赞!Google DeepMind推出新的大模型幻觉评估方案,模型越大越事实精准
 

重点标签 LLMs事实性SAFEF1分数语言模型

文章摘要


发现1LLMs可以生成大规模的提示集。使用GPT-4生成LongFact,包含38个主题的2,000多个提示。
发现2LLMs可以用作事实性的自动评级器。提出了SAFE,将回答分解为单独的事实,并通过谷歌搜索来推理每个事实。
发现3:大语言模型代理是比人类更优秀的事实性注释者。SAFE实现了超人类的表现,与人类注释者一致性达到72%,在随机抽样的不一致案例中获胜76%。SAFE还比人类注释者便宜20倍以上。
发现4F1分数可以在长文本设置中使用。使用超参数来估计人类首选回答中“理想”的事实数量,可以测量召回率,并将其与精确度结合起来,使用F1分数来获得一个健壮的长篇文本生成指标。
发现5:更大的语言模型更加事实准确。对四类大模型进行了长篇事实性的基准测试,发现总体上更大的语言模型实现了更好的长篇事实性。
Jason Wei评价说,这个由Google DeepMind团队提出的新的幻觉评估方案在许多方面都是朝着正确的方向发展,解决了极端长篇回答的情景,提取相关事实的数量,然后浏览以验证每个单独的事实,并关注相关事实的数量和事实的准确性。他还提到,对于单个事实有更细致的评级空间,这将使评估从产生许多缺乏精确性的广泛陈述的模型中变得更加健壮。他还指出,看到GPT-4-Turbo在所有指标上表现出色也很酷。

文章来源


原文地址: 点我阅读全文
原文作者: AIGC最前线

© 版权声明

相关文章

暂无评论

暂无评论...