Jason Wei点赞！Google DeepMind推出新的大模型幻觉评估方案，模型越大越事实精准

AI最新资讯4个月前发布 tree

80 0 0

今日应用

小鱼速读

小鱼速读 - 有声小说

今日话题

Jason Wei点赞！Google DeepMind推出新的大模型幻觉评估方案，模型越大越事实精准

重点标签 LLMs、事实性、SAFE、F1分数、语言模型

文章摘要

发现1：LLMs可以生成大规模的提示集。使用GPT-4生成LongFact，包含38个主题的2,000多个提示。
发现2：LLMs可以用作事实性的自动评级器。提出了SAFE，将回答分解为单独的事实，并通过谷歌搜索来推理每个事实。
发现3：大语言模型代理是比人类更优秀的事实性注释者。SAFE实现了超人类的表现，与人类注释者一致性达到72％，在随机抽样的不一致案例中获胜76％。SAFE还比人类注释者便宜20倍以上。
发现4：F1分数可以在长文本设置中使用。使用超参数来估计人类首选回答中“理想”的事实数量，可以测量召回率，并将其与精确度结合起来，使用F1分数来获得一个健壮的长篇文本生成指标。
发现5：更大的语言模型更加事实准确。对四类大模型进行了长篇事实性的基准测试，发现总体上更大的语言模型实现了更好的长篇事实性。
Jason Wei评价说，这个由Google DeepMind团队提出的新的幻觉评估方案在许多方面都是朝着正确的方向发展，解决了极端长篇回答的情景，提取相关事实的数量，然后浏览以验证每个单独的事实，并关注相关事实的数量和事实的准确性。他还提到，对于单个事实有更细致的评级空间，这将使评估从产生许多缺乏精确性的广泛陈述的模型中变得更加健壮。他还指出，看到GPT-4-Turbo在所有指标上表现出色也很酷。

文章来源

原文地址: 点我阅读全文
原文作者: AIGC最前线

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

Jason Wei点赞！Google DeepMind推出新的大模型幻觉评估方案，模型越大越事实精准

今日应用

今日话题

文章摘要

文章来源

亚马逊追投Anthropic 27.5亿刀，市值暴涨5000亿！

AI21推出基于Mamba架构的生产级大模型Jamba，52B参数，单卡140K上下文推理，模型开源！

相关文章

暂无评论

热门网址

热门标签