DeepMind终结大模型幻觉?标注事实比人类靠谱、还便宜20倍,全开源

AI最新资讯4个月前发布 tree
56 0 0

今日应用


今日话题


DeepMind终结大模型幻觉?标注事实比人类靠谱、还便宜20倍,全开源
DeepMind终结大模型幻觉?标注事实比人类靠谱、还便宜20倍,全开源
 

重点标签 DeepMind长篇事实性大语言模型自动评估器人类注释者

文章摘要


方法概览
DeepMind 研究者首先使用 GPT-4 生成 LongFact 提示集,包含 2280 个事实寻求提示,覆盖 38 个主题。LongFact 包含 LongFact-Concepts 和 LongFact-Objects 两个任务,分别询问概念或对象。研究者为每个主题生成 30 个提示,共 1140 个。

接着,研究者提出 SAFE,它通过以下步骤工作:
a) 将长篇响应拆分为独立事实;
b) 确定每个事实是否与提示相关;
c) 对每个相关事实,发出 Google 搜索查询并推理搜索结果是否支持该事实。

实验结果
研究者使用众包人类注释评估 SAFE 的注释质量,发现 SAFE 在 72.0% 的情况下与人类一致。在 100 个分歧案例中,SAFE 的正确率为 76%,人工注释为 19%,表明 SAFE 的性能优于人类。成本方面,人工注释每个模型响应评级为 4 美元,而 SAFE 仅为 0.19 美元。

最后,研究者对四个大模型系列的 13 个语言模型进行基准测试,发现较大的语言模型通常具有更好的长篇事实性。结果表明,GPT-4-Turbo 优于 GPT-4,Gemini-Ultra 优于 Gemini-Pro 等。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...