今日应用
今日话题
DeepMind终结大模型幻觉?标注事实比人类靠谱、还便宜20倍,全开源
重点标签 DeepMind、长篇事实性、大语言模型、自动评估器、人类注释者
文章摘要
方法概览
DeepMind 研究者首先使用 GPT-4 生成 LongFact 提示集,包含 2280 个事实寻求提示,覆盖 38 个主题。LongFact 包含 LongFact-Concepts 和 LongFact-Objects 两个任务,分别询问概念或对象。研究者为每个主题生成 30 个提示,共 1140 个。
接着,研究者提出 SAFE,它通过以下步骤工作:
a) 将长篇响应拆分为独立事实;
b) 确定每个事实是否与提示相关;
c) 对每个相关事实,发出 Google 搜索查询并推理搜索结果是否支持该事实。
实验结果
研究者使用众包人类注释评估 SAFE 的注释质量,发现 SAFE 在 72.0% 的情况下与人类一致。在 100 个分歧案例中,SAFE 的正确率为 76%,人工注释为 19%,表明 SAFE 的性能优于人类。成本方面,人工注释每个模型响应评级为 4 美元,而 SAFE 仅为 0.19 美元。
最后,研究者对四个大模型系列的 13 个语言模型进行基准测试,发现较大的语言模型通常具有更好的长篇事实性。结果表明,GPT-4-Turbo 优于 GPT-4,Gemini-Ultra 优于 Gemini-Pro 等。
文章来源
原文地址: 点我阅读全文
原文作者: 机器之心
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...