DeepMind终结大模型幻觉？标注事实比人类靠谱、还便宜20倍，全开源

AI最新资讯4个月前发布 tree

56 0 0

今日应用

火山AI写作

火山写作，字节跳动出品的免费AI中英文写作纠错与润色工具，助你写出更优质、更流畅的文章。

今日话题

DeepMind终结大模型幻觉？标注事实比人类靠谱、还便宜20倍，全开源

重点标签 DeepMind、长篇事实性、大语言模型、自动评估器、人类注释者

文章摘要

方法概览
DeepMind 研究者首先使用 GPT-4 生成 LongFact 提示集，包含 2280 个事实寻求提示，覆盖 38 个主题。LongFact 包含 LongFact-Concepts 和 LongFact-Objects 两个任务，分别询问概念或对象。研究者为每个主题生成 30 个提示，共 1140 个。

接着，研究者提出 SAFE，它通过以下步骤工作：
a) 将长篇响应拆分为独立事实；
b) 确定每个事实是否与提示相关；
c) 对每个相关事实，发出 Google 搜索查询并推理搜索结果是否支持该事实。

实验结果
研究者使用众包人类注释评估 SAFE 的注释质量，发现 SAFE 在 72.0% 的情况下与人类一致。在 100 个分歧案例中，SAFE 的正确率为 76%，人工注释为 19%，表明 SAFE 的性能优于人类。成本方面，人工注释每个模型响应评级为 4 美元，而 SAFE 仅为 0.19 美元。

最后，研究者对四个大模型系列的 13 个语言模型进行基准测试，发现较大的语言模型通常具有更好的长篇事实性。结果表明，GPT-4-Turbo 优于 GPT-4，Gemini-Ultra 优于 Gemini-Pro 等。

文章来源

原文地址: 点我阅读全文
原文作者: 机器之心

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

DeepMind终结大模型幻觉？标注事实比人类靠谱、还便宜20倍，全开源

今日应用

今日话题

文章摘要

文章来源

马斯克大模型Grok1.5来了：推理能力大升级，支持128k上下文

文本直接生成2分钟视频，即将开源模型StreamingT2V

相关文章

暂无评论

热门网址

热门标签