FABLES:超长文本自动摘要评估

AI最新资讯10个月前发布 tree
140 0 0

今日应用


今日话题


FABLES:超长文本自动摘要评估
FABLES:超长文本自动摘要评估
 

重点标签 长文本摘要评估挑战FABLES数据集忠实度和内容选择自动评估方法

文章摘要


研究人员在论文《FABLES: Evaluating faithfulness and content selection in book-length summarization》中探讨了长文本大语言模型(LLMs)生成整本书摘要的质量和评估挑战。他们提出了FABLES数据集,专注于新出版书籍摘要,并引入了声明级别的注释方法,以评估摘要的忠实度和内容选择。研究发现,LLMs在生成摘要时会犯与事件、角色状态和关系相关的不准确性错误,且自动评估方法在检测不忠实声明方面存在局限性。此外,FABLES数据集揭示了内容选择错误,包括遗漏关键信息和过分强调书籍末尾事件的问题。

实验部分包括对五种不同LLM配置生成的摘要进行人工评估,以及对基于LLM的评分器进行自动评估。人工评估结果显示,CLAUDE-3-OPUS在忠实度得分上表现最佳,而自动评估发现所有评分器难以可靠地识别不忠实声明。

这项研究为超长文本摘要领域提供了宝贵的资源,强调了当前自动评估方法的局限性,并提出了声明级别的验证作为LLMs长文本理解的挑战性基准。随着研究进展,预期LLMs能力将提升,评估方法将更可靠,从而生成更高质量的摘要。

文章来源


原文地址: 点我阅读全文
原文作者: AIGC最前线

© 版权声明

相关文章

暂无评论

暂无评论...