今日arXiv最热NLP大模型论文:GPT-4理解武林外传中的含蓄表述,达人类水平

AI最新资讯3个月前发布 tree
47 0 0

今日应用


今日话题


今日arXiv最热NLP大模型论文:GPT-4理解武林外传中的含蓄表述,达人类水平
今日arXiv最热NLP大模型论文:GPT-4理解武林外传中的含蓄表述,达人类水平
 

重点标签 中文多轮对话数据集

文章摘要


摘要:
本文介绍了一项关于大型语言模型(LLMs)理解中文会话隐喻的研究。研究者从中国情景喜剧《武林外传》中提取了首个针对会话隐喻的中文多轮对话数据集,包含200个问题,并通过多项选择题任务和隐喻解释任务对八个LLMs进行了测试。结果显示,理解会话隐喻对LLMs来说具有挑战性。

数据集构造:
数据集基于《武林外传》中的对话,利用合作原则挑选出违反原则的对话,制作成多轮对话中文数据集。合作原则由四个范畴组成,包括质的准则、量的准则、关系准则和方式准则。人们在实际交流中可能会故意违反这些原则,产生会话隐喻。

隐喻的识别与分类:
研究者通过判断对话是否违反会话原则挑选出包含会话隐喻的对话,并使用子准则进行分类。每个对话条目包括对话、四种解释和类别。

人类评分:
10位母语者参与评分,平均准确率为93.1%。

实验一:
测试了八种模型,GPT-4的准确率高达94%,与人类相当。其他模型准确率在20%到60%之间。

实验二:
要求模型生成对言外之意的解释,由中文母语者评估。GPT-4在所有维度上得分最高,显示出稳定且卓越的性能。

分析:
GPT-4在基准测试中表现与人类相媲美,而其他模型落后。实验二揭示了模型在特定任务上的优秀表现,并不一定能保证在其他任务中同样出色。

结论:
SwordsmanImp数据集是首个用于评估LLMs对会话隐喻理解的中文数据集。GPT-4在所有对比模型中表现最佳,甚至在多选题回答上达到了人类水平。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...