今日arXiv最热NLP大模型论文：GPT-4理解武林外传中的含蓄表述，达人类水平

今日应用

贼吧网,txt,txt小说,txt小说下载,txt电子书免费下载,txt电子书,电子书下载,手机电子书,小说txt下载全集

今日arXiv最热NLP大模型论文：GPT-4理解武林外传中的含蓄表述，达人类水平

重点标签 中文多轮对话数据集

摘要：
本文介绍了一项关于大型语言模型（LLMs）理解中文会话隐喻的研究。研究者从中国情景喜剧《武林外传》中提取了首个针对会话隐喻的中文多轮对话数据集，包含200个问题，并通过多项选择题任务和隐喻解释任务对八个LLMs进行了测试。结果显示，理解会话隐喻对LLMs来说具有挑战性。

数据集构造：
数据集基于《武林外传》中的对话，利用合作原则挑选出违反原则的对话，制作成多轮对话中文数据集。合作原则由四个范畴组成，包括质的准则、量的准则、关系准则和方式准则。人们在实际交流中可能会故意违反这些原则，产生会话隐喻。

隐喻的识别与分类：
研究者通过判断对话是否违反会话原则挑选出包含会话隐喻的对话，并使用子准则进行分类。每个对话条目包括对话、四种解释和类别。

人类评分：
10位母语者参与评分，平均准确率为93.1%。

实验一：
测试了八种模型，GPT-4的准确率高达94%，与人类相当。其他模型准确率在20%到60%之间。

实验二：
要求模型生成对言外之意的解释，由中文母语者评估。GPT-4在所有维度上得分最高，显示出稳定且卓越的性能。

分析：
GPT-4在基准测试中表现与人类相媲美，而其他模型落后。实验二揭示了模型在特定任务上的优秀表现，并不一定能保证在其他任务中同样出色。

结论：
SwordsmanImp数据集是首个用于评估LLMs对会话隐喻理解的中文数据集。GPT-4在所有对比模型中表现最佳，甚至在多选题回答上达到了人类水平。

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论...