使用样本设计工程 (SDE) 来构造更好的大模型下游微调样本

AI最新资讯4周前发布 tree
23 0 0

今日应用


今日话题


使用样本设计工程 (SDE) 来构造更好的大模型下游微调样本
使用样本设计工程 (SDE) 来构造更好的大模型下游微调样本
 

重点标签 样本设计工程大模型微调多方面情感分析推理设计实证研究

文章摘要


本文首次提出了样本设计工程(Sample Design Engineering, SDE)的概念,通过系统性地探究影响大模型下游任务微调的多种设计选项,发现了一些有趣的结论,并提出了一种在多个复杂下游任务上表现优异的设计方案。研究表明,通过细致地考虑大模型微调样本的设计,可以使用更少的样本训练出在下游任务上表现更好的模型。

0. 引言

大模型(LLMs)的出现改变了自然语言处理(NLP)任务的处理方式,使得一些原本需要复杂模型设计的任务得以简化。提示工程(Prompt Engineering, PE)成为提升大模型推理能力的热点研究方向。然而,对于中小企业或个人来说,使用超大模型如GPT3/4存在成本、政策和数据安全等问题,因此他们更倾向于使用一些开源的较小模型,这就需要通过微调样本来提升模型性能。本文提出了SDE的概念,并对影响微调效果的设计选项进行了系统性分析。

1. 微调样本设计的重要性

多方面情感分析(MASA)为例,展示了大模型在处理复杂输入和输出时面临的挑战。文章对样本设计进行了分类,包括输入设计、输出设计和推理设计,并提出了一些典型的SDE设计选项。

输入设计选项

– 指令的放置问题:是否添加指令,指令放置在任务文本的前面还是后面。
– 是否建模输入:是否将输入部分作为整体进行建模。

输出设计选项

– 输出格式:自然方式到结构化方式的设计。
– 对未提及目标的处理:忽略未提及的目标或放置占位符。
– 文本/数值标签:使用文本形式的标签还是数字标签。

推理设计选项

– 推理设计:是否采用类似CoT的样本设计来提升模型推理能力。

2. 设计选项的影响

通过在MASA任务上的实验,探究了各种设计选项对模型性能的影响。实验结果表明,添加指令、指令放置在前面、使用Lines格式输出、使用占位符处理未提及目标、使用文本标签等设计选项能显著提升模型性能。

3. 稳定优异的样本设计方案

基于实验结果,提出了一个实证上较强的SDE方案——ES-SDE,它结合了Inst-first, No-MI的输入设计和Lines, PU, TxtLabel的输出设计。实验验证了该方案在不同任务、不同模型上的有效性和鲁棒性。

4. PE与SDE的关系

通过构造对应的zero-shot或ICL prompts,评价了不同prompt的优劣,并计算了PPL。结果表明,好的prompt并不一定能转化成好的sample,PE无法直接指导SDE。

总结

本文提出了SDE的概念,并通过实证研究揭示了影响大模型下游微调的样本设计选项,提出了一种鲁棒的样本设计方案。同时,分析了PE与SDE的关系,指出了SDE背后的复杂机理,期待未来的研究能进一步探究SDE,帮助大模型更好地发挥潜力。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...