今日应用
今日话题
ICLR 2024 spotlight | 基础模型时代的全新研究方向:灾难性继承与噪音模型学习
文章摘要
极市导读:本文首次深入探讨了预训练数据中的噪声对下游任务性能的影响,原因及其缓解方法。提出了新研究方向:灾难性继承,即理解、解释及消除大模型的继承问题。
背景与动机:基础大模型在多种机器学习任务中表现出色,但预训练数据常引入偏差和噪声。这些噪声可能对模型在下游任务上的性能造成不可预测的影响,对模型的安全应用至关重要。
Noisy Model Learning:与Noisy Label Learning不同,Noisy Model Learning关注预训练数据中的噪声及其对下游任务的影响。研究显示,轻微噪声(如5%或10%)可能提高模型在ID任务上的性能,而对OOD任务则可能导致性能下降。
Effects of Pre-training Noise:通过实验,发现预训练中的轻微噪声对ID任务有益,而对OOD任务有害。探索了预训练噪声对模型特征空间的影响,并提出了NMTune策略来减轻不良影响。
理解:Feature Space Analysis:通过分析预训练模型的feature space,发现微量噪声导致模型在ID任务上使用更多维度/容量,而对OOD任务则导致特征空间中主导/最可转移的奇异向量减少。
消除影响:NMTune方法:提出了NMTune方法,通过三个正则项在下游任务上缓解预训练噪声的影响,适用于LP和LoRA,并在多种大模型上取得提点效果。
更多实验与讨论:在真实噪声预训练模型上验证了NMTune的有效性,探讨了预训练中的Asymmetric噪声和其他种类噪声的影响。同时,研究了Noisy Model Learning和Noisy Label Learning的结合情况。
结论:深入理解预训练数据对构建更高效/安全的Foundation Model至关重要。提出的Catastrophic Inheritance研究方向将有助于研究预训练数据偏差对下游任务的影响。
文章来源
原文地址: 点我阅读全文
原文作者: 极市平台