今日应用
今日话题
AI训AI惨遭投毒9次大崩溃,牛津剑桥等惊天发现登Nature封面!
重点标签 模型崩溃、AI数据训练、高质量数据荒、统计近似误差、函数表达误差
文章摘要
AI生成数据训练AI模型的风险
近期,牛津、剑桥等机构的研究人员在Nature杂志上发表了一篇论文,指出使用AI生成的数据训练AI模型可能导致模型崩溃。这种现象被称为“模型崩溃”,意味着模型在经过多次迭代后,其输出质量逐渐下降,最终变得毫无意义。研究者通过实验发现,如果在训练过程中不加区分地使用AI产生的内容,模型将逐渐失去对原始数据分布尾部(低概率事件)的感知,导致模型性能不可逆转地下降。
模型崩溃的原因
模型崩溃主要源于三种特定误差源的累积:统计近似误差、函数表达误差和函数近似误差。统计近似误差主要由于样本数量有限而产生,而函数表达误差和函数近似误差则与模型的表达能力和学习过程的限制有关。这些误差在多代模型中逐渐累积,最终导致模型偏离原始模型,产生低质量的输出。
实验验证
为了验证模型崩溃的现象,研究者使用维基百科文章训练了模型OPT-125m,并在前一代模型生成的文本上继续训练多代模型。实验结果显示,随着迭代次数的增加,模型的输出逐渐变得混乱,甚至出现了与输入无关的内容。这一现象在多代AI生成模型中普遍存在,表明模型崩溃是一个严重的问题。
解决方案
为了缓解模型崩溃,研究者建议在每一代模型的训练数据中保留一定比例的原始数据,或者使用多样化的数据源,如人类产生的数据。此外,研究更鲁棒的训练算法也是解决模型崩溃问题的一个方向。科技公司已经部署了嵌入“水印”的技术,以标记AI生成内容,从而在数据集中剔除这些内容。
模型崩溃对语言模型的影响
模型崩溃在各种机器学习模型中都是普遍现象,但对于大型语言模型(LLM)来说,其影响尤为显著。LLM通常使用预训练模型进行初始化,然后对预训练模型进行微调以适应各种下游任务。当LLM使用其他模型生成的数据进行微调时,模型崩溃的现象可能会更加明显。实验结果表明,使用生成的数据进行训练虽然能适应基本任务,但性能有所下降。
总结
AI生成数据在训练AI模型时存在一定的风险,可能导致模型崩溃。为了确保模型的质量和可信度,需要对训练数据进行严格筛选,保留一定比例的原始数据,并考虑使用多样化的数据源。同时,研究更鲁棒的训练算法也是解决模型崩溃问题的关键。
文章来源
原文地址: 点我阅读全文
原文作者: 极市平台