今日应用
今日话题
ICLR 2024 | 鸡生蛋蛋生鸡?再论生成数据能否帮助模型训练
重点标签 生成数据、数据扩充、对比学习、自监督学习、数据增广
文章摘要
生成数据对表示学习的影响
生成数据的质量对表示学习有显著影响。研究表明,真实数据与生成数据的混合比例在10:1时达到最优,说明真实数据的训练价值远高于生成数据。此外,训练策略的设计也对学习效果有重要影响,降低数据增广强度可以显著提升模型性能。
数据增广与数据扩充的权衡
数据增广和数据扩充都会提升数据多样性,但数据增广可能会改变图像的语义信息。研究指出,当数据扩充提供了足够的数据时,可以减弱数据增广强度,从而减小因图像语义信息改变带来的误差。最优数据增广强度随数据规模增大而减小,表明数据扩充和数据增广在对比学习中存在互补作用。
自适应数据扩充(AdaInf)方法
论文提出了自适应数据扩充方法,根据生成数据的质量、大小动态调整对比学习算法。该方法强调真实数据和生成数据需赋予不同权重,生成数据质量越差权重应越小。同时,数据量增大后,应减弱数据增广强度,减少数据增强的负面作用。
实验结果与应用场景
实验结果表明,AdaInf在不同的对比学习模型和数据集上的性能显著优于无数据扩充或直接数据扩充的方法。尤其在数据匮乏场景下,AdaInf可以获得更明显的提升。这验证了数据为王的规律,并展示了scaling的潜力。
文章来源
原文地址: 点我阅读全文
原文作者: 机器之心
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...