今日应用
今日话题
炼丹终结者出现 !单卡3.29s可训练精度94%的Backbone
重点标签 CIFAR-10、训练加速、神经网络、水平翻转、交替翻转
文章摘要
本文介绍了一种新的训练方法,可以在单个NVIDIA A100 GPU上显著提高CIFAR-10数据库上神经网络的训练速度和准确率。该方法通过一系列技术改进,包括水平翻转增强的去随机化变体、冻结的斑块白化初始化、身份初始化、优化技巧和多裁剪评估等,实现了在3.29秒内达到94%准确率的突破。此外,文章还探讨了这些技术在不同数据集和网络架构上的泛化能力和效果。
1. 引言
CIFAR-10是机器学习领域广泛使用的数据集之一,对于加快研究进度和降低实验成本具有重要意义。本研究提出了一种新的训练方法,通过在单个NVIDIA A100 GPU上进行优化,实现了快速且准确的训练结果。
2. 方法
2.1 网络架构和基线训练
研究中使用了带有1.97百万个参数的卷积网络,并对标准水平翻转增强进行了改进。基线训练使用了Nesterov SGD和三角学习率计划,以及随机水平翻转和随机平移的数据增强。
2.2 冻结斑块白化初始化
通过初始化第一个卷积层为斑块白化变换,显著提高了训练速度。此外,添加了可学习的偏置以进一步提升性能。
2.3 身份初始化
对后续卷积层使用部分身份变换初始化,进一步提高了训练速度。
2.4 优化技巧
包括比例偏置和前瞻优化等技术,有效提升了训练效率。
2.5 多裁剪评估
使用多裁剪评估方法,提高了预测的准确性。
2.6 交替翻转
提出了一种新的水平翻转增强变体,通过在连续周期中交替翻转图像,最大化了独特输入的数量,从而加快了训练速度。
3. 95%和96%目标
为了达到更高的准确率,研究者对airbench94进行了修改,包括增加训练周期、调整输出通道数和学习率等,成功开发了达到95%和96%准确率的训练方法。
4. 实验
实验结果表明,新引入的特征对训练速度有显著影响,且大多数特征之间的相互作用是累加的。交替翻转在CIFAR-10和ImageNet的训练配置中都显示出了优越的性能。此外,研究还发现测试时间增强(TTA)会降低测试集的方差,但可能以牺牲类别校准为代价。
附录
附录中还探讨了airbench在CIFAR-100、SVHN和CINIC-10等额外数据集上的性能,证明了其泛化能力。同时,提供了相关技术专栏和资源链接,供读者进一步学习和探索。
文章来源
原文地址: 点我阅读全文
原文作者: 极市平台