今日应用
今日话题
1890美元,就能从头训练一个还不错的12亿参数扩散模型
重点标签 视觉生成模型、低成本训练、稀疏transformer、延迟掩蔽策略、扩散Transformer
文章摘要
在视觉生成模型领域,从头开始训练模型的成本和工作量一直是一个挑战。然而,Sony AI 等机构的研究者通过开发一种低成本端到端的 pipeline,成功训练了一个具有 11.6 亿参数的稀疏 transformer,仅花费了 1890 美元。这项工作的主要目标是在训练过程中减少 transformer 处理每张图像的有效 patch 数,通过在 transformer 的输入层随机掩蔽(mask)掉部分 token 来实现。为了减轻掩蔽造成的性能下降,研究者提出了一种延迟掩蔽策略,所有 patch 都由轻量级 patch 混合器(patch-mixer)进行预处理,然后再传输到扩散 transformer。
实验结果表明,延迟掩蔽方法在多个指标中都实现了更好的性能,尤其是在高掩蔽率下,性能差距会扩大。此外,作者还利用了 transformer 架构设计方面的创新,如混合专家层(MoE)和 layer-wise scaling,以在计算限制条件下提高模型的性能。在 3700 万张图像的组合数据集上,以 1890 美元的成本训练的模型在 COCO 数据集上的零样本生成中实现了 12.7 FID,显示出具有竞争力的 FID 和高质量生成,同时成本仅为 stable diffusion 模型的 1/118,是目前最先进的方法的 1/15。
这项研究展示了在有限的预算下,通过创新的方法和策略,可以有效地训练出性能优异的视觉生成模型,为该领域的研究和应用提供了新的可能性。
文章来源
原文地址: 点我阅读全文
原文作者: 机器之心
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...