今日应用
今日话题
局部归纳偏置真的有必要吗?探索 Transformer 新范式:一个像素就是一个 token!
重点标签 Pixel Transformer、Transformer模型、视觉任务、局部性、图像生成
文章摘要
PiT的提出质疑了局部性在视觉任务中的基本归纳偏置地位,尽管直接操作单个像素在计算复杂度上存在不实用之处,但研究者认为,随着处理超长序列技术的发展,PiT的实用性将得到提升。此外,研究还探讨了ViT中局部性设计的两个方面:位置嵌入和Patchification,发现像素排列对模型性能的影响比位置编码更为显著。尽管PiT在去除局部性后面临序列长度增加的局限性,但研究结果为设计下一代神经网络架构提供了有价值的见解。
1 一个像素就是一个 token!探索 Transformer 新范式
研究论文《An Image is Worth More Than 16 ×16 Patches: Exploring Transformers on Individual Pixels》探讨了在Transformer模型中去除局部性归纳偏置的可能性。研究表明,原始Transformer可以直接将每个像素视为token,这一发现与当前将16×16的Patch视为token的ViT范式不同。PiT模型的提出,通过随机初始化和可学习的位置嵌入,消除了ViT中的局部性归纳偏置。
2 PiT模型适配的任务
PiT模型在三个主要任务上进行了验证:监督学习、自监督学习和图像生成。在监督学习方面,PiT在CIFAR-100和ImageNet数据集上的表现优于ViT。在自监督学习方面,使用MAE框架进行预训练后,PiT在分类任务上的表现有所提升。此外,PiT在图像生成任务中也展现出了优越的性能。
3 局部性在视觉任务中的地位受到挑战
PiT模型的提出挑战了局部性在视觉任务中的基本归纳偏置地位。研究表明,即使没有局部性,Transformer架构也能从单个像素集合中学习到有效的视觉表示。此外,研究还探讨了ViT中局部性设计的两个方面:位置嵌入和Patchification,发现像素排列对模型性能的影响更为显著。
4 PiT的局限性与发展
尽管PiT模型在去除局部性后面临序列长度增加的局限性,但研究者认为,随着处理超长序列技术的发展,PiT的实用性将得到提升。此外,PiT模型的提出为设计下一代神经网络架构提供了有价值的见解,有助于推动计算机视觉领域的发展。
文章来源
原文地址: 点我阅读全文
原文作者: 极市平台