局部归纳偏置真的有必要吗?探索 Transformer 新范式:一个像素就是一个 token!

AI最新资讯4个月前发布 tree
28 0 0

今日应用


今日话题


局部归纳偏置真的有必要吗?探索 Transformer 新范式:一个像素就是一个 token!
局部归纳偏置真的有必要吗?探索 Transformer 新范式:一个像素就是一个 token!
 

重点标签 Pixel TransformerTransformer模型视觉任务局部性图像生成

文章摘要


PiT的提出质疑了局部性视觉任务中的基本归纳偏置地位,尽管直接操作单个像素在计算复杂度上存在不实用之处,但研究者认为,随着处理超长序列技术的发展,PiT的实用性将得到提升。此外,研究还探讨了ViT中局部性设计的两个方面:位置嵌入和Patchification,发现像素排列对模型性能的影响比位置编码更为显著。尽管PiT在去除局部性后面临序列长度增加的局限性,但研究结果为设计下一代神经网络架构提供了有价值的见解。

1 一个像素就是一个 token!探索 Transformer 新范式
研究论文《An Image is Worth More Than 16 ×16 Patches: Exploring Transformers on Individual Pixels》探讨了在Transformer模型中去除局部性归纳偏置的可能性。研究表明,原始Transformer可以直接将每个像素视为token,这一发现与当前将16×16的Patch视为token的ViT范式不同。PiT模型的提出,通过随机初始化和可学习的位置嵌入,消除了ViT中的局部性归纳偏置。

2 PiT模型适配的任务
PiT模型在三个主要任务上进行了验证:监督学习、自监督学习和图像生成。在监督学习方面,PiT在CIFAR-100和ImageNet数据集上的表现优于ViT。在自监督学习方面,使用MAE框架进行预训练后,PiT在分类任务上的表现有所提升。此外,PiT在图像生成任务中也展现出了优越的性能。

3 局部性在视觉任务中的地位受到挑战
PiT模型的提出挑战了局部性在视觉任务中的基本归纳偏置地位。研究表明,即使没有局部性,Transformer架构也能从单个像素集合中学习到有效的视觉表示。此外,研究还探讨了ViT中局部性设计的两个方面:位置嵌入和Patchification,发现像素排列对模型性能的影响更为显著。

4 PiT的局限性与发展
尽管PiT模型在去除局部性后面临序列长度增加的局限性,但研究者认为,随着处理超长序列技术的发展,PiT的实用性将得到提升。此外,PiT模型的提出为设计下一代神经网络架构提供了有价值的见解,有助于推动计算机视觉领域的发展。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...