局部归纳偏置真的有必要吗？探索 Transformer 新范式：一个像素就是一个 token！

AI最新资讯4个月前发布 tree

32 0 0

今日应用

素材中国字体

素材中国,素材CNN_免费素材共享平台.图片素材图库提供海量素材,图片下载,设计素材,PSD源文件,矢量图,AI,CDR,EPS等高清图片下载

今日话题

局部归纳偏置真的有必要吗？探索 Transformer 新范式：一个像素就是一个 token！

重点标签 Pixel Transformer、Transformer模型、视觉任务、局部性、图像生成

文章摘要

PiT的提出质疑了局部性在视觉任务中的基本归纳偏置地位，尽管直接操作单个像素在计算复杂度上存在不实用之处，但研究者认为，随着处理超长序列技术的发展，PiT的实用性将得到提升。此外，研究还探讨了ViT中局部性设计的两个方面：位置嵌入和Patchification，发现像素排列对模型性能的影响比位置编码更为显著。尽管PiT在去除局部性后面临序列长度增加的局限性，但研究结果为设计下一代神经网络架构提供了有价值的见解。

1 一个像素就是一个 token！探索 Transformer 新范式
研究论文《An Image is Worth More Than 16 ×16 Patches: Exploring Transformers on Individual Pixels》探讨了在Transformer模型中去除局部性归纳偏置的可能性。研究表明，原始Transformer可以直接将每个像素视为token，这一发现与当前将16×16的Patch视为token的ViT范式不同。PiT模型的提出，通过随机初始化和可学习的位置嵌入，消除了ViT中的局部性归纳偏置。

2 PiT模型适配的任务
PiT模型在三个主要任务上进行了验证：监督学习、自监督学习和图像生成。在监督学习方面，PiT在CIFAR-100和ImageNet数据集上的表现优于ViT。在自监督学习方面，使用MAE框架进行预训练后，PiT在分类任务上的表现有所提升。此外，PiT在图像生成任务中也展现出了优越的性能。

3 局部性在视觉任务中的地位受到挑战
PiT模型的提出挑战了局部性在视觉任务中的基本归纳偏置地位。研究表明，即使没有局部性，Transformer架构也能从单个像素集合中学习到有效的视觉表示。此外，研究还探讨了ViT中局部性设计的两个方面：位置嵌入和Patchification，发现像素排列对模型性能的影响更为显著。

4 PiT的局限性与发展
尽管PiT模型在去除局部性后面临序列长度增加的局限性，但研究者认为，随着处理超长序列技术的发展，PiT的实用性将得到提升。此外，PiT模型的提出为设计下一代神经网络架构提供了有价值的见解，有助于推动计算机视觉领域的发展。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

局部归纳偏置真的有必要吗？探索 Transformer 新范式：一个像素就是一个 token！

今日应用

今日话题

文章摘要

文章来源

语言≠思维，大模型学不了推理：一篇Nature让AI社区炸锅了

阿里开源新型图像个性化框架MS-Diffusion，无需微调一键参考多个主题

相关文章

暂无评论

热门网址

热门标签