今日应用
今日话题
离散视觉tokenizer
重点标签 离散视觉分词器、多模态大模型、图像生成、VQ-VAE、dVAE
文章摘要
本文深入探讨了离散视觉分词器(tokenizer)在多模态大模型中的关键作用,特别是在图像和文本数据的处理上。离散视觉分词器能够将图像转换成与文本token形式一致的视觉token,实现统一表示,提升模型的泛化能力和多模态理解。此外,它还促进了零样本和少样本学习,推动了技术创新和应用发展,并在图像生成任务上超越了传统模型。
Chameleon模型通过早期融合的方式,使用基于token的多模态基础模型来处理视觉和文本数据。该模型采用了新的图像分词器,将图像编码成离散token,同时在预训练阶段特别关注了人脸图像。尽管存在重构含文本图像的局限性,但Chameleon展示了视觉分词器在多模态学习中的潜力。
Make-A-Scene项目基于离散表示的图像生成模型,采用两阶段训练方案,先训练图像分词器提取图像表示,再在潜在空间中生成图像。VQ-VAE技术通过向量量化学习离散潜在表示,而VQ-VAE-2则通过分层架构实现快速生成。DALL-E模型利用dVAE和gumbel-softmax技术,而VQGAN结合了对抗性和感知损失以生成高质量图像。
VQ-VAE模型通过变分自编码器和向量量化技术,将图像压缩到离散空间,减少了计算复杂度并提高了训练和采样速度。VQ-VAE 2则通过扩展自回归先验,生成更高连贯性和保真度的图像。dVAE模型则通过放松玻尔兹曼机至连续分布,提高了训练效果。
VQ-GAN结合了CNNs和Transformer,通过卷积方法学习图像成分的上下文,并利用Transformer高效建模组合,实现了高分辨率图像合成。DALL-E模型则通过两阶段训练,首先压缩图像成图像token网格,再训练自回归transformer对文本和图像tokens进行联合建模。
BEIT模型采用了BERT预训练方法,通过掩码图像建模任务来预训练视觉Transformer。它将图像分词成视觉tokens,并在预训练中从两个视角处理图像块和视觉tokens,以恢复原始视觉tokens。
总体而言,离散视觉分词器在多模态大模型中扮演着至关重要的角色,不仅提升了模型性能,也为图像生成、编辑、问答等应用领域带来了新的发展机遇。
文章来源
原文地址: 点我阅读全文
原文作者: 极市平台