太全了!苹果上新视觉模型4M-21,搞定21种模态

AI最新资讯4个月前发布 tree
43 0 0

今日应用


今日话题


太全了!苹果上新视觉模型4M-21,搞定21种模态
太全了!苹果上新视觉模型4M-21,搞定21种模态
 

重点标签 多模态模型4M-21洛桑联邦理工学院苹果公司Transformer架构

文章摘要


洛桑联邦理工学院(EPFL)和苹果公司的研究者联合开发了一种新型的任意到任意模态单一模型,称为4M-21。这种模型在数十种高度多样化的模态上进行训练,并对大规模多模态数据集和文本语料库进行协同训练。通过特定于模态的离散分词器对不同模态进行编码,该模型能够扩展现有模型的功能,实现跨模态检索、可控生成和强大的开箱即用性能。

4M-21模型在模态上从现有最佳模型的7种增加到21种不同模态,包括RGB、几何、语义、边缘、特征图、元数据和文本等。模型大小扩展至3B参数,数据集扩展至0.5B样本。此外,4M-21还支持多模态生成和检索功能,能够从给定的输入模态以一致的方式生成所有模态,并通过使用其他模态作为查询来检索RGB图像或其他模态。

在实验结果方面,4M-21表现出改进的文本理解能力,无论是在T5-XXL嵌入上还是在常规字幕上,都可以实现几何和语义上合理的生成。此外,4M-21还能够开箱即用地执行一系列常见的视觉任务,如表面法线和深度估计、语义和实例分割、3D人体姿态估计等。

4M-21模型采用了基于Transformer的4M编码器-解码器架构,并添加了额外的模态嵌入以适应新模态。在Tokenization方面,研究者使用不同的分词方法来离散具有不同特征的模态,包括ViT tokenizer、MLP tokenizer以及文本tokenizer。

总的来说,4M-21模型在多模态学习和理解方面取得了显著的进展,为未来的研究和应用提供了新的可能性。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...