今日应用
今日话题
Meta首发「变色龙」挑战GPT-4o,34B参数引领多模态革命!10万亿token训练刷新SOTA
重点标签 Meta、Chameleon、多模态模型、GPT-4o、Transformer架构
文章摘要
Chameleon的技术挑战在于模型训练,Meta研究团队为此引入了一系列架构创新和训练技术。结果表明,在纯文本任务中,Chameleon的性能与Gemini-Pro相当。在视觉问答和图像标注基准上,Chameleon刷新了SOTA,性能接近GPT-4V。尽管Chameleon主要支持生成图像文本,缺少GPT-4o中的语音能力,但Meta的产品管理总监表示,他们非常自豪能够支持这个团队,并期待让GPT-4o更接近开源社区。
Chameleon的技术细节包括图像「分词器」的开发,基于8192的codebook,将512×512的图像编码为1024个离散的token。预训练阶段,模型学习了混合模态的数据,包括纯文本、文本-图像对以及文本和图像交错的多模态文档。训练分为两个阶段,第一阶段无监督学习,第二阶段混合更高质量的数据。为了解决训练中的不稳定问题,论文提出了架构调整和优化方法,如QK归一化、引入dropout和Zloss正则化。
在基准评估中,Chameleon-34B在各种单模态基准测试中取得了优异的效果,全面超越了Llama 2,并在某些任务上接近Mistral-7B/8x7B。在人工评估和安全测试中,Chameleon-34B的表现也远远超过了Gemini Pro和GPT-4V。此外,Chameleon在处理需要交错、混合模态响应的提示时,表现出了竞争力,生成的图像与上下文相关,对用户极具吸引力。
论文最后列出了参与这项研究的贡献者,包括预训练、对齐和安全、推理和评估、所有项目的参与者。Meta的研究团队在这篇论文中提供了详细的数据和信息,与GPT-4o相比,展现了其开放和合作的精神。
文章来源
原文地址: 点我阅读全文
原文作者: 极市平台