Meta首发「变色龙」挑战GPT-4o,34B参数引领多模态革命!10万亿token训练刷新SOTA

AI最新资讯2个月前发布 tree
55 0 0

今日应用


今日话题


Meta首发「变色龙」挑战GPT-4o,34B参数引领多模态革命!10万亿token训练刷新SOTA
Meta首发「变色龙」挑战GPT-4o,34B参数引领多模态革命!10万亿token训练刷新SOTA
 

重点标签 MetaChameleon多模态模型GPT-4oTransformer架构

文章摘要


Chameleon的技术挑战在于模型训练,Meta研究团队为此引入了一系列架构创新和训练技术。结果表明,在纯文本任务中,Chameleon的性能与Gemini-Pro相当。在视觉问答和图像标注基准上,Chameleon刷新了SOTA,性能接近GPT-4V。尽管Chameleon主要支持生成图像文本,缺少GPT-4o中的语音能力,但Meta的产品管理总监表示,他们非常自豪能够支持这个团队,并期待让GPT-4o更接近开源社区。

Chameleon的技术细节包括图像「分词器」的开发,基于8192的codebook,将512×512的图像编码为1024个离散的token。预训练阶段,模型学习了混合模态的数据,包括纯文本、文本-图像对以及文本和图像交错的多模态文档。训练分为两个阶段,第一阶段无监督学习,第二阶段混合更高质量的数据。为了解决训练中的不稳定问题,论文提出了架构调整和优化方法,如QK归一化、引入dropout和Zloss正则化。

在基准评估中,Chameleon-34B在各种单模态基准测试中取得了优异的效果,全面超越了Llama 2,并在某些任务上接近Mistral-7B/8x7B。在人工评估和安全测试中,Chameleon-34B的表现也远远超过了Gemini Pro和GPT-4V。此外,Chameleon在处理需要交错、混合模态响应的提示时,表现出了竞争力,生成的图像与上下文相关,对用户极具吸引力。

论文最后列出了参与这项研究的贡献者,包括预训练、对齐和安全、推理和评估、所有项目的参与者。Meta的研究团队在这篇论文中提供了详细的数据和信息,与GPT-4o相比,展现了其开放和合作的精神。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...