Meta首发「变色龙」挑战GPT-4o，34B参数引领多模态革命！10万亿token训练刷新SOTA

今日应用

PaperBetter论文助手汇集多种学术不端文献检测系统及AI降重系统，以及包含论文全文、开题报告、任务书在内的多种AI智能写作系统，提供高校使用的官网论文检测入口，包含知网查重、维普查重、源文鉴查重系统、万方检测、PaperPass等各种官方查重软件，检测结果与学校一致！

今日话题

Meta首发「变色龙」挑战GPT-4o，34B参数引领多模态革命！10万亿token训练刷新SOTA

重点标签 Meta、Chameleon、多模态模型、GPT-4o、Transformer架构

文章摘要

Chameleon的技术挑战在于模型训练，Meta研究团队为此引入了一系列架构创新和训练技术。结果表明，在纯文本任务中，Chameleon的性能与Gemini-Pro相当。在视觉问答和图像标注基准上，Chameleon刷新了SOTA，性能接近GPT-4V。尽管Chameleon主要支持生成图像文本，缺少GPT-4o中的语音能力，但Meta的产品管理总监表示，他们非常自豪能够支持这个团队，并期待让GPT-4o更接近开源社区。

Chameleon的技术细节包括图像「分词器」的开发，基于8192的codebook，将512×512的图像编码为1024个离散的token。预训练阶段，模型学习了混合模态的数据，包括纯文本、文本-图像对以及文本和图像交错的多模态文档。训练分为两个阶段，第一阶段无监督学习，第二阶段混合更高质量的数据。为了解决训练中的不稳定问题，论文提出了架构调整和优化方法，如QK归一化、引入dropout和Zloss正则化。

在基准评估中，Chameleon-34B在各种单模态基准测试中取得了优异的效果，全面超越了Llama 2，并在某些任务上接近Mistral-7B/8x7B。在人工评估和安全测试中，Chameleon-34B的表现也远远超过了Gemini Pro和GPT-4V。此外，Chameleon在处理需要交错、混合模态响应的提示时，表现出了竞争力，生成的图像与上下文相关，对用户极具吸引力。

论文最后列出了参与这项研究的贡献者，包括预训练、对齐和安全、推理和评估、所有项目的参与者。Meta的研究团队在这篇论文中提供了详细的数据和信息，与GPT-4o相比，展现了其开放和合作的精神。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

Meta首发「变色龙」挑战GPT-4o，34B参数引领多模态革命！10万亿token训练刷新SOTA

今日应用

今日话题

文章摘要

文章来源

开源闭源争论不休，浅谈大模型开源和闭源

微软发布Copilot+ PC：集成GPT-4o，史上最强、最快Windows！

相关文章

暂无评论

热门网址

热门标签