今日应用
今日话题
苹果大模型MM1杀入场:300亿参数、多模态、MoE架构,超半数作者是华人
文章摘要
苹果公司在生成式人工智能(GenAI)领域的投入和重视程度不断提升,特别是在多模态基础模型的研发上。苹果CEO蒂姆·库克在2024年的股东大会上宣布,公司将在GenAI领域取得重大进展。此外,苹果放弃了长达十年的造车项目,部分团队成员转向GenAI领域。最近,苹果发布了一篇论文,介绍了其多模态大模型研究成果——一个高达30B参数的多模态LLM系列。
研究团队在论文中探讨了不同架构组件和数据选择的重要性,并总结出了关键的设计准则。他们通过小规模消融实验,发现了模型架构决策和预训练数据选择的趋势。研究表明,图像分辨率、视觉编码器损失和容量以及视觉编码器预训练数据的建模设计方面的重要性。此外,研究者还发现,交错和纯文本训练数据对于少样本和纯文本性能至关重要,而字幕数据对于零样本性能最为重要。
苹果构建的MM1模型系列在预训练指标中实现了SOTA,并在多模态基准上保持竞争力。MM1在少样本设置下的字幕和问答任务上表现优异,监督微调后的MM1在12个多模态基准上的结果也颇具竞争力。MM1在上下文预测、多图像和思维链推理等方面展现了出色的性能,特别是在少样本学习能力上。
研究者详细介绍了构建高性能MLLM的实践性工作,包括架构设计、数据选择和训练程序。他们通过消融实验评估了不同的设计决策方向,并确定了MM1多模态预训练的最终配方。研究者还探索了通过专家混合(MoE)进行扩展的方法,并在监督微调(SFT)实验中取得了显著的性能提升。
苹果的MM1模型在多模态领域展现了强大的潜力,其在预训练和监督微调阶段的成果表明,苹果在GenAI领域的投入已经开始取得实质性的进展。随着公司在这一领域的持续发展,我们期待看到更多基于MM1模型的创新产品和应用。
文章来源
原文地址: 点我阅读全文
原文作者: 机器之心