任意模态输入输出?语音/文本/图像/音乐都拿下! 复旦提出AnyGPT:序列建模的统一多模态 LLM

AI最新资讯5个月前发布 tree
48 0 0

今日应用


今日话题


任意模态输入输出?语音/文本/图像/音乐都拿下! 复旦提出AnyGPT:序列建模的统一多模态 LLM
任意模态输入输出?语音/文本/图像/音乐都拿下! 复旦提出AnyGPT:序列建模的统一多模态 LLM
 

重点标签 多模态AnyGPTLLM多模态分词器AnyInstruct-108k

文章摘要


本文介绍了AnyGPT,一种新型的any-to-any多模态大型语言模型(LLM),由复旦大学和上海AI Lab共同开发。AnyGPT能够统一处理包括语音、文本、图像和音乐在内的多种模态信号,通过采用离散的表征方法,将不同模态的数据转换为LLM能够处理的格式。为了训练这一模型,研究团队构建了一个大规模多模态指令数据集AnyInstruct-108k,该数据集包含108k个多轮对话样本,涵盖了各种模态的复杂组合。

AnyGPT的核心特点包括:
1. 多模态分词器:将非文本模态如图像和语音转换为离散的token序列,再通过多模态解分词器将token序列转换回原始模态数据。
2. AnyGPT基座模型:使用LLaMA-2-7B作为基座模型,该模型在2TB文本标记上进行了预训练,扩展了词汇表以适应多种模态。
3. 两阶段生成框架:第一阶段进行语义级别的生成,第二阶段使用非自回归模型将多模态语义标记转换为高保真的多模态内容。
4. AnyInstruct-108k数据集:以文本为中心,通过文本与其他模态对齐,实现模态间的相互对齐,包含大量多模态对话样本。

实验结果显示,AnyGPT在多模态理解和生成任务上实现了最先进的性能,包括图像字幕、文本到图像生成、自动语音识别(ASR)、文本到语音(TTS)和音乐理解和生成任务。这些评估在Zero-Shot模式下进行,即没有对下游任务进行微调或训练。

AnyGPT的开发为多模态LLM领域带来了新的视角,其创新的分词器设计和大规模数据集构建为未来多模态AI应用的发展奠定了基础。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...