任意模态输入输出？语音/文本/图像/音乐都拿下！复旦提出AnyGPT：序列建模的统一多模态 LLM

AI最新资讯5个月前发布 tree

57 0 0

今日应用

AI课代表

AI课代表 - 专门为B站打造的AI助手。视频总结，字幕搜索，和内容提问功能，让学习变得轻松又高效。

今日话题

任意模态输入输出？语音/文本/图像/音乐都拿下！复旦提出AnyGPT：序列建模的统一多模态 LLM
任意模态输入输出？语音/文本/图像/音乐都拿下！复旦提出AnyGPT：序列建模的统一多模态 LLM

重点标签 多模态、AnyGPT、LLM、多模态分词器、AnyInstruct-108k

文章摘要

本文介绍了AnyGPT，一种新型的any-to-any多模态大型语言模型（LLM），由复旦大学和上海AI Lab共同开发。AnyGPT能够统一处理包括语音、文本、图像和音乐在内的多种模态信号，通过采用离散的表征方法，将不同模态的数据转换为LLM能够处理的格式。为了训练这一模型，研究团队构建了一个大规模多模态指令数据集AnyInstruct-108k，该数据集包含108k个多轮对话样本，涵盖了各种模态的复杂组合。

AnyGPT的核心特点包括：
1. 多模态分词器：将非文本模态如图像和语音转换为离散的token序列，再通过多模态解分词器将token序列转换回原始模态数据。
2. AnyGPT基座模型：使用LLaMA-2-7B作为基座模型，该模型在2TB文本标记上进行了预训练，扩展了词汇表以适应多种模态。
3. 两阶段生成框架：第一阶段进行语义级别的生成，第二阶段使用非自回归模型将多模态语义标记转换为高保真的多模态内容。
4. AnyInstruct-108k数据集：以文本为中心，通过文本与其他模态对齐，实现模态间的相互对齐，包含大量多模态对话样本。

实验结果显示，AnyGPT在多模态理解和生成任务上实现了最先进的性能，包括图像字幕、文本到图像生成、自动语音识别（ASR）、文本到语音（TTS）和音乐理解和生成任务。这些评估在Zero-Shot模式下进行，即没有对下游任务进行微调或训练。

AnyGPT的开发为多模态LLM领域带来了新的视角，其创新的分词器设计和大规模数据集构建为未来多模态AI应用的发展奠定了基础。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

任意模态输入输出？语音/文本/图像/音乐都拿下！复旦提出AnyGPT：序列建模的统一多模态 LLM

今日应用

今日话题

文章摘要

文章来源

CCF-阿里妈妈科技袋基金正式发布，第一期聚焦大模型方向

CVPR'24｜擅长处理复杂场景和语言表达，清华&博世提出全新实例分割网络架构MagNet

相关文章

暂无评论

热门网址

热门标签

任意模态输入输出？语音/文本/图像/音乐都拿下！ 复旦提出AnyGPT：序列建模的统一多模态 LLM

今日应用

今日话题

文章摘要

文章来源

CCF-阿里妈妈科技袋基金正式发布，第一期聚焦大模型方向

CVPR'24｜擅长处理复杂场景和语言表达，清华&博世提出全新实例分割网络架构MagNet

相关文章

暂无评论

热门网址

热门标签

任意模态输入输出？语音/文本/图像/音乐都拿下！复旦提出AnyGPT：序列建模的统一多模态 LLM