今日应用
今日话题
多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再「压缩」
重点标签 多模态生成、Zipper架构、单模态预训练、交叉注意力、多模态数据
文章摘要
Zipper架构通过两个自回归解码器tower的结合,实现了多模态生成能力。每个tower使用下一个token预测功能分别对单个模态进行训练,并在交叉注意力层中实现模态间的转换。Zipper架构的特点包括:
1. 模块化设计:Zipper由多个单模态预训练解码器模型组成,可以灵活地重复使用和再利用。
2. 交叉注意力:通过门控交叉注意力层,Zipper能够在模态之间进行表征转换,实现多模态生成。
3. 自回归解码器:每个tower使用自回归解码器,通过下一个token预测功能进行训练。
4. 多模态生成:Zipper支持自动语音识别(ASR)和文本到语音(TTS)任务,展示了其在多模态生成方面的强大能力。
5. 数据依赖减少:Zipper在实验中仅使用部分文本-语音对齐数据,减少了对大量对齐数据的依赖。
在实验中,Zipper在自动语音识别(ASR)和文本到语音(TTS)任务上的表现如下:
1. ASR任务:Zipper在test-clean子集上的性能略好于扩展词汇量的单解码器基线,而在噪音较高的test-other子集上性能略有下降,总体性能相当接近。
2. TTS任务:Zipper模型在LibriTTS数据集的test-clean分割上明显优于单解码器模型。Zipper S/128M unfrozen model模型提高了13个WER点(相对误差减少40%),Zipper L/1B unfrozen model模型提高了12个WER点(相对误差减少38%)。
此外,研究者还观察到,在训练过程中解冻语音骨干网络可以持续改善所有尺寸Zipper模型的性能,这验证了微调语音骨干网络的参数比仅依赖交叉注意力产生的模态对齐效果更好。
Zipper架构为多模态生成任务提供了新的可能性,尤其是在数据量有限的情况下,展示了其在多模态生成方面的强大能力和灵活性。
文章来源
原文地址: 点我阅读全文
原文作者: 机器之心