DiT架构大一统:一个框架集成图像、视频、音频和3D生成,可编辑、能试玩

AI最新资讯2个月前发布 tree
35 0 0

今日应用


今日话题


DiT架构大一统:一个框架集成图像、视频、音频和3D生成,可编辑、能试玩
DiT架构大一统:一个框架集成图像、视频、音频和3D生成,可编辑、能试玩
 

重点标签 tag1Diffusion TransformerDiTFlag-DiTLumina-T2X

文章摘要


摘要:

背景:AI社区通过Sora模型的发布,看到了基础扩散模型在生成真实图像和视频方面的潜力。然而,现有模型在设计选择上提供有限的指导,缺乏详细的实现说明和公开的预训练检查点,限制了其在社区的使用和复刻。

Lumina-T2X系列模型:上海AI Lab、港中文和英伟达的研究者联合推出了Lumina-T2X系列模型,基于流(Flow-based)的大型扩散Transformers(Flag-DiT),旨在将噪声转换为图像、视频、多视图3D对象和基于文本描述的音频。

模型特点:
1. 稳定性:Flag-DiT在DiT基础上结合ViT-22B和LLaMa进行修改,提高训练稳定性。
2. 灵活性:用RoPE替换APE,注入相对位置信息,解决DiT在生成样本的灵活性问题。
3. 可扩展性:通过增加参数和训练样本,扩展Flag-DiT。

Lumina-T2X流程:
逐帧编码:将不同模态视为帧序列,利用特定模态编码器转换为潜在框架。
文本编码:使用预训练语言模型对文本提示进行编码。
输入和目标构建:采用线性插值方案构建输入和目标。
网络架构和损失:使用Flag-DiT作为去噪主干。

Lumina-T2X系列模型包括:
– Lumina-T2I:基础文本到图像模型,支持高级视觉创作。
– Lumina-T2V:生成任意宽高比和时长的720p视频。
– LuminaT2MV:合成多视图3D对象。
– Lumina-T2Speech:生成文本语音指示。

Lumina-T2I高级应用:
– 免调整分辨率外推:最高外推到2K。
– 风格一致性生成:适合自注意力操作应用。
– 构图生成:通过注意力交叉层注入文本信息。
– 高分辨率编辑:执行图像编辑,尤其是高分辨率图像。

实验结果:
– Flag-DiT在ImageNet上验证,相对于DiT有优势。
– Lumina-T2I展示基本文本到图像生成能力,生成逼真高分辨率图像。
– Lumina-T2V在大批量下能收敛,小批量则难以收敛。

结论:Lumina-T2X系列模型实现了图像、视频、3D和语音的统一,通过Flag-DiT架构提供了稳定性、灵活性和可扩展性,支持多种高级视觉创作应用。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...