DiT架构大一统：一个框架集成图像、视频、音频和3D生成，可编辑、能试玩

AI最新资讯2个月前发布 tree

35 0 0

今日应用

动手学深度学习

《动手学深度学习》 — 动手学深度学习 2.0.0 documentation

今日话题

DiT架构大一统：一个框架集成图像、视频、音频和3D生成，可编辑、能试玩

重点标签 tag1、Diffusion Transformer、DiT、Flag-DiT、Lumina-T2X

文章摘要

摘要：

背景：AI社区通过Sora模型的发布，看到了基础扩散模型在生成真实图像和视频方面的潜力。然而，现有模型在设计选择上提供有限的指导，缺乏详细的实现说明和公开的预训练检查点，限制了其在社区的使用和复刻。

Lumina-T2X系列模型：上海AI Lab、港中文和英伟达的研究者联合推出了Lumina-T2X系列模型，基于流（Flow-based）的大型扩散Transformers（Flag-DiT），旨在将噪声转换为图像、视频、多视图3D对象和基于文本描述的音频。

模型特点：
1. 稳定性：Flag-DiT在DiT基础上结合ViT-22B和LLaMa进行修改，提高训练稳定性。
2. 灵活性：用RoPE替换APE，注入相对位置信息，解决DiT在生成样本的灵活性问题。
3. 可扩展性：通过增加参数和训练样本，扩展Flag-DiT。

Lumina-T2X流程：
– 逐帧编码：将不同模态视为帧序列，利用特定模态编码器转换为潜在框架。
– 文本编码：使用预训练语言模型对文本提示进行编码。
– 输入和目标构建：采用线性插值方案构建输入和目标。
– 网络架构和损失：使用Flag-DiT作为去噪主干。

Lumina-T2X系列模型包括：
– Lumina-T2I：基础文本到图像模型，支持高级视觉创作。
– Lumina-T2V：生成任意宽高比和时长的720p视频。
– LuminaT2MV：合成多视图3D对象。
– Lumina-T2Speech：生成文本语音指示。

Lumina-T2I高级应用：
– 免调整分辨率外推：最高外推到2K。
– 风格一致性生成：适合自注意力操作应用。
– 构图生成：通过注意力交叉层注入文本信息。
– 高分辨率编辑：执行图像编辑，尤其是高分辨率图像。

实验结果：
– Flag-DiT在ImageNet上验证，相对于DiT有优势。
– Lumina-T2I展示基本文本到图像生成能力，生成逼真高分辨率图像。
– Lumina-T2V在大批量下能收敛，小批量则难以收敛。

结论：Lumina-T2X系列模型实现了图像、视频、3D和语音的统一，通过Flag-DiT架构提供了稳定性、灵活性和可扩展性，支持多种高级视觉创作应用。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

DiT架构大一统：一个框架集成图像、视频、音频和3D生成，可编辑、能试玩

今日应用

今日话题

文章摘要

文章来源

培育发展智能汽车领域新质生产力，「AI+智能车」论坛在浦东新区成功举办

Trio-ViT：专门针对高效 ViTs 的卷积 Transformer混合架构的加速器

相关文章

暂无评论

热门网址

热门标签