标签:Flag-DiT

DiT架构大一统:一个框架集成图像、视频、音频和3D生成,可编辑、能试玩

摘要:背景:AI社区通过Sora模型的发布,看到了基础扩散模型在生成真实图像和视频方面的潜力。然而,现有模型在设计选择上提供有限的指导,缺乏详细的实现说...