标签:U-ViT架构

中国首个Sora级大模型:文本生成16秒,1080p高清视频

在2024年的中关村论坛上,清华大学联合生数科技发布了中国首个长时间、高一致性、高动态性的视频大模型——Vidu。Vidu采用了原创的Diffusion与Transformer融合...