今日应用
今日话题
当前最强国产Sora!清华团队突破16秒长视频,懂多镜头语言,会模拟物理规律
重点标签 AI视频工具、Adobe Premiere Pro、生数科技、Vidu、多模态大模型
文章摘要
步骤2:撰写详细摘要
生数科技联合清华大学发布了一款名为「Vidu」的视频大模型,它在视频生成领域取得了显著的进展。该模型能够生成长达16秒的视频片段,并且在多镜头语言、时间和空间一致性、遵循物理规律等方面表现出色。此外,「Vidu」还能够创造出真实世界中不存在的超现实主义画面,这在当前的视频生成模型中是难以实现的。
「Vidu」是国内首个全面对标Sora的视频模型,它在效果层面与Sora相当,甚至在某些方面有所超越。例如,「Vidu」能够给视频注入丰富的镜头语言,保持时间和空间的一致性,并且模拟真实物理世界的运动。此外,「Vidu」还展现出了丰富的想象力,能够生成具有中国特色元素的画面,如熊猫、龙和宫殿场景。
生数科技的核心团队来自清华大学人工智能研究院,他们在图像、3D、视频等多模态生成领域有着深厚的技术积累。「Vidu」的底层架构基于完全自研的U-ViT架构,该架构是全球首个Diffusion和Transformer融合的架构。生数科技在图文任务中积累的工程经验为视频模型的研发提供了基础,使得「Vidu」能够快速实现突破。
「Vidu」的研发过程中,生数科技采用了与Sora一致的技术路线,即通过单一步骤直接生成高质量的视频。这种「一步到位」的实现方法基于单一模型完全端到端生成,不涉及中间的插帧和其他多步骤的处理。此外,生数科技还通过视频数据压缩技术和自研的分布式训练框架,显著提升了训练速度和效率。
生数科技是目前国内在多模态大模型赛道估值最高的创业团队,其推出的「Vidu」模型在多模态原生大模型领域展现了创新和领先。随着「Vidu」的不断迭代和提升,未来有望支持生成更加多样化、更长时长的视频内容。
文章来源
原文地址: 点我阅读全文
原文作者: 机器之心