今日应用
今日话题
文本+图片生成高保真视频,阿里推出视频模型AtomoVideo
重点标签 AIGC、LLM、AtomoVideo、技术创新、视频生成
文章摘要
AtomoVideo 是由阿里巴巴集团技术团队推出的一款文本+图片生成高保真视频模型。用户仅需提供高清图片和文本提示,即可快速生成逼真细节的高清视频。该模型在动作连贯性、图片一致性等方面超越了多个开源模型,并可与商业模型如Gen-2和Pika相媲美。
架构特点:AtomoVideo基于预训练的Stable Diffusion 1.5模型,并在空间卷积和注意力层后新增了1D时序卷积和时序注意力模块。技术创新在于融合了多粒度图片注入和时间建模,通过VAE编码器和CLIP编码器处理输入图片,提高了生成视频与原始图片的一致性。
功能与应用:除了图片生成视频,AtomoVideo还可用于视频扩展预测、自动修复受损帧等任务。训练数据包含1500万条视频和文本描述,采用零终端信噪比和v-预测策略提升视频稳定性。
实验数据:在AIGCBench测试集上,AtomoVideo在多个评估维度上表现卓越,尤其在保持较大运动强度的同时实现了优异的时间稳定性。
文章来源
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...