文本+图片生成高保真视频，阿里推出视频模型AtomoVideo

今日应用

免费高质量在线动漫网站！为动漫爱好者提供无与伦比的追番体验!

文本+图片生成高保真视频，阿里推出视频模型AtomoVideo

重点标签 AIGC、LLM、AtomoVideo、技术创新、视频生成

AtomoVideo 是由阿里巴巴集团技术团队推出的一款文本+图片生成高保真视频模型。用户仅需提供高清图片和文本提示，即可快速生成逼真细节的高清视频。该模型在动作连贯性、图片一致性等方面超越了多个开源模型，并可与商业模型如Gen-2和Pika相媲美。

架构特点：AtomoVideo基于预训练的Stable Diffusion 1.5模型，并在空间卷积和注意力层后新增了1D时序卷积和时序注意力模块。技术创新在于融合了多粒度图片注入和时间建模，通过VAE编码器和CLIP编码器处理输入图片，提高了生成视频与原始图片的一致性。

功能与应用：除了图片生成视频，AtomoVideo还可用于视频扩展预测、自动修复受损帧等任务。训练数据包含1500万条视频和文本描述，采用零终端信噪比和v-预测策略提升视频稳定性。

实验数据：在AIGCBench测试集上，AtomoVideo在多个评估维度上表现卓越，尤其在保持较大运动强度的同时实现了优异的时间稳定性。

原文地址: 点我阅读全文
原文作者: AIGC开放社区

文章版权归作者所有，未经允许请勿转载。

暂无评论...