文本+图片生成高保真视频,阿里推出视频模型AtomoVideo

互联网资讯5个月前发布 tree
82 0 0

今日应用


今日话题


文本+图片生成高保真视频,阿里推出视频模型AtomoVideo
文本+图片生成高保真视频,阿里推出视频模型AtomoVideo
 

重点标签 AIGCLLMAtomoVideo技术创新视频生成

文章摘要


AtomoVideo 是由阿里巴巴集团技术团队推出的一款文本+图片生成高保真视频模型。用户仅需提供高清图片和文本提示,即可快速生成逼真细节的高清视频。该模型在动作连贯性、图片一致性等方面超越了多个开源模型,并可与商业模型如Gen-2和Pika相媲美。

架构特点:AtomoVideo基于预训练的Stable Diffusion 1.5模型,并在空间卷积和注意力层后新增了1D时序卷积和时序注意力模块。技术创新在于融合了多粒度图片注入和时间建模,通过VAE编码器和CLIP编码器处理输入图片,提高了生成视频与原始图片的一致性。

功能与应用:除了图片生成视频,AtomoVideo还可用于视频扩展预测、自动修复受损帧等任务。训练数据包含1500万条视频和文本描述,采用零终端信噪比和v-预测策略提升视频稳定性。

实验数据:在AIGCBench测试集上,AtomoVideo在多个评估维度上表现卓越,尤其在保持较大运动强度的同时实现了优异的时间稳定性。

文章来源


原文地址: 点我阅读全文
原文作者: AIGC开放社区

© 版权声明

相关文章

暂无评论

暂无评论...