今日应用
今日话题
ECCV 2024|南洋理工三维数字人生成新范式:结构扩散模型
重点标签 新加坡南洋理工大学、三维数字人生成、StructLDM、高质量、可控性生成
文章摘要
新加坡南洋理工大学S-Lab团队提出了一种名为StructLDM的三维数字人生成新范式,旨在提高数字人制作效率和质量。该方法基于结构化隐空间扩散模型,包括结构化的高维人体表征、自动解码器和隐空间扩散模型三个关键设计。
StructLDM是一个前馈三维生成模型,能够从图像和视频中学习,生成高质量、多样化且视角一致的三维数字人。与现有的3D GAN方法相比,StructLDM支持不同层级的可控生成与编辑功能,如局部服装编辑、三维虚拟试衣等部位感知的编辑任务,且不依赖于特定的服装类型或遮罩条件。
在训练过程中,StructLDM分为两个阶段:结构化自动解码和结构扩散模型。自动解码器根据人体姿态信息和相机参数,拟合出结构化的UV latent,而结构扩散模型则学习UV latent空间,以此学习人体三维先验。在推理阶段,StructLDM可以随机生成三维数字人,通过随机采样噪声并去噪得到UV latent,然后由自动解码器渲染为人体图像。
实验结果表明,StructLDM在四个数据集上的表现均优于现有方法。在定性比较中,StructLDM能够生成高质量、多样化、视角一致的三维数字人,具有丰富的肤色、发型和服饰细节。在定量比较中,StructLDM在FID指标上大幅降低,用户研究也显示StructLDM在面部细节和全身图像质量上具有优势。
StructLDM的应用包括可控性生成、组合式生成和编辑互联网图片。它支持相机视角、姿态、体型控制以及三维虚拟试衣等可控性生成任务,同时可以通过二维隐空间插值实现组合式生成。此外,StructLDM还可以对互联网图片进行编辑,通过Inversion技术得到UV latent,然后进行编辑。
消融实验进一步探讨了StructLDM中隐空间扩散模型、一维与二维人体表征以及结构感知的归一化技术的影响。结果表明,通过控制扩散模型参数可以提高生成效果,二维latent能够生成高频细节,而结构感知的归一化技术有助于扩散模型的学习。
总的来说,StructLDM作为一种新型的三维数字人生成范式,具有高质量、多样化和可控性的特点,为数字孪生、元宇宙、游戏和全息通讯等领域的应用提供了新的可能性。
文章来源
原文地址: 点我阅读全文
原文作者: 极市平台