今日应用
今日话题
看张手绘草图就能合成图形程序,加州伯克利让扩散模型掌握新技能
重点标签 程序合成、神经扩散模型、逆向图形任务、波束搜索、加州大学伯克利分校
文章摘要
加州大学伯克利分校的研究团队提出了一种新的程序合成方法,利用神经扩散模型直接操作句法树。这种方法通过迭代优化程序并确保句法有效性,同时允许模型观察每一步的输出,实现有效调试。研究的主要贡献包括开发了一种在句法树上使用扩散的新方法,并在逆向图形任务中实现了该方法,发现其优于之前的方法。
研究团队首先为句法树开发了一个去噪扩散模型,类似于视觉任务中的图像扩散模型。他们通过在训练扩散模型的同时训练一个价值模型,引导去噪过程得到能输出所需结果的程序。这种方法在探索程序空间时,能够在生成过程中的每一步都做出更明智的决策。
实验结果显示,在CSG2D和TinySVG环境中,新提出的树扩散策略明显优于之前的方法。如果组合使用波束搜索,该策略的性能还能进一步提升,在解决问题时相比其他方法可以更少地调用渲染器。此外,新系统还能修复其他方法遗漏的较小问题。
研究团队还训练了一个价值网络,其输入为两张经过渲染的图像,预测的是生成这两张图像的底层程序之间的编辑距离。使用这个价值网络,可以为任意目标图像和随机初始化的程序执行波束搜索,从而在每一次迭代中维护搜索树中一组最有希望值的节点,并仅扩展这些节点。
在架构方面,去噪模型使用了视觉-语言模型,图像编码器则采用了现成可用的NF-ResNet-26。此外,研究团队还实现了一种定制化的token化器,使用了CFG的端点为token,并添加了用作模型句子起点的
总的来说,这项研究展示了扩散模型在程序合成领域的潜力,特别是在逆向图形任务中。通过结合去噪过程和价值网络,新方法能够有效地探索程序空间,并在每一步生成过程中做出更明智的决策。
文章来源
原文地址: 点我阅读全文
原文作者: 机器之心