看张手绘草图就能合成图形程序，加州伯克利让扩散模型掌握新技能

今日应用

意间AI，让您的文字表达更加出色，智能改写助手助您轻松应对各种文本需求。

看张手绘草图就能合成图形程序，加州伯克利让扩散模型掌握新技能

重点标签 程序合成、神经扩散模型、逆向图形任务、波束搜索、加州大学伯克利分校

加州大学伯克利分校的研究团队提出了一种新的程序合成方法，利用神经扩散模型直接操作句法树。这种方法通过迭代优化程序并确保句法有效性，同时允许模型观察每一步的输出，实现有效调试。研究的主要贡献包括开发了一种在句法树上使用扩散的新方法，并在逆向图形任务中实现了该方法，发现其优于之前的方法。

研究团队首先为句法树开发了一个去噪扩散模型，类似于视觉任务中的图像扩散模型。他们通过在训练扩散模型的同时训练一个价值模型，引导去噪过程得到能输出所需结果的程序。这种方法在探索程序空间时，能够在生成过程中的每一步都做出更明智的决策。

实验结果显示，在CSG2D和TinySVG环境中，新提出的树扩散策略明显优于之前的方法。如果组合使用波束搜索，该策略的性能还能进一步提升，在解决问题时相比其他方法可以更少地调用渲染器。此外，新系统还能修复其他方法遗漏的较小问题。

研究团队还训练了一个价值网络，其输入为两张经过渲染的图像，预测的是生成这两张图像的底层程序之间的编辑距离。使用这个价值网络，可以为任意目标图像和随机初始化的程序执行波束搜索，从而在每一次迭代中维护搜索树中一组最有希望值的节点，并仅扩展这些节点。

在架构方面，去噪模型使用了视觉-语言模型，图像编码器则采用了现成可用的NF-ResNet-26。此外，研究团队还实现了一种定制化的token化器，使用了CFG的端点为token，并添加了用作模型句子起点的 token以及允许模型在其上下文中引用位置的 token。

总的来说，这项研究展示了扩散模型在程序合成领域的潜力，特别是在逆向图形任务中。通过结合去噪过程和价值网络，新方法能够有效地探索程序空间，并在每一步生成过程中做出更明智的决策。

原文地址: 点我阅读全文
原文作者: 机器之心

文章版权归作者所有，未经允许请勿转载。

暂无评论...