IntrinsicEdit:Precise generative image manipulation in intrinsic space

Abstract

生成式扩散模型通过直观的界面(例如提示、涂鸦和语义绘图)提供高质量的结果,从而提升了图像编辑的效率。然而,这些控制条件缺乏精确的控制,相关的编辑方法通常只专注于单一任务。本文引入了一种适用于一系列编辑任务的多功能工作流程,该工作流程在图像固有潜在空间中运行,能够以像素精度进行语义局部操作,同时自动处理反射和阴影等效果。本文基于 RGB↔X 扩散模型的框架,并解决了缺乏identity保留以及需要更新多个通道才能获得合理的结果的关键缺陷。此外,本文还提出了一种易于编辑的扩散反转和提示嵌入优化方法,以便仅对相关通道进行精确高效的编辑。本文的方法实现了identity保留并解决了全局照明问题,而无需针对特定任务进行模型微调。实验表明本文提出的方法在复杂图像的各种任务中展示了最先进的性能,包括材质调整、对象插入和移除、全局重新照明及其组合。

Introduction

本文提出的方法使得在一个框架内实现广泛的图像编辑任务成为可能。该框架拥有一个可解释的潜在空间-固有图像,它允许通过传统和现代图像处理工具进行像素级控制。此外,该方法还可以实现其他方法难以实现的编辑功能,例如将texture粘贴到现有object上、将插入的 3D object与specular reflections无缝集成,或完全重新照亮场景(如图 1 所示),同时自动解决全局照明效果。总而言之,本文的主要贡献如下:

Method

本文的目标是利用大型生成模型强大的自然图像先验知识,在各种任务中实现逼真的图像处理,例如物体插入/移除、材质编​​辑和重新光照。 使用 RGB→X→RGB 扩散流程的固有图像“潜在空间”,该流程首先将图像分解为固有通道(反照率、法线、粗糙度、辐照度),然后在编辑后重新组合这些通道。然而,该流程存在一些关键的局限性,必须解决这些局限性才能使其切实可行。

identity shift. 面临的首要挑战是本文基于的扩散模型框架RGB↔X会在pipeline中引入随机性,在扩散模型中该随机性的引入是必要的,因为它能够从与给定的一组固有通道一致的整个图像分布中进行采样。但是对于图像编辑任务而言,随机性的引入会造成RGB空间中的 identity shifts。