LayerFlow
LayerFlow: A Unified Model for Layer-aware Video Generation Abstract 本文提出了 LayerFlow,一个能够感知图层的视频生成解决方案。根据每层的文本提示,LayerFlow 可以生成透明前景、清晰背景和混合场景的视频。它还支持多种变体,例如分解混合视频或为给定的前景生成背景,反之亦然。从文本到视频的扩散变换器开始,本...
LayerFlow: A Unified Model for Layer-aware Video Generation Abstract 本文提出了 LayerFlow,一个能够感知图层的视频生成解决方案。根据每层的文本提示,LayerFlow 可以生成透明前景、清晰背景和混合场景的视频。它还支持多种变体,例如分解混合视频或为给定的前景生成背景,反之亦然。从文本到视频的扩散变换器开始,本...
IllumiCraft: Unified Geometry and Illumination Diffusion for Controllable Video Generation Abstract 尽管扩散模型能够从文本或图像输入生成高质量、高分辨率的视频序列,但在跨帧控制场景光照和视觉外观时,扩散模型缺乏对几何线索的显式整合。为了解决这一局限性,本文提出了IllumiCraft:一个...
Q-Insight:Understanding Image Quality via Visual Reinforcement Learning Abstract 图像质量评价(IQA)关注于图像的感知视觉质量,在图像重建、压缩和生成等下游任务中发挥着关键作用。多模态大语言模型(MLLMs)的快速发展极大地拓展了IQA的研究范围,使其朝着更全面的图像质量理解方向发展,不仅包括内容分析、退化...
LCVD:High-Fidelity Relightable Monocular Portrait Animation with Lighting-Controllable Video Diffusion Model Abstract 现存的portrait animation 方法无法实现重光照,这是因为这些方法没有分离出本质特征(人物identit和appearance)和外在特征(...
SpotLight: Shadow-Guided Object Relighting via Diffusion Abstract 扩散模型可以作为强大的神经渲染引擎以将虚拟对象插入图像中,但是和基于物理的渲染引擎相比,神经渲染引擎对光照设置的控制能力远远不足,而对于光照设置的控制通常对改善或个性化所需的图像结果至关重要。本文中,作者提出通过指定对象的阴影,进而实现对象重新照明这一思路。...
RelightVid: Temporal-Consistent Diffusion Model for Video Relighting 研究任务 RelightVid 的核心任务是实现视频重光照,即在保持视频内容不变的前提下,修改视频中前景物体的光照条件,使其看起来像是在不同的光照环境下拍摄的。这一任务在影视制作、游戏开发、增强现实等领域具有重要的应用价值,例如可以用于调整场景的光照风...
LightLab:Controlling Light Sources in Images with Diffusion Models 摘要 现存的方法要么依赖多视角的输入以在推理中执行反渲染,要么不能够在light change方面提供显式的控制。本文的方法在一个配对小摄影数据集上微调扩散模型,并辅以按比例合成的渲染图像,以实现更加逼真的重新照明。文本利用光传输的线性性质来合成图像对,描...
马尔可夫决策 马尔可夫过程 随机过程 随机过程(stochastic process)是概率论的“动力学”部分。概率论的研究对象是静态的随机现象,而随机过程的研究对象是随时间演变的随机现象(例如天气随时间的变化、城市交通随时间的变化)。在随机过程中,随机现象在某时刻 $t$ 的取值是一个向量随机变量,用 $S_{t}$ 表示,所有可能的状态组成状态集合 $\mathcal{S}$。随机...
Introduction and Method 多模态大语言模型(Multi-modality Large Language Models,后续简称多模态大模型)能够提供强大的通用级别视觉感知/理解能力,甚至可以通过自然语言与人类进行无缝对话和互动。虽然多模态大模型的这些能力已经在多个视觉语言任务中得到了探索和验证,例如图像字幕、视觉问题回答、跨模态关联,以及传统的视觉任务,如图像分类或分...
相关概念 图像质量评估(IQA)是对任意的图像进行质量评分,将图像整体作为输入,将图像的质量得分作为输出,图像质量评估分为三种: 全参考图像质量评估(Full-Reference-IQA):在这种方法中,拥有一个非失真的图像作为基准以测量失真图像的质量。在可以拥有原始图像及其压缩图像的情况下,此方法可用于评估图像压缩算法的质量。Key Insight:质量分数=$f$(参考图像,失真图像...