[Paper Review] In-Domain GAN Inversion for Real Image Editing

2021. 3. 27. 15:13카테고리 없음

However, existing inversion methods typically focus on reconstructing the target image by pixel values yet fail to land the inverted code in the semantic domain of the original latent space.

Introduction

기존 연구들은 단순히 복원하는 데에만 집중하여, 복원된 잠재 변수(latent code)에 대한 특성을 조사하는 데에는 중요한 질문들이 남아있다. 저자가 생각하는 논문의 중요한 질문들은 다음과 같다.

  • 복원된 latent code가 GAN의 원본 잠재 공간에 포함되는가?
  • 복원된 latent code가 복원하고자 하였던 이미지를 의미론적으로 잘 표현하는가?
  • 복원된 latent code가 GAN이 학습한 parameter에 따라 image editing에 활용 될 수 있는가?
  • 잘 학습된 GAN은 모든 이미지를 복원할 수 있는가?

In Domain GAN inversion: 픽셀 단위 차원에서의 복원 + 의미론적 차원에서의 복원

A good GAN inversion method should not only reconstruct the target image at the pixel level, but also align the inverted code with the semantic knowledge encoded in the latent space.

  • Domain-Guided Encoder: 주어진 이미지에 대해서 GAN의 잠재 공간에 사영하도록 학습하는 인코더
  • Domain-Regularized Optimization: Domain-guided encoder를 regularizer로 활용하여, 각 샘플 이미지에 대해서 잠재 변수를 복원하는 방법.

Methods

Encoder Training

  • 학습 데이터: 실제 이미지만을 사용하여 학습하고, 이를 통해 real-applications에 더 적합하게 만들 수 있다.

Domain Regularized Optimization

Experiments

Semantic Manipulation

아래 식과 같이 원하는 이미지를 잠재 공간으로 역변환한 잠재 변수에 대해 원하는 editing 방향 n (semantic direction)으로 잠재 변수를 더해서 원하는 이미지로 수정한다.

Semantic Diffusion

Semantic diffusion은 target 이미지의 가장 중심적인 특징은 보존한 상태로 다른 이미지의 특정 스타일을 주입(diffuse)하는 것을 말한다. 논문 상에서 구체적인 방법이 제시되어 있지 않은 것 같지만, 아래 이미지와 같이 mask를 사용하여 optimization에 사용한 것으로 추측된다.

Ablation Study

  • Trade-off between the image reconstruction quality and the image manipulation quality
    • The inverted codes are more semantically meaningful
    • The target image cannot be ideally recovered for per-pixel values

Conclusion

결론적으로 adversarial training 방법으로 in-domian encoder로 학습할 수 있고, 이 인코더를 optimization 시에 명시적인 regularizer로 사용하여 in-domain inversion을 수행할 수 있다는 것이 핵심이다.

또한, in-domain regularization 항의 계수를 적절히 조절하여 복원 성능과 수정가능도 사이의 trade-off를 조절할 수 있다.