Chillog 차가운 블로그

OpenAI의 Point-E 릴리즈

AI 3D Point Cloud
  • Point E: 생성된 합성뷰로 3D Point Cloud를 생성하는 시스템
  • 구문에 따라 다양하고 복잡한 3D 모양을 효율적으로 생성할 수 있음

Abstract

  • 최근 3D-Object Generation 분야에 대한 연구가 유망한 결과가 있긴했음
  • 그러나 “3D 오브젝트 생성”의 ‘최신’ 방법은 단일 샘플을 생성하는데에 전형적으로 여러 GPU 시간이 필요함.
  • 몇분만에 복수개 이미지를 생성하는 ‘최신’ 생성 이미지 모델과 극명하게 차이남.

  • 이 논문에서는 단하나의 GPU로 1-2분만에 모델을 생성하는 방법을 탐구함.
    • text-to-image diffusion model을 사용해서 ‘단일 합성 뷰’를 생성함
    • 생성된 이미지에 존재하는 조건들로 3D Point Cloud를 생성함
  • 이 방법은 최근 방법들에 비해, 샘플 품질 측면에서 못 미치긴함
  • 하지만 우리 방법이 1-2배 더 빠름
  • https://github.com/openai/point-e

Introduction

  • text-to-image 생성 모델의 폭발적인 흥행(?)과 함께, 이제 자연어로부터 고품질의 이미지를 짧은시간 안에 생성/수정이 가능하게됨.
      Ramesh et al., 2021; Ding et al., 2021 ;Nichol et al., 2021 ;Ramesh et al., 2022 ;Gafni et al., 2022 ;Yu et al., 2022 ;Saharia et al., 2022; Feng et al., 2022 ;Balaji et al., 2022
    
  • 위 논문들을에서 영감받아, 최근 연구들은 text-conditional 여러 양식으로 제작되었다.
    • 영상 ```
      • Hong et al., 2022; Singer et al., 2022; Ho et al., 2022b; ```
    • 3D 오브젝트 ```
      • Jain et al., 2021; Poole et al., 2022; Lin et al., 2022a; Sanghi et al., 2021; 2022 ```
  • 이 논문에서는 text-to-3D 생성에 관련하여 집중해볼 것.
  • 이건 VR이나 게임, 산업디자인과 같은 여러 어플리케이션에 3D 컨텐츠 생성을 보편화를 시킬 수 있는 큰 잠재력을 가졌다.

최근 생성트랜드

  • 최근 text-to-3D 에 관련해서는 두 가지 카테고리로 나뉘에 진행된다.
    1. text와 3D를 페어링되거나 라벨링 되지않은 3D 데이터로 3D 생성모델을 학습
      • 이건 효율적으로 샘플들을 만들수는 있지만, 다양하고 복잡한 구문 쪽으로 확장하기에는 어렵다. (large-scale 3D 데이터셋이 부족해서..) ```
      • Chen et al., 2018; Mittal et al., 2022; Fu et al., 2022; Zeng et al., 2022
      • Sanghi et al., 2021; 2022; Watson et al., 2022 ```
    2. 이미 학습된 text-image 모델에 3D Rep.을 최적화 시키는 방법
      • 다양하고 복잡한 구문을 조작할 수 있긴한데, 비싼 optimization 프로세스 요구됨. (각 생산되는 샘플마다 프로세스를 돌려야 함)
      • 강한 3D prior의 부족으로 인해서, 로컬 minima에 빠질 가능성이 있음 ```
      • Jain et al., 2021; Poole et al., 2022; Lin et al., 2022a ```
  • 위 두 개 카테고리의 장점들을 섞어서 해보는 것이 목표.
  • 이 모든 스탭은 짧은 시간에 끝나도록 함.

  • text-to-image
    • 많은 양의 (text, image) 데이터 활용
    • GLIDE (Nichol et al., 2021) 모델
  • image-to-3D
    • 적은 양의 (image, 3D) 데이터 활용
    • diffsuion model 사용
      • Zhou et al. https://arxiv.org/pdf/2104.03670.pdf
      • Transformer-based model

Limitations

  • 파이프라인에 synthetic renderings이 필요함.
  • 포인트 클라우드처럼 낮은 해상력의 포멧임.

Future works

  • 고품질의 3D rep. 표현을 생성하도록 이 방법을 확장시키면 다양한 앱들에 사용될 수 있을 것임
  • initial convergence 과정을 빠르게 하면서 optimzation-based을 시작하는데 사용 할 수 있도 있을 것임.

Conclusion

  • Point E: 생성된 합성뷰로 3D Point Cloud를 생성하는 시스템
  • 구문에 따라 다양하고 복잡한 3D 모양을 효율적으로 생성할 수 있음

2022 ⓒ ChillyMind