OpenAI의 Point-E 릴리즈

23 Dec 2022

AI 3D Point Cloud

Point E: 생성된 합성뷰로 3D Point Cloud를 생성하는 시스템
구문에 따라 다양하고 복잡한 3D 모양을 효율적으로 생성할 수 있음

Abstract

최근 3D-Object Generation 분야에 대한 연구가 유망한 결과가 있긴했음
그러나 “3D 오브젝트 생성”의 ‘최신’ 방법은 단일 샘플을 생성하는데에 전형적으로 여러 GPU 시간이 필요함.
몇분만에 복수개 이미지를 생성하는 ‘최신’ 생성 이미지 모델과 극명하게 차이남.
이 논문에서는 단하나의 GPU로 1-2분만에 모델을 생성하는 방법을 탐구함.
- text-to-image diffusion model을 사용해서 ‘단일 합성 뷰’를 생성함
- 생성된 이미지에 존재하는 조건들로 3D Point Cloud를 생성함
이 방법은 최근 방법들에 비해, 샘플 품질 측면에서 못 미치긴함
하지만 우리 방법이 1-2배 더 빠름
https://github.com/openai/point-e

Introduction

text-to-image 생성 모델의 폭발적인 흥행(?)과 함께, 이제 자연어로부터 고품질의 이미지를 짧은시간 안에 생성/수정이 가능하게됨.

  Ramesh et al., 2021; Ding et al., 2021 ;Nichol et al., 2021 ;Ramesh et al., 2022 ;Gafni et al., 2022 ;Yu et al., 2022 ;Saharia et al., 2022; Feng et al., 2022 ;Balaji et al., 2022

위 논문들을에서 영감받아, 최근 연구들은 text-conditional 여러 양식으로 제작되었다.
- 영상 ```
  - Hong et al., 2022; Singer et al., 2022; Ho et al., 2022b; ```
- 3D 오브젝트 ```
  - Jain et al., 2021; Poole et al., 2022; Lin et al., 2022a; Sanghi et al., 2021; 2022 ```
이 논문에서는 text-to-3D 생성에 관련하여 집중해볼 것.
이건 VR이나 게임, 산업디자인과 같은 여러 어플리케이션에 3D 컨텐츠 생성을 보편화를 시킬 수 있는 큰 잠재력을 가졌다.

최근 생성트랜드

최근 text-to-3D 에 관련해서는 두 가지 카테고리로 나뉘에 진행된다.
1. text와 3D를 페어링되거나 라벨링 되지않은 3D 데이터로 3D 생성모델을 학습
  - 이건 효율적으로 샘플들을 만들수는 있지만, 다양하고 복잡한 구문 쪽으로 확장하기에는 어렵다. (large-scale 3D 데이터셋이 부족해서..) ```
  - Chen et al., 2018; Mittal et al., 2022; Fu et al., 2022; Zeng et al., 2022
  - Sanghi et al., 2021; 2022; Watson et al., 2022 ```
2. 이미 학습된 text-image 모델에 3D Rep.을 최적화 시키는 방법
  - 다양하고 복잡한 구문을 조작할 수 있긴한데, 비싼 optimization 프로세스 요구됨. (각 생산되는 샘플마다 프로세스를 돌려야 함)
  - 강한 3D prior의 부족으로 인해서, 로컬 minima에 빠질 가능성이 있음 ```
  - Jain et al., 2021; Poole et al., 2022; Lin et al., 2022a ```
위 두 개 카테고리의 장점들을 섞어서 해보는 것이 목표.
이 모든 스탭은 짧은 시간에 끝나도록 함.
text-to-image
- 많은 양의 (text, image) 데이터 활용
- GLIDE (Nichol et al., 2021) 모델
image-to-3D
- 적은 양의 (image, 3D) 데이터 활용
- diffsuion model 사용
  - Zhou et al. https://arxiv.org/pdf/2104.03670.pdf
  - Transformer-based model

Limitations

파이프라인에 synthetic renderings이 필요함.
포인트 클라우드처럼 낮은 해상력의 포멧임.

Future works

고품질의 3D rep. 표현을 생성하도록 이 방법을 확장시키면 다양한 앱들에 사용될 수 있을 것임
initial convergence 과정을 빠르게 하면서 optimzation-based을 시작하는데 사용 할 수 있도 있을 것임.

Conclusion

Point E: 생성된 합성뷰로 3D Point Cloud를 생성하는 시스템
구문에 따라 다양하고 복잡한 3D 모양을 효율적으로 생성할 수 있음

Chillog 차가운 블로그

OpenAI의 Point-E 릴리즈

Abstract

Introduction

최근 생성트랜드

Limitations

Future works

Conclusion