OpenAI의 Point-E 릴리즈
23 Dec 2022
AI
3D
Point Cloud
- Point E: 생성된 합성뷰로 3D Point Cloud를 생성하는 시스템
- 구문에 따라 다양하고 복잡한 3D 모양을 효율적으로 생성할 수 있음
Abstract
- 최근 3D-Object Generation 분야에 대한 연구가 유망한 결과가 있긴했음
- 그러나 “3D 오브젝트 생성”의 ‘최신’ 방법은 단일 샘플을 생성하는데에 전형적으로 여러 GPU 시간이 필요함.
-
몇분만에 복수개 이미지를 생성하는 ‘최신’ 생성 이미지 모델과 극명하게 차이남.
- 이 논문에서는 단하나의 GPU로 1-2분만에 모델을 생성하는 방법을 탐구함.
- text-to-image diffusion model을 사용해서 ‘단일 합성 뷰’를 생성함
- 생성된 이미지에 존재하는 조건들로 3D Point Cloud를 생성함
- 이 방법은 최근 방법들에 비해, 샘플 품질 측면에서 못 미치긴함
- 하지만 우리 방법이 1-2배 더 빠름
- https://github.com/openai/point-e
Introduction
- text-to-image 생성 모델의 폭발적인 흥행(?)과 함께, 이제 자연어로부터 고품질의 이미지를 짧은시간 안에 생성/수정이 가능하게됨.
Ramesh et al., 2021; Ding et al., 2021 ;Nichol et al., 2021 ;Ramesh et al., 2022 ;Gafni et al., 2022 ;Yu et al., 2022 ;Saharia et al., 2022; Feng et al., 2022 ;Balaji et al., 2022
- 위 논문들을에서 영감받아, 최근 연구들은 text-conditional 여러 양식으로 제작되었다.
- 영상
```
- Hong et al., 2022; Singer et al., 2022; Ho et al., 2022b; ```
- 3D 오브젝트
```
- Jain et al., 2021; Poole et al., 2022; Lin et al., 2022a; Sanghi et al., 2021; 2022 ```
- 영상
```
- 이 논문에서는 text-to-3D 생성에 관련하여 집중해볼 것.
- 이건 VR이나 게임, 산업디자인과 같은 여러 어플리케이션에 3D 컨텐츠 생성을 보편화를 시킬 수 있는 큰 잠재력을 가졌다.
최근 생성트랜드
- 최근 text-to-3D 에 관련해서는 두 가지 카테고리로 나뉘에 진행된다.
- text와 3D를 페어링되거나 라벨링 되지않은 3D 데이터로 3D 생성모델을 학습
- 이건 효율적으로 샘플들을 만들수는 있지만, 다양하고 복잡한 구문 쪽으로 확장하기에는 어렵다. (large-scale 3D 데이터셋이 부족해서..) ```
- Chen et al., 2018; Mittal et al., 2022; Fu et al., 2022; Zeng et al., 2022
- Sanghi et al., 2021; 2022; Watson et al., 2022 ```
- 이미 학습된 text-image 모델에 3D Rep.을 최적화 시키는 방법
- 다양하고 복잡한 구문을 조작할 수 있긴한데, 비싼 optimization 프로세스 요구됨. (각 생산되는 샘플마다 프로세스를 돌려야 함)
- 강한 3D prior의 부족으로 인해서, 로컬 minima에 빠질 가능성이 있음 ```
- Jain et al., 2021; Poole et al., 2022; Lin et al., 2022a ```
- text와 3D를 페어링되거나 라벨링 되지않은 3D 데이터로 3D 생성모델을 학습
- 위 두 개 카테고리의 장점들을 섞어서 해보는 것이 목표.
-
이 모든 스탭은 짧은 시간에 끝나도록 함.
- text-to-image
- 많은 양의 (text, image) 데이터 활용
- GLIDE (Nichol et al., 2021) 모델
- image-to-3D
- 적은 양의 (image, 3D) 데이터 활용
- diffsuion model 사용
- Zhou et al. https://arxiv.org/pdf/2104.03670.pdf
- Transformer-based model
Limitations
- 파이프라인에 synthetic renderings이 필요함.
- 포인트 클라우드처럼 낮은 해상력의 포멧임.
Future works
- 고품질의 3D rep. 표현을 생성하도록 이 방법을 확장시키면 다양한 앱들에 사용될 수 있을 것임
- initial convergence 과정을 빠르게 하면서 optimzation-based을 시작하는데 사용 할 수 있도 있을 것임.
Conclusion
- Point E: 생성된 합성뷰로 3D Point Cloud를 생성하는 시스템
- 구문에 따라 다양하고 복잡한 3D 모양을 효율적으로 생성할 수 있음
2022 ⓒ ChillyMind