VAE 참고자료 - "잠재 공간을 확률 분포로 모델링한다"

AI Study/머신러닝(ML)

Brownee 2025. 12. 2. 12:26

VAE의 핵심이자, 일반 오토인코더와 완전히 다른 점입니다.

입력 사진 한 장(예: 숫자 7)을 넣으면, 인코더가 그 사진을 2차원 좌표 하나로 압축합니다.
- 예: (1.23, -0.45) 좌표인 딱 하나의 점.
그 점을 다시 디코더에 넣으면 거의 똑같은 7이 나옵니다.
문제점:
- 잠재 공간에 '점'만 흩어져 있고, 점 사이의 빈 공간에는 아무것도 없습니다.
- 그래서 빈 공간에서 샘플링하면 엉뚱한 이미지가 나옵니다.
- 새로운 7을 만들 수 없고, 오직 '기억한 7'만 복원할 수 있습니다.

VAE는 같은 숫자 7을 다르게 표현합니다.

입력 사진 7 을 넣으면, 인코더가 이렇게 정의합니다.
- "이 사진은 대략 (1.2, -0.4) 근처에 있고, 그 주변에 σ(표준편차) = 0.3 정도의 가우시안 구름이 있다."
- 즉, 평균 μ = (1.2, -0.4) + 분산 σ² = (0.3, 0.3) 을 출력합니다.

오토인코더
- “철수의 얼굴은 정확히 키 173.2451cm, 코 길이 4.812cm, 눈 간격 6.123cm이다.”
- 유일한 숫자 세트. 그 숫자만 알면 철수 얼굴을 정확히 복원할 수 있어요.
- 하지만 철수와 '비슷한 사람'을 만드는 것은 불가능.
- '숫자 아니면 빈 공간' 인 잠재공간. (원본이거나, 전혀 아니거나)
- 철수가 아닌 사람은 '빈 공간'이기 때문에 이상한 얼굴이 나옵니다.
VAE
- “철수의 키는 평균 173cm이고 ±3cm 정도 오차가 있고, 코 길이는 평균 4.8cm이고 ±0.4cm 정도 변동이 있다.”
- '철수라는 구름'을 생성.
- 이제 그 구름 안 어디든 찍어서 새로운 얼굴을 만든다면 철수와 비슷한 사람이 자연스럽게 나옵니다.

일반 오토인코더는 데이터를 ‘사진 한 장’으로 압축하지만, VAE는 데이터를 ‘사진이 있을 법한 구름’으로 압축해서, 그 구름 안 어디를 찍든 자연스럽고 새로운 사진을 만들 수 있게 해 줍니다.

머신러닝의 기초: 확률적 과정(Stochastic Process) (2)	2025.12.04
머신러닝의 기초: VAE (Variational Autoencoder; 변분 오토인코더) (3)	2025.12.02
머신러닝의 기초: 생성 학습(Generative Learning) (2)	2025.12.01
머신러닝의 기초: 대비 학습(Contrastive Learning) (1)	2025.11.27
머신러닝의 기초: 생성적 적대 신경망(Generative Adversarial Networks; GAN) (3)	2025.11.26

Brownlab

인공지능(Ai) 공부하는 주니어 기획자 브라우니의 블로그. 인공지능, 머신러닝, 딥러닝을 서비스/제품 기획자 관점에서 스터디합니다!

잠재공간, 오토인코더, 경사하강법, 자기지도학습, lightgbm, 디퓨전모델, decisiontree, PM, CatBoost, 지도학습, vae, 과적합, Ai, 확률적과정, 그래디언트부스팅, xgboost, 나이브베이즈, 스터디, 랜덤포레스트, 머신러닝,

Brownlab