반응형
📌 잠재 공간을 확률 분포로 모델링한다??
VAE의 핵심이자, 일반 오토인코더와 완전히 다른 점입니다.

일반 오토인코더 (고정된 점 방식)
- 입력 사진 한 장(예: 숫자 7)을 넣으면, 인코더가 그 사진을 2차원 좌표 하나로 압축합니다.
- 예: (1.23, -0.45) 좌표인 딱 하나의 점.
- 그 점을 다시 디코더에 넣으면 거의 똑같은 7이 나옵니다.
- 문제점:
- 잠재 공간에 '점'만 흩어져 있고, 점 사이의 빈 공간에는 아무것도 없습니다.
- 그래서 빈 공간에서 샘플링하면 엉뚱한 이미지가 나옵니다.
- 새로운 7을 만들 수 없고, 오직 '기억한 7'만 복원할 수 있습니다.
VAE (확률 분포 방식); '구름'을 상상해보세요
VAE는 같은 숫자 7을 다르게 표현합니다.
- 입력 사진 7 을 넣으면, 인코더가 이렇게 정의합니다.
- "이 사진은 대략 (1.2, -0.4) 근처에 있고, 그 주변에 σ(표준편차) = 0.3 정도의 가우시안 구름이 있다."
- 즉, 평균 μ = (1.2, -0.4) + 분산 σ² = (0.3, 0.3) 을 출력합니다.
사람의 사진으로 생각해보면
- 오토인코더
- “철수의 얼굴은 정확히 키 173.2451cm, 코 길이 4.812cm, 눈 간격 6.123cm이다.”
- 유일한 숫자 세트. 그 숫자만 알면 철수 얼굴을 정확히 복원할 수 있어요.
- 하지만 철수와 '비슷한 사람'을 만드는 것은 불가능.
- '숫자 아니면 빈 공간' 인 잠재공간. (원본이거나, 전혀 아니거나)
- 철수가 아닌 사람은 '빈 공간'이기 때문에 이상한 얼굴이 나옵니다.
- VAE
- “철수의 키는 평균 173cm이고 ±3cm 정도 오차가 있고, 코 길이는 평균 4.8cm이고 ±0.4cm 정도 변동이 있다.”
- '철수라는 구름'을 생성.
- 이제 그 구름 안 어디든 찍어서 새로운 얼굴을 만든다면 철수와 비슷한 사람이 자연스럽게 나옵니다.
사진 한 장 vs 사진이 있을 법한 구름
일반 오토인코더는 데이터를 ‘사진 한 장’으로 압축하지만, VAE는 데이터를 ‘사진이 있을 법한 구름’으로 압축해서, 그 구름 안 어디를 찍든 자연스럽고 새로운 사진을 만들 수 있게 해 줍니다.
반응형
'AI Study > 머신러닝(ML)' 카테고리의 다른 글
| 머신러닝의 기초: 확률적 과정(Stochastic Process) (2) | 2025.12.04 |
|---|---|
| 머신러닝의 기초: VAE (Variational Autoencoder; 변분 오토인코더) (3) | 2025.12.02 |
| 머신러닝의 기초: 생성 학습(Generative Learning) (2) | 2025.12.01 |
| 머신러닝의 기초: 대비 학습(Contrastive Learning) (1) | 2025.11.27 |
| 머신러닝의 기초: 생성적 적대 신경망(Generative Adversarial Networks; GAN) (3) | 2025.11.26 |