AI Study/머신러닝(ML)

머신러닝의 기초: 디퓨전 모델(Diffusion models)

Brownee 2025. 12. 5. 10:53
반응형

📌 머신러닝의 기초: 디퓨전 모델(Diffusion models)

 

diffusion: 분산, 확산, 초점 흐리기

원본 사진(데이터)에 먼지와 얼룩(노이즈)을 계속 뿌려서 원본이 완전히 가려진 상태로 만듭니다(Forward Process). 그런 다음, 가려진 사진에서 먼지를 닦아내 원본으로 복원합니다(Reverse Process). 마치 오래된 사진을 스캔해서 Photoshop으로 복구하는 것처럼, 모델은 '이 얼룩 아래에 뭐가 있었을까?'를 학습해 새로운 사진(생성 데이터)을 만듭니다.

 

Diffusion 과정: 원본 이미지 => 잠재 영역(노이즈 뿌리기) => 완전히 가려진 원본.

디퓨전 모델

디퓨전 모델(Diffusion Models)은 데이터를 생성하는 '생성 AI' 분야에서 사용되는 모델입니다. 이미지나 오디오 같은 복잡한 데이터 생성 분야에서 사용됩니다. 머신러닝 관점에서 Diffusion Models은 확률적 과정을 통해 노이즈를 추가하고 제거하는 방식으로 작동합니다.

 

확률적 과정
확률적 과정이란 시간의 진행에 따라 확률적인 변화를 가지는 현상을 수학적으로 기술한 것입니다. AI, 금융, 공학 등 다양한 분야에서 불확실성을 모델링하는 데 사용되는 핵심 개념입니다. 디퓨전 모델에서도 매번 조금씩 다른 방식으로 노이즈가 들어가고 빠지기 때문에, 같은 텍스트 프롬프트로 생성해도 매번 다른 그림이 나옵니다. 
👉'확률적 과정' 더 알아보기

 

 

디퓨전 모델의 아이디어/학습 과정

 

학습 과정은 기본적으로 두 단계로 나뉩니다.

 

1. Forward Process (순방향 확산 과정: Diffusion)

  •  원본 이미지 데이터에 점진적으로 가우시안 노이즈(Gaussian Noise)를 추가.
  • => 데이터를 완전한 무작위의 노이즈 상태로 변환.
  • 실제 이미지의 데이터 구조가 완전히 사라진, 순수한 노이즈 분포로 만듭니다.
  • 이는 Markov Chain을 기반으로 하며, 각 단계에서 데이터가 점점 더 무작위화됩니다.

2. Reverse Process (역확산 과정: Denoising)

  • 순수한 노이즈 상태에서 시작해 단계적으로 노이즈를 제거하며(denoising) 원래의 데이터 분포, 즉 원본으로 복원합니다.
  • 이는 학습된 신경망(보통 U-Net)이 노이즈를 예측하고 제거하는 방식입니다.
  • 훈련 시에는 변분 하한(Variational Lower Bound)을 최적화하여 모델이 데이터 분포를 학습합니다.

 

참고) U-Net

 

이미지 세그멘테이션(Image Segmentation)에 특화된 딥러닝 네트워크 구조입니다. 2015년 의료 영상 분석을 위해 개발되었고, 이름은 네트워크 구조가 알파벳 'U' 모양을 닮아서 붙여졌습니다. U-Net의 목표는 이미지의 각 픽셀이 무엇인지 정확히 분류하는 것입니다.

일반적인 이미지 분류는 전체 이미지에 하나의 라벨을 붙입니다. '이 사진은 고양이다' 라는 식으로요. 그런데 이미지 세그멘테이션은 이미지를 구성하는 각 픽셀마다 라벨을 붙입니다. '픽셀 (1,1) 은 배경, (50,50) 은 고양이, (100,100)은 물체' 라는 식입니다.

 

U-Net 의 인코딩-디코딩 과정과 스킵 커넥션. (이미지 출처: https://towardsdatascience.com/understanding-u-net-61276b10f360/)

 

U-Net의 기본적인 과정은 인코딩-디코딩의 2가지입니다.

왼쪽의 인코딩 파트에서는 입력된 이미지를 점점 압축해서 작게 만듭니다. 이 때 특징을 추상화합니다. 사진을 멀리서 본 것처럼, 이를테면 산, 강, 집, 사람 등의 요소들로 나눕니다. 전체적인 맥락을 파악하는 과정입니다.

오른쪽의 디코딩 파트에서는 압축된 이미지를 확장시켜서 크게 만듭니다. 이 때 특징을 다시 구체화합니다. 인코딩 과정에서 분류한 요소들각각의 구체적인 특징을 파악하여 구현합니다. 사진을 가까이서 보며 각 요소의 특징을 자세히 확인하는 것과 같습니다.

 

그런데 U-Net이 계층을 늘릴수록 특징 맵이 점점 축소됩니다. 즉, 이미지를 압축할수록 특징이 일반화되면서 디테일한 특징들을 '잊어버릴' 수 있습니다. 이러한 현상을 보완하기 위해 스킵 커넥션을 추가했습니다.

스킵 커넥션(skip connection) 은, 인코딩-디코딩의 과정을 계층별로 거치지 않고 인코딩의 중간 단계에서 디코딩의 중간 단계로 특정 데이터를 직접 전달하는 연결입니다. 이 때 인코딩 초기 단계의 세밀한 정보들이 직접 전달되어, '잊히지' 않고 디코딩 데이터에 반영됩니다.

 

위와 같은 구조로, U-Net은 인풋 이미지의 일반적인 특징과 세밀한 특징을 모두 파악하여 분류할 수 있습니다. U-Net 네트워크는 분류(또는 분할)의 정확도가 매우 중요한 생물의학 이미지의 처리에 사용되며, 스테이블 디퓨전 모델의 denoising 에 활용됩니다.

 

디퓨전 모델의 한계와 발전: 스테이블 디퓨전

 

기본 디퓨전 모델(DDPM)은 원본 이미지의 일반적이고 세밀한 특징을 모두 파악하여 최고 품질의 이미지를 생성할 수 있지만, 매우 많은 메모리를 필요로 하고 처리 속도가 느리기에 시간이 오래 걸립니다. 그래서 학습∙추론 비용이 상당히 많이 듭니다. 이를 개선한 모델이 레이턴트 디퓨전 모델입니다.

레이턴트 디퓨전 모델의 구조. (이미지 출처: https://theaisummer.com/diffusion-models/)

 

레이턴트 디퓨전 모델(Latent Diffusion Model)은 기본 디퓨전 모델에 잠재 공간(latent space)을 추가했습니다. 기본 디퓨전 모델은 픽셀 공간에서 작동했기에 많은 비용이 필요했지만, 레이턴트 디퓨전 모델은 압축된 잠재 공간에서 디퓨전을 진행함으로써 작업이 더욱 빠르고 가벼워졌습니다. 

 

순방향 확산 과정은 DDPM과 같고, 역확산 과정에 VAE(Variational AutoEncoder)를 추가해서 고차원 이미지를 저차원 잠재 표현으로 압축한 후 디퓨전을 적용합니다. 이는 계산의 효율성과 확장성을 크게 높였습니다.

 

👉'VAE' 더 자세히 알아보기

 

또한 LDM은 '텍스트(Text)나 클래스(Class)와 같은 외부 조건을 잠재 공간의 U-Net에 주입'하는 Conditioning 메커니즘을 통합하여, 사용자가 원하는 특성을 가진 이미지를 생성하도록 모델을 제어할 수 있습니다. DDPM에서도 조건부 생성이 가능하지만, LDM은 효율적인 잠재 공간에서 조건을 효과적으로 활용하여 제어 가능한 생성 능력을 극대화했습니다.

 

이 레이턴트 디퓨전 모델을 오픈소스로 구현한 모델이 2022년 등장한 스테이블 디퓨전(Stable Diffusion) 입니다. 기본 DDPM과 비교하면, 스테이블 디퓨전은 VAE로 이미지를 8배 이상 압축한 잠재 공간에서 디퓨전을 실행하면서 품질은 거의 그대로 유지하고 속도·비용을 혁명적으로 낮춘 실용화 버전입니다.

 

그리고 2024년에 출시된 Black Forest Labs의 Flux.1 은 스테이블 디퓨전의 한계를 극복한, 최강의 이미지 생성 모델로 평가받고 있습니다.

👉 Flux.1 [dev] 더 알아보기

 

 

디퓨전 모델 적용 사례/예시

  • 미술/디자인/광고 (가장 일반적):
    • Stability AI의 Stable Diffusion, OpenAI의 DALL-E 3, Midjourney, Adobe의 Firefly, Google의 Imagen 등의 핵심 기술.
    • 사용자의 텍스트 설명(프롬프트)에 따라 상상 가능한 거의 모든 이미지를 생성하여 콘텐츠 제작 시간을 혁신적으로 단축시킵니다.
    • PM 관점: 프롬프트 엔지니어링을 통한 일관된 브랜드 이미지 생성 파이프라인 구축을 프로젝트 목표로 설정할 수 있습니다.
  • 바이오/제약 산업:
    • 약물 개발을 위한 새로운 분자 구조를 생성하거나, 단백질 구조 모델링에 사용되어 신약 개발의 탐색 시간을 단축합니다.
    • PM 관점: 모델의 화학적 타당성을 검증하는 전문가 검토(SME Review) 단계를 로드맵에 필수적으로 포함해야 합니다.
  • 컴퓨터 비전 (이미지 인페인팅/아웃페인팅):
    • 이미지에서 특정 부분을 지우고 자연스럽게 채우거나(인페인팅), 원본 이미지 바깥 영역을 확장하여(아웃페인팅) 콘텐츠 편집의 유연성을 제공합니다.
반응형