DDPM: Denoising Diffusion Probabilistic Models

📅 최초 작성: 2025년 7월 13일

🔄 최종 업데이트: 2025년 7월 13일 18:42 (KST)

✨ 최근 변경사항: 임의 시점 샘플링 목표 추가, 핵심 개념 요약 설명 보강, 수식 렌더링 문제 해결

Jonathan Ho · Ajay Jain · Pieter Abbeel

Denoising Diffusion Probabilistic Models, NeurIPS 2020

arXiv 2006.11239 • GitHub Repository

📝 Abstract

DDPM(Denoising Diffusion Probabilistic Models)은 비평형 열역학의 원리에서 영감을 받아 설계된 새로운 생성 모델로, 데이터에 점진적으로 노이즈를 추가하는 forward process와 이를 역으로 제거하는 reverse process를 통해 고품질 이미지를 생성하는 혁신적인 접근법을 제시하였다.

본 연구의 핵심 기여는 확산 확률 모델(Diffusion Probabilistic Models)과 랑주뱅 다이나믹스(Langevin dynamics) 기반의 denoising score matching 간의 새로운 이론적 연결고리를 발견한 것이다. 이를 통해 가중 변분 경계(weighted variational bound)를 학습 목표로 설정하여, 복잡한 생성 문제를 수많은 단순한 노이즈 제거 문제로 분해하여 해결하는 방법론을 구축하였다.

Langevin Dynamics: 물 분자들이 꽃가루를 무작위로 충돌시킴 (노이즈) → 중력이나 점성이 특정 방향으로 끌어당김 (복원력) 와 같이 노이즈 이후에 복원 하는 동역학. DDPM에서는 가우시안 노이즈를 추가하고 학습된 방향성을 따라 점진적으로 원본 이미지를 복원하는 방식으로 활용

실험 결과, CIFAR-10 데이터셋에서 Inception Score 9.46과 FID 3.17이라는 당시 최고 수준의 성능을 달성하였으며, 256×256 LSUN 데이터셋에서도 ProgressiveGAN과 견줄 만한 품질의 샘플을 생성하였다. 특히 기존 GAN 모델들과 달리 적대적 학습 없이도 안정적인 학습이 가능하며, 모드 붕괴(mode collapse) 문제에서 자유롭다는 장점을 보였다.

Background

DDPM을 이해하기 위해서는 먼저 확산 확률 모델(Diffusion Probabilistic Models)의 기본 개념을 파악해야 한다. 확산 모델은 foward process, reverse process 두 가지 과정으로 구성되는데, 먼저 순방향 과정과 주로 사용하는 개념인 markov chain 에 대해 알아보자.

마르코프 체인(Markov Chain)

$$p(x_t | x_{t-1}, x_{t-2}, \ldots, x_0) = p(x_t | x_{t-1})$$

마르코프 체인(Markov Chain)은 DDPM의 기본 구조를 이루는 핵심 개념이다. 현재 상태 $x_t$가 오직 바로 이전 상태 $x_{t-1}$에만 의존하며, 그 이전의 모든 과거 히스토리는 무시하는 기억 상실특성을 갖는다.

마르코프 체인의 차수(Order):

0차 마르코프: 각 상태가 완전히 독립적 (과거에 전혀 의존하지 않음)
1차 마르코프: 현재 상태가 바로 이전 1개 상태에만 의존 ← DDPM이 사용하는 방식
2차 마르코프: 현재 상태가 이전 2개 상태에 의존
n차 마르코프: 현재 상태가 이전 n개 상태에 의존

DDPM에서의 마르코프 체인:

각 노이즈 레벨이 하나의 '상태'
순방향: 원본 이미지 → 점진적 노이즈 추가 → 완전한 노이즈
역방향: 완전한 노이즈 → 점진적 노이즈 제거 → 원본 이미지
각 단계는 오직 이전 단계에만 의존

순방향 과정(Forward Process) - 확산 과정

$$q(x_{1:T}|x_0) := \prod_{t=1}^T q(x_t|x_{t-1}), \quad q(x_t|x_{t-1}) := \mathcal{N}(x_t; \sqrt{1-\beta_t}x_{t-1}, \beta_t I) \tag{1}$$

순방향 과정(Forward Process)은 확산 모델의 출발점이다. 이는 확산 과정(Diffusion Process)이라고도 불리며, 원본 데이터 $x_0$에서 시작하여 점진적으로 가우시안 노이즈를 추가해 완전한 노이즈 $x_T$까지 도달하는 고정된 마르코프 체인이다.

📋 변수 설명:

변수	의미	설명
$q$	순방향 분포	고정된, 학습되지 않는 분포
$p$	역방향 분포	학습 가능한 분포
$x_0$	원본 데이터	완전한 이미지
$x_t$	시점 t 데이터	노이즈가 추가된 이미지
$T$	확산 단계 수	일반적으로 1000
$\beta_t$	분산 스케줄	노이즈 추가 정도 제어
$\mathcal{N}(x; \mu, \sigma^2)$	가우시안 분포	평균 $\mu$, 분산 $\sigma^2$

🏗️ 역방향 과정(Reverse Process) - 생성 과정

$$p_\theta(x_{0:T}) := p(x_T) \prod_{t=1}^T p_\theta(x_{t-1}|x_t), \quad p_\theta(x_{t-1}|x_t) := \mathcal{N}(x_{t-1}; \mu_\theta(x_t, t), \Sigma_\theta(x_t, t)) \tag{2}$$

역방향 과정(Reverse Process)은 확산 모델의 핵심이자 생성 과정이다. 이는 디노이징 과정(Denoising Process)이라고도 불리며, 완전한 가우시안 노이즈에서 시작하여 점진적으로 노이즈를 제거해 원본 데이터를 복원하는 학습 가능한 마르코프 체인이다.

Diffusion model은 $p_\theta(x_0) := \int p_\theta(x_{0:T}) dx_{1:T}$ 형태의 latent variable model이다.

🎯 변분 경계(Variational Bound)를 활용한 Loss

$$\mathbb{E}[-\log p_\theta(x_0)] \leq \mathbb{E}_q\left[-\log \frac{p_\theta(x_{0:T})}{q(x_{1:T}|x_0)}\right] = \mathbb{E}_q\left[-\log p(x_T) - \sum_{t \geq 1} \log \frac{p_\theta(x_{t-1}|x_t)}{q(x_t|x_{t-1})}\right] =: L \tag{3}$$

변분 경계(Variational Bound)는 DDPM 학습의 핵심 목표 함수이다. 직접 계산이 불가능한 음의 로그 우도를 변분 추론을 통해 상한(upper bound)으로 근사하여 최적화한다.

베이즈 정리 적용

$$= \mathbb{E}_{x_T \sim q(x_T|x_0)}\left[-\log \frac{p_\theta(x_{0:T})}{p_\theta(x_{1:T}|x_0)}\right] \quad \because p(a) = \frac{p(a,b)}{p(b|a)}$$

보조 분포를 분모 분자에 곱해줌

$$= \mathbb{E}_{x_T \sim q(x_T|x_0)}\left[-\log \frac{p_\theta(x_{0:T})}{q(x_{1:T}|x_0)} \ast \frac{q(x_{1:T}|x_0)}{p_\theta(x_{1:T}|x_0)}\right]$$

Jensen's Inequality 적용

$$\leq \mathbb{E}_{x_T \sim q(x_T|x_0)}\left[-\log \frac{p_\theta(x_{0:T})}{q(x_{1:T}|x_0)}\right] \quad \because D_{KL} \geq 0$$

🔬 순방향 과정의 임의 시점 샘플링

$$q(x_t|x_0) = \mathcal{N}(x_t; \sqrt{\bar{\alpha}_t}x_0, (1-\bar{\alpha}_t)I) \tag{4}$$

수식 (4)는 DDPM의 가장 중요한 혁신이다. 이 공식을 통해 원본 이미지 $x_0$에서 중간 단계 없이 바로 임의의 시점 $t$로 점프할 수 있다. 기존 확산 모델들이 $x_0 → x_1 → ... → x_t$ 순차적으로 거쳐야 했던 것과 달리, 단 한 번의 계산으로 원하는 노이즈 레벨에 도달 가능하다.

정리: 매개변수 정의 및 성립 조건

매개변수 $\alpha_t := 1 - \beta_t$, $\bar{\alpha}_t := \prod_{s=1}^t \alpha_s$에 대하여, 다음이 성립한다:

$$q(x_t|x_{t-1}) = \mathcal{N}(x_t; \sqrt{1-\beta_t}x_{t-1}, \beta_t I) = \mathcal{N}(x_t; \sqrt{\alpha_t}x_{t-1}, (1-\alpha_t)I)$$

재매개변수화(Reparameterization):

$$x_t = \sqrt{\alpha_t}x_{t-1} + \sqrt{1-\alpha_t}\epsilon_{t-1}, \quad \epsilon_{t-1} \sim \mathcal{N}(0, I)$$

🔄 변분 경계 L의 변형 과정

$$L = \underbrace{D_{KL}(q(x_T|x_0) \parallel p(x_T))}_{L_T} + \sum_{t>1} \underbrace{D_{KL}(q(x_{t-1}|x_t, x_0) \parallel p_\theta(x_{t-1}|x_t))}_{L_{t-1}} - \underbrace{\log p_\theta(x_0|x_1)}_{L_0} \tag{5}$$

식 (5)는 변분 경계 $L$을 KL 발산(Kullback-Leibler divergence)들의 합으로 분해한 핵심적인 형태이다. 이 분해를 통해 복잡한 최적화 문제를 해석 가능한 여러 개의 작은 문제들로 나누어 해결할 수 있다.

📋 각 항의 의미:

항	수식	의미	특성
$L_T$	$D_{KL}(q(x_T\|x_0) \parallel p(x_T))$	최종 노이즈 매칭	학습 불가능 (고정)
$L_{t-1}$	$D_{KL}(q(x_{t-1}\|x_t, x_0) \parallel p_\theta(x_{t-1}\|x_t))$	중간 단계 디노이징	학습 가능
$L_0$	$-\log p_\theta(x_0\|x_1)$	최종 복원 우도	학습 가능

🔄 VAE vs DDPM: 변분 경계 비교

VAE의 ELBO (Evidence Lower BOund):

$$L_{VAE} = \underbrace{D_{KL}(q_{\phi}(z|x) \parallel p(z))}_{\text{Regularization}} + \underbrace{-\mathbb{E}_{q_{\phi}(z|x)}[\log p_{\theta}(x|z)]}_{\text{Reconstruction}}$$

DDPM의 변분 경계:

$$L_{DDPM} = \underbrace{D_{KL}(q(x_T|x_0) \parallel p(x_T))}_{L_T} + \sum_{t>1} \underbrace{D_{KL}(q(x_{t-1}|x_t, x_0) \parallel p_\theta(x_{t-1}|x_t))}_{L_{t-1}} - \underbrace{\log p_\theta(x_0|x_1)}_{L_0}$$

🔍 VAE와의 구조적 대응

VAE 항	DDPM 항	역할	설명
Regularization	L_T (Regularization)	잠재 공간 정규화	VAE: $q_{\phi}(z\|x) \parallel p(z)$ DDPM: $q(x_T\|x_0) \parallel p(x_T)$
Reconstruction	L_0 (Reconstruction)	데이터 복원	VAE: $-\mathbb{E}[\log p_{\theta}(x\|z)]$ DDPM: $-\log p_\theta(x_0\|x_1)$
N/A	Denoising 항	다단계 디노이징	$\sum_{t>1} L_{t-1}$ (VAE에는 없는 DDPM만의 고유한 항)

🔑 핵심 통찰:

DDPM은 VAE의 단일 잠재변수 $z$를 다단계 잠재변수 시퀀스 $x_1, x_2, ..., x_T$로 확장한 모델이다.

🎯 변분 경계 항들의 실제 구현

📊 Regularization ($L_T$): 사실상 불필요한 항

DDPM에서는 이 Regularization Error가 사실상 필요 없습니다. $T$가 충분히 클 때 $\bar{\alpha}_T \to 0$이므로 $q(x_T|x_0) \approx \mathcal{N}(0, I) = p(x_T)$가 되어 $L_T \approx 0$이 됩니다.

🎯 Denoising ($L_{t-1}$): 핵심 학습 목표

두 가우시안 분포 간의 KL-Divergence는 분산 부분을 사전 정의된 값으로 고정하면, 두 평균에 대한 MSE 문제로 단순화됩니다:

$$L_{t-1} = \mathbb{E}_{x_0, \epsilon_t}\left[\frac{1}{2}\left(\mu_\theta(x_t, t) - \tilde{\mu}_t(x_t, x_0)\right)^2\right]$$

여기서 사후 분포의 평균은:

$$\tilde{\mu}_t(x_t, x_0) = \frac{\sqrt{\bar{\alpha}_{t-1}}\beta_t}{1-\bar{\alpha}_t}x_0 + \frac{\sqrt{\alpha_t}(1-\bar{\alpha}_{t-1})}{1-\bar{\alpha}_t}x_t$$

🔍 순방향 과정의 사후 분포(Posterior)

KL 발산을 계산하기 위해서는 순방향 과정의 사후 분포(Posterior) $q(x_{t-1}|x_t, x_0)$를 구해야 한다. 이는 놀랍게도 해석적으로 계산 가능하며, 가우시안 분포로 표현된다:

$$q(x_{t-1}|x_t, x_0) = \mathcal{N}(x_{t-1}; \tilde{\mu}_t(x_t, x_0), \tilde{\beta}_t I) \tag{6}$$

여기서 평균과 분산은:

$$\tilde{\mu}_t(x_t, x_0) := \frac{\sqrt{\bar{\alpha}_{t-1}}\beta_t}{1-\bar{\alpha}_t}x_0 + \frac{\sqrt{\alpha_t}(1-\bar{\alpha}_{t-1})}{1-\bar{\alpha}_t}x_t$$

$$\tilde{\beta}_t := \frac{1-\bar{\alpha}_{t-1}}{1-\bar{\alpha}_t}\beta_t$$

🎲 Rao-Blackwell 정리의 활용

모든 KL 발산이 가우시간들 간의 비교이므로, 몬테카를로 추정(Monte Carlo estimation) 대신 닫힌 형태의 해석식(closed form expressions)으로 계산할 수 있다:

$$D_{KL}(\mathcal{N}(\mu_1, \Sigma_1) \parallel \mathcal{N}(\mu_2, \Sigma_2)) = \frac{1}{2}\left[\log\frac{|\Sigma_2|}{|\Sigma_1|} - d + \text{tr}(\Sigma_2^{-1}\Sigma_1) + (\mu_2-\mu_1)^T\Sigma_2^{-1}(\mu_2-\mu_1)\right]$$

🔑 핵심 장점:

분산 감소: 고분산 몬테카를로 추정 → 저분산 해석적 계산
계산 효율성: 복잡한 적분 → 단순한 행렬 연산
안정적 학습: 일관된 기울기 → 안정적인 수렴

결론

DDPM은 확산 과정의 혁신적인 접근법을 통해 생성 모델링 분야에 새로운 패러다임을 제시했다. 변분 경계를 통한 안정적인 학습, 임의 시점 샘플링의 효율성, 그리고 VAE와의 구조적 연관성을 통해 이론적 기반을 확고히 했다. 이는 현재 최신 AI 이미지 생성 도구들의 핵심 기술로 자리잡게 된 토대가 되었다.

이 문서는 DDPM 논문의 핵심 개념들을 체계적으로 정리한 것입니다.