젠센 부등식(Jensen’s Inequality) 쉽게 이해하기: 볼록함수의 마법
젠센 부등식(Jensen’s Inequality) 쉽게 이해하기
한 줄 요약:
젠센 부등식은 “볼록(혹은 오목) 함수에 평균을 넣고 빼는 순서만 바꿔도 부등호가 생긴다”는 아주 기본적인 원리입니다.
👀 그림부터 잠깐 볼까요?
아래 그래프는 볼록 함수 $f(x)=x^2$와 두 점 $x_1=1, x_2=3$을 찍어 놓은 모습입니다.

- 🟠 원: 각 점의 함수값 $f(x_1)=1, f(x_2)=9$
- 🟠 점: 가운데 $x$-좌표 2(평균)에서의 함수값 → $f(\text{평균}) = 4$
- 🩷 ×: 두 함수값의 평균 → 평균$(f) = \frac{1+9}{2} = 5$
볼록 함수는 언제나
\[f(\text{평균}) \leq \text{평균}(f)\]이 관계가 바로 젠센 부등식입니다!
🔑 젠센 부등식, 아주 간단히
💡 핵심 아이디어
질문 | 아주 쉬운 답 |
---|---|
무슨 내용? | 볼록 함수라면 ‘평균을 넣은 뒤 계산한 값’이 ‘계산한 뒤 평균낸 값’보다 항상 작거나 같다. |
왜 그래? | 볼록 곡선은 배가 불룩해서 두 점을 직선으로 잇는 줄(시컨트)보다 항상 아래에 있기 때문 |
오목 함수는? | 거꾸로 위에 있으므로 부등호 방향이 반대(≥) |
📐 수학적 정의
확률변수 $X$와 볼록함수 $f$에 대해:
\[f(\mathbb{E}[X]) \leq \mathbb{E}[f(X)]\]오목함수의 경우 (로그 함수 등):
\[f(\mathbb{E}[X]) \geq \mathbb{E}[f(X)]\]🎲 숫자로 다시 예시해보기
📊 볼록함수 예시: $f(x) = x^2$
설정: 두 숫자 1과 3이 있다고 가정
1단계: 평균을 먼저 구하고 함수에 넣기
평균: $\frac{1+3}{2} = 2$
함수값: $f(\text{평균}) = 2^2 = 4$
2단계: 함수에 먼저 넣고 평균 구하기
개별 함수값: $f(1) = 1^2 = 1$, $f(3) = 3^2 = 9$
평균: $\text{평균}(f) = \frac{1+9}{2} = 5$
결과: $4 \leq 5$ ✔️ (젠센 부등식 성립!)
🌳 오목함수 예시: $f(x) = \log x$
설정: 같은 숫자 1과 3 사용
1단계: 평균을 먼저 구하고 로그 취하기
평균: $\frac{1+3}{2} = 2$
로그값: $\log(\text{평균}) = \log(2) = 0.69$
2단계: 로그를 먼저 취하고 평균 구하기
개별 로그값: $\log(1) = 0$, $\log(3) = 1.10$
평균: $\text{평균}(\log) = \frac{0+1.10}{2} = 0.55$
결과: $0.69 \geq 0.55$ ✔️ (오목함수 젠센 부등식 성립!)
🎯 직관적 이해: 왜 이런 일이?
🏔️ 볼록함수의 특징

- 볼록함수는 “그릇 모양”: 아래로 볼록하게 구부러짐
- 두 점을 잇는 직선: 항상 곡선보다 위에 있음
- 평균 지점: 직선 위의 점이므로 곡선보다 높음
🌙 오목함수의 특징
- 오목함수는 “산 모양”: 위로 볼록하게 구부러짐
- 두 점을 잇는 직선: 항상 곡선보다 아래에 있음
- 평균 지점: 직선 위의 점이므로 곡선보다 낮음
🔥 실제로 어디에 쓰이나?
🤖 머신러닝에서의 활용
1. 변분 추론 (Variational Inference)
DDPM, VAE 등에서 계산 불가능한 적분을 근사
부등식 활용: $\log \mathbb{E}[X] \geq \mathbb{E}[\log X]$ 이용해 상한(upper bound) 구성
2. EM 알고리즘
- 로그 우도의 하한을 구해서 최적화
- 복잡한 확률 모델을 간단한 문제로 분해
3. 딥러닝 손실함수
- 크로스 엔트로피, KL divergence 등의 수학적 근거
📊 통계학에서의 활용
1. 유명한 평균 부등식들
- 산술-기하 평균: $\frac{a+b}{2} \geq \sqrt{ab}$
- 산술-조화 평균: $\frac{a+b}{2} \geq \frac{2}{\frac{1}{a}+\frac{1}{b}}$
2. 확률론의 기본 도구
- 마팅게일 이론
- 큰 수의 법칙 증명
💼 경제학에서의 활용
위험 회피 (Risk Aversion)
- 효용함수가 오목 → “확실한 소득 > 불확실한 소득의 기댓값”
- 보험업, 투자 의사결정의 수학적 근거
🧮 젠센 부등식의 다양한 형태
📈 이산형 (유한개 점들)
\[f\left(\sum_{i=1}^n \lambda_i x_i\right) \leq \sum_{i=1}^n \lambda_i f(x_i)\]여기서 $\sum_{i=1}^n \lambda_i = 1$이고 $\lambda_i \geq 0$
📉 연속형 (적분 형태)
\[f\left(\int x \, d\mu(x)\right) \leq \int f(x) \, d\mu(x)\]여기서 $\mu$는 확률측도
💡 기억하기 쉬운 팁들
🎯 외우기 쉬운 방법
- 볼록 = 아래로 볼록 = 아래 쪽이 더 작음 → $f(\text{평균}) \leq \text{평균}(f)$
- 오목 = 위로 볼록 = 위 쪽이 더 큼 → $f(\text{평균}) \geq \text{평균}(f)$
🔍 실전 판별법
함수가 볼록한지 오목한지 모르겠다면?
- 2차 도함수 확인: $f’‘(x) > 0$ → 볼록, $f’‘(x) < 0$ → 오목
- 그래프 그려보기: 아래로 구부러짐 → 볼록, 위로 구부러짐 → 오목
🚀 젠센 부등식이 중요한 이유
🎯 수학적 중요성
- 복잡한 식 → 간단한 형태: 적분, 로그 등을 기댓값으로 변환
- 상한/하한 제공: 계산 불가능한 값의 범위 추정
- 최적화 문제: 복잡한 목적함수를 다루기 쉬운 형태로 변환
🔬 실용적 가치
- AI 모델 학습: 변분 추론의 핵심 도구
- 통계적 추론: 추정량의 성질 분석
- 경제 모델링: 불확실성 하에서의 의사결정
📝 마무리: 젠센 부등식의 핵심
🌟 기억해야 할 핵심 3가지
- 볼록함수: $f(\text{평균}) \leq \text{평균}(f)$ - “평균을 먼저 vs 나중에”
- 오목함수: $f(\text{평균}) \geq \text{평균}(f)$ - 방향만 반대
- 응용분야: 머신러닝, 통계학, 경제학에서 핵심 도구
🎉 한 줄 정리 (다시)
젠센 부등식은 “볼록(혹은 오목) 함수에 평균을 넣고 빼는 순서만 바꿔도 부등호가 생긴다”는 아주 기본적인 원리입니다. 이 덕분에 복잡한 로그·적분을 깔끔한 기댓값 형태로 바꿔서 계산‧학습할 수 있습니다! 🧮✨
💡 실전 팁:
DDPM 논문에서 변분 경계를 볼 때, “아, 여기서 젠센 부등식을 써서 로그의 기댓값을 기댓값의 로그보다 작게 만들었구나!” 하고 이해할 수 있다면 성공입니다! 🎯
Leave a comment