젠센 부등식(Jensen’s Inequality) 쉽게 이해하기: 볼록함수의 마법

젠센 부등식(Jensen’s Inequality) 쉽게 이해하기

한 줄 요약:
젠센 부등식은 “볼록(혹은 오목) 함수에 평균을 넣고 빼는 순서만 바꿔도 부등호가 생긴다”는 아주 기본적인 원리입니다.

👀 그림부터 잠깐 볼까요?

아래 그래프는 볼록 함수 $f(x)=x^2$와 두 점 $x_1=1, x_2=3$을 찍어 놓은 모습입니다.

젠센 부등식 볼록함수 예시
  • 🟠 원: 각 점의 함수값 $f(x_1)=1, f(x_2)=9$
  • 🟠 점: 가운데 $x$-좌표 2(평균)에서의 함수값 → $f(\text{평균}) = 4$
  • 🩷 ×: 두 함수값의 평균 → 평균$(f) = \frac{1+9}{2} = 5$

볼록 함수는 언제나

\[f(\text{평균}) \leq \text{평균}(f)\]

이 관계가 바로 젠센 부등식입니다!

🔑 젠센 부등식, 아주 간단히

💡 핵심 아이디어

질문 아주 쉬운 답
무슨 내용? 볼록 함수라면 ‘평균을 넣은 뒤 계산한 값’이 ‘계산한 뒤 평균낸 값’보다 항상 작거나 같다.
왜 그래? 볼록 곡선은 배가 불룩해서 두 점을 직선으로 잇는 줄(시컨트)보다 항상 아래에 있기 때문
오목 함수는? 거꾸로 위에 있으므로 부등호 방향이 반대(≥)

📐 수학적 정의

확률변수 $X$와 볼록함수 $f$에 대해:

\[f(\mathbb{E}[X]) \leq \mathbb{E}[f(X)]\]

오목함수의 경우 (로그 함수 등):

\[f(\mathbb{E}[X]) \geq \mathbb{E}[f(X)]\]

🎲 숫자로 다시 예시해보기

📊 볼록함수 예시: $f(x) = x^2$

설정: 두 숫자 1과 3이 있다고 가정

1단계: 평균을 먼저 구하고 함수에 넣기

평균: $\frac{1+3}{2} = 2$

함수값: $f(\text{평균}) = 2^2 = 4$

2단계: 함수에 먼저 넣고 평균 구하기

개별 함수값: $f(1) = 1^2 = 1$, $f(3) = 3^2 = 9$

평균: $\text{평균}(f) = \frac{1+9}{2} = 5$

결과: $4 \leq 5$ ✔️ (젠센 부등식 성립!)

🌳 오목함수 예시: $f(x) = \log x$

설정: 같은 숫자 1과 3 사용

1단계: 평균을 먼저 구하고 로그 취하기

평균: $\frac{1+3}{2} = 2$

로그값: $\log(\text{평균}) = \log(2) = 0.69$

2단계: 로그를 먼저 취하고 평균 구하기

개별 로그값: $\log(1) = 0$, $\log(3) = 1.10$

평균: $\text{평균}(\log) = \frac{0+1.10}{2} = 0.55$

결과: $0.69 \geq 0.55$ ✔️ (오목함수 젠센 부등식 성립!)

🎯 직관적 이해: 왜 이런 일이?

🏔️ 볼록함수의 특징

볼록함수 직관적 설명
  1. 볼록함수는 “그릇 모양”: 아래로 볼록하게 구부러짐
  2. 두 점을 잇는 직선: 항상 곡선보다 에 있음
  3. 평균 지점: 직선 위의 점이므로 곡선보다 높음

🌙 오목함수의 특징

  1. 오목함수는 “산 모양”: 위로 볼록하게 구부러짐
  2. 두 점을 잇는 직선: 항상 곡선보다 아래에 있음
  3. 평균 지점: 직선 위의 점이므로 곡선보다 낮음

🔥 실제로 어디에 쓰이나?

🤖 머신러닝에서의 활용

1. 변분 추론 (Variational Inference)

DDPM, VAE 등에서 계산 불가능한 적분을 근사

부등식 활용: $\log \mathbb{E}[X] \geq \mathbb{E}[\log X]$ 이용해 상한(upper bound) 구성

2. EM 알고리즘

  • 로그 우도의 하한을 구해서 최적화
  • 복잡한 확률 모델을 간단한 문제로 분해

3. 딥러닝 손실함수

  • 크로스 엔트로피, KL divergence 등의 수학적 근거

📊 통계학에서의 활용

1. 유명한 평균 부등식들

  • 산술-기하 평균: $\frac{a+b}{2} \geq \sqrt{ab}$
  • 산술-조화 평균: $\frac{a+b}{2} \geq \frac{2}{\frac{1}{a}+\frac{1}{b}}$

2. 확률론의 기본 도구

  • 마팅게일 이론
  • 큰 수의 법칙 증명

💼 경제학에서의 활용

위험 회피 (Risk Aversion)

  • 효용함수가 오목 → “확실한 소득 > 불확실한 소득의 기댓값”
  • 보험업, 투자 의사결정의 수학적 근거

🧮 젠센 부등식의 다양한 형태

📈 이산형 (유한개 점들)

\[f\left(\sum_{i=1}^n \lambda_i x_i\right) \leq \sum_{i=1}^n \lambda_i f(x_i)\]

여기서 $\sum_{i=1}^n \lambda_i = 1$이고 $\lambda_i \geq 0$

📉 연속형 (적분 형태)

\[f\left(\int x \, d\mu(x)\right) \leq \int f(x) \, d\mu(x)\]

여기서 $\mu$는 확률측도

💡 기억하기 쉬운 팁들

🎯 외우기 쉬운 방법

  1. 볼록 = 아래로 볼록 = 아래 쪽이 더 작음 → $f(\text{평균}) \leq \text{평균}(f)$
  2. 오목 = 위로 볼록 = 위 쪽이 더 큼 → $f(\text{평균}) \geq \text{평균}(f)$

🔍 실전 판별법

함수가 볼록한지 오목한지 모르겠다면?

  • 2차 도함수 확인: $f’‘(x) > 0$ → 볼록, $f’‘(x) < 0$ → 오목
  • 그래프 그려보기: 아래로 구부러짐 → 볼록, 위로 구부러짐 → 오목

🚀 젠센 부등식이 중요한 이유

🎯 수학적 중요성

  1. 복잡한 식 → 간단한 형태: 적분, 로그 등을 기댓값으로 변환
  2. 상한/하한 제공: 계산 불가능한 값의 범위 추정
  3. 최적화 문제: 복잡한 목적함수를 다루기 쉬운 형태로 변환

🔬 실용적 가치

  1. AI 모델 학습: 변분 추론의 핵심 도구
  2. 통계적 추론: 추정량의 성질 분석
  3. 경제 모델링: 불확실성 하에서의 의사결정

📝 마무리: 젠센 부등식의 핵심

🌟 기억해야 할 핵심 3가지

  1. 볼록함수: $f(\text{평균}) \leq \text{평균}(f)$ - “평균을 먼저 vs 나중에”
  2. 오목함수: $f(\text{평균}) \geq \text{평균}(f)$ - 방향만 반대
  3. 응용분야: 머신러닝, 통계학, 경제학에서 핵심 도구

🎉 한 줄 정리 (다시)

젠센 부등식은 “볼록(혹은 오목) 함수에 평균을 넣고 빼는 순서만 바꿔도 부등호가 생긴다”는 아주 기본적인 원리입니다. 이 덕분에 복잡한 로그·적분을 깔끔한 기댓값 형태로 바꿔서 계산‧학습할 수 있습니다! 🧮✨


💡 실전 팁:
DDPM 논문에서 변분 경계를 볼 때, “아, 여기서 젠센 부등식을 써서 로그의 기댓값을 기댓값의 로그보다 작게 만들었구나!” 하고 이해할 수 있다면 성공입니다! 🎯

Leave a comment