우도함수(Likelihood Function) 쉽게 이해하기: 피자 맛 테스트로 배우는 통계학
우도함수(Likelihood Function) 쉽게 이해하기
한 줄 요약:
우도 함수는 “이 데이터가 주어진 조건(모델/파라미터)에서 얼마나 말이 되냐?”를 수치로 표현한 것이에요.
🍕 피자 맛 테스트로 배우는 우도함수
상황
당신이 피자를 10조각 먹었는데, 7조각이 아주 맛있었어요.
지금 두 가지 셰프가 있어요:
- 셰프 A: “내 피자는 70% 확률로 맛있어.”
- 셰프 B: “난 30% 확률이야.”
질문
이 7개의 맛있는 피자 결과가 셰프 A 때문인지 B 때문인지 어떻게 판단할까요?
👉 각 셰프의 주장(확률)에 따라, 이런 결과(7개가 맛있는 것)이 얼마나 가능성이 있는지 계산해보는 게 바로 우도(Likelihood)입니다.
🧠 수학적으로 표현해보면
관측된 데이터: 맛있는 피자 7개, 맛없는 3개 → 총 10개
셰프 A가 맞다고 가정하면 (확률 = 0.7): \(L_A = 0.7^7 \times 0.3^3 = 0.0022 \text{ (그럴듯한 정도)}\)
셰프 B일 경우 (확률 = 0.3): \(L_B = 0.3^7 \times 0.7^3 = 0.0000075 \text{ (그럴듯한 정도)}\)
👉 이 중 우도가 더 큰 셰프 A가 실제로 더 말이 되는 모델이겠죠?
📌 우도 vs 확률의 차이
구분 | 확률 (Probability) | 우도 (Likelihood) |
---|---|---|
뭘 알고 있음? | 모델(파라미터) | 관측된 데이터 |
뭘 알고 싶음? | 데이터의 확률 | 모델(파라미터)의 적합도 |
예시 | “이 모델에서 7개가 맛있을 확률은?” | “7개가 맛있었는데, 어떤 모델이 제일 말이 됨?” |
📝 우도함수의 정의
우도함수(Likelihood Function)는 관측된 데이터가 주어졌을 때, 특정 모수(parameter)가 얼마나 그럴듯한지를 나타내는 함수입니다.
🎯 핵심 정의
주어진 데이터 $x_1, x_2, \ldots, x_n$에 대해 모수 $\theta$의 우도함수는:
\[L(\theta) = L(\theta | x_1, x_2, \ldots, x_n) = \prod_{i=1}^n f(x_i | \theta)\]변수 설명:
우도함수: $L(\theta)$ - 모수 $\theta$에 대한 우도함수
확률함수: $f(x_i | \theta)$ - 모수 $\theta$가 주어졌을 때 $x_i$의 확률밀도함수 또는 확률질량함수 |
곱 기호: $\prod$ - 곱(product) 기호
🔍 핵심 아이디어:
- 데이터는 고정되어 있음
- 모수 $\theta$는 변수
- “이 데이터가 관측될 때, 어떤 $\theta$ 값이 가장 그럴듯한가?”
💡 우도함수의 핵심 개념 정리
🔍 우도함수는 이런 것들을 해결해줍니다:
- 데이터는 고정하고, 모델의 파라미터를 바꿔가며 그 “그럴듯함”을 비교합니다.
- 가장 우도가 큰 파라미터를 찾는 게 바로 최대우도추정(MLE)입니다.
- 확률과 달리 우도는 1을 넘을 수도 있고, 합이 1이 될 필요도 없습니다.
🤝 다른 예시: 동전 던지기
상황: 동전을 10번 던져서 7번 앞면이 나왔어요.
확률적 사고 (모수 → 데이터):
- “앞면 확률이 0.5인 동전에서 7번 앞면이 나올 확률은?”
-
답: $P(\text{7번 앞면} \text{확률=0.5}) = \binom{10}{7} \times 0.5^{10} = 0.117$
우도적 사고 (데이터 → 모수):
- “7번 앞면이 나왔는데, 이 동전의 앞면 확률이 0.7일 가능성은?”
-
답: $L(\text{확률=0.7} \text{7번 앞면}) = \binom{10}{7} \times 0.7^7 \times 0.3^3 = 0.267$
🎯 핵심 차이점
구분 | 확률 | 우도 |
---|---|---|
뭘 알고 있나? | 모델 파라미터 | 관측된 데이터 |
뭘 구하나? | 데이터가 나올 확률 | 파라미터의 적합도 |
방향 | 원인 → 결과 | 결과 → 원인 |
질문 | “이 조건에서 이런 결과가 나올까?” | “이런 결과가 나왔으니 어떤 조건이 맞을까?” |
🎯 우도함수로 최적의 파라미터 찾기
📊 피자 예시 계속…
앞서 피자 예시에서 셰프 A(70%)와 B(30%)를 비교했죠. 하지만 실제로는 모든 가능한 확률값(0%~100%)을 비교해야 합니다.
우도 함수를 그래프로 그려보면:
관측 데이터: 10개 중 7개 맛있음
우도 함수: L(p) = p^7 × (1-p)^3
확률 p | 우도 L(p) | 해석 |
---|---|---|
0.1 | 0.0000001 | 거의 불가능 |
0.3 | 0.000007 | 낮은 우도 |
0.5 | 0.0008 | 보통 우도 |
0.7 | 0.0022 | 최대 우도 ⭐ |
0.9 | 0.0004 | 낮은 우도 |
👉 결론: p = 0.7일 때 우도가 최대! 이 값이 바로 최대우도추정(MLE) 결과입니다.
🏆 최대우도추정(MLE): 가장 말이 되는 답 찾기
💡 MLE의 핵심 아이디어
최대우도추정(MLE)은 간단합니다: 우도함수를 최대화하는 파라미터를 찾는 것!
\(\hat{\theta}_{MLE} = \arg\max_{\theta} L(\theta)\) (읽는 법: “우도를 최대화하는 세타를 찾아라”)
🔍 피자 예시로 MLE 계산해보기
문제: 10개 중 7개가 맛있었을 때, 진짜 맛있을 확률 p는?
1단계: 우도함수 설정 \(L(p) = p^7 \times (1-p)^3\)
2단계: 로그 우도함수 변환 (계산이 쉬워짐) \(\log L(p) = 7\log p + 3\log(1-p)\)
3단계: 미분해서 최대값 찾기 \(\frac{d}{dp} \log L(p) = \frac{7}{p} - \frac{3}{1-p} = 0\)
4단계: 풀면… \(\frac{7}{p} = \frac{3}{1-p} \rightarrow p = 0.7\)
👉 결론: 맛있을 확률은 70%! (직관적으로도 10개 중 7개니까 맞죠?)
🤔 왜 로그를 사용하나요?
이유 | 설명 | 예시 |
---|---|---|
곱셈 → 덧셈 | $\log(a×b) = \log a + \log b$ | 계산이 훨씬 쉬움 |
큰 수 처리 | 매우 작은 확률값들의 곱셈 방지 | 컴퓨터가 계산하기 편함 |
미분 용이 | 로그 미분이 더 간단 | 최적화가 쉬움 |
최댓값 동일 | 로그는 단조증가 함수 | 최댓값 위치가 같음 |
🍕 피자 비유로 다시 보기
앞에서 우도(Likelihood) = “관측한 결과(7조각이 맛있음)가 어떤 셰프·레시피(확률 70% vs 30%) 아래서 얼마나 그럴듯한가?”라고 했죠.
- 셰프 A(70%)일 때 우도 $\mathcal{L}_A = 0.7^{7} \times 0.3^{3}$
- 셰프 B(30%)일 때 우도 $\mathcal{L}_B = 0.3^{7} \times 0.7^{3}$
곱셈이 잔뜩 들어 있어서 숫자가 매우 작아지고 계산도 불편합니다.
💡 로그 우도(Log-Likelihood)의 아이디어
-
로그(log)를 취해 곱을 합으로 바꾼다.
\[\log \mathcal{L}_A = 7\log 0.7 + 3\log 0.3\] -
이렇게 하면
- 언더플로우(0에 가까워지는 문제) 방지
- 미분·최적화가 쉬워짐 → 머신러닝에서 필수
-
실제 학습(최대우도추정, MLE)에서는
- 로그 우도를 최대화 ↔ 음의 로그 우도(= NLL)를 최소화
- 분류기의 크로스 엔트로피 손실 = NLL
우도 $\mathcal{L}$ | 로그 우도 $\log\mathcal{L}$ | |
---|---|---|
계산 형태 | 확률의 곱 | 합으로 단순화 |
수치 크기 | 매우 작아짐 | 적당한 크기로 안정적 |
최적화 | 곱 미분 → 복잡 | 합 미분 → 간단 |
🚀 한 줄 정리
로그 우도는 ‘데이터가 이 모델에서 나올 그럴듯함’을 로그로 변환해 계산을 안정화한 지표입니다. 머신러닝에서는 이 값을 최대화(= NLL 최소화)하며 모델을 학습합니다.
🍦 다른 예시: 아이스크림 판매량
📊 상황
아이스크림 가게에서 하루 판매량을 조사했어요:
- 월요일: 50개
- 화요일: 45개
- 수요일: 55개
- 목요일: 48개
- 금요일: 52개
평균적으로 하루에 몇 개나 팔릴까요?
🔍 MLE로 해결하기
직관적 답: (50+45+55+48+52) ÷ 5 = 50개
MLE 방법:
- 판매량이 평균 μ인 정규분포를 따른다고 가정
- 우도함수를 최대화하는 μ를 찾기
- 결과: μ = 50개 (같은 답!)
🤩 놀라운 사실
많은 경우에 MLE는 우리가 직관적으로 생각하는 답과 같습니다:
상황 | MLE 결과 | 직관적 답 |
---|---|---|
동전 던지기 | 성공 횟수 ÷ 총 횟수 | 성공 횟수 ÷ 총 횟수 |
평균 구하기 | 모든 값의 합 ÷ 개수 | 모든 값의 합 ÷ 개수 |
성공률 추정 | 성공 횟수 ÷ 시도 횟수 | 성공 횟수 ÷ 시도 횟수 |
👉 MLE는 우리의 직관을 수학적으로 뒷받침해주는 도구입니다!
🤓 우도함수의 특별한 성질들
💡 알아두면 좋은 특징들
- 항상 0 이상: 우도는 음수가 될 수 없어요 (확률이니까!)
- 합이 1이 아님: 확률과 달리 모든 우도를 더해도 1이 되지 않아요
- 크기 무관: 우도에 같은 상수를 곱해도 최대값 위치는 같아요
- 로그 변환 OK: 로그를 취해도 최대값 위치는 그대로!
🎯 실제로 어디에 쓰이나요?
우도함수는 생각보다 우리 주변에서 많이 사용되고 있어요:
🤖 인공지능/머신러닝
- ChatGPT 같은 AI 모델 학습
- 이미지 인식, 음성 인식
- 추천 시스템 (넷플릭스, 유튜브 등)
📊 데이터 분석
- A/B 테스트 (어떤 광고가 더 효과적인지)
- 설문조사 결과 분석
- 주식 가격 예측
🏥 의료/생명과학
- 신약 효과 검증
- 유전자 분석
- 질병 진단 시스템
🏢 비즈니스
- 고객 행동 분석
- 매출 예측
- 리스크 관리
🕵️ 탐정으로 이해하는 우도함수
🔍 상황: 범죄 현장 수사
증거들: 지문, DNA, 목격자 증언, CCTV 영상
용의자들: A, B, C 세 명
🤔 두 가지 사고방식
확률적 사고 (원인 → 결과):
- “A가 범인이라면, 이런 증거들이 나타날 확률은?”
- “B가 범인이라면, 이런 증거들이 나타날 확률은?”
우도적 사고 (결과 → 원인):
- “이런 증거들이 발견되었을 때, A가 범인일 우도는?”
- “이런 증거들이 발견되었을 때, B가 범인일 우도는?”
👮♂️ 탐정의 결론 (MLE)
“모든 증거를 종합해보니, C가 범인일 가능성이 가장 높다!”
→ 이게 바로 최대우도추정입니다!
📝 마무리: 우도함수가 중요한 이유
🎯 핵심 메시지
우도함수는 “데이터를 통해 진실을 찾는 도구”입니다.
- 📊 데이터 분석: “이 결과가 나온 진짜 이유는 뭘까?”
- 🤖 AI 학습: “어떤 모델이 이 데이터를 가장 잘 설명할까?”
- 🔬 과학 연구: “어떤 가설이 실험 결과와 가장 일치할까?”
- 💼 비즈니스: “어떤 전략이 이 성과를 가장 잘 설명할까?”
🌟 기억해야 할 핵심 3가지
- 우도 = 그럴듯함: 주어진 데이터에서 특정 모델이 얼마나 말이 되는지
- 확률 ≠ 우도: 뭘 고정하고 뭘 변수로 보는지가 다름
- MLE = 최고의 설명: 우도가 가장 큰 모델이 가장 좋은 설명
🚀 이제 여러분도 데이터 탐정!
우도함수를 이해했다면, 여러분도 데이터 속에서 숨겨진 패턴과 진실을 찾아낼 수 있습니다.
피자 맛부터 AI까지, 우도함수는 우리 주변 어디에나 있어요! 🍕→🤖
💡 한 줄 요약 (다시):
우도 함수는 “이 데이터가 주어진 조건에서 얼마나 말이 되냐?”를 수치로 표현한 것이에요. 그리고 그 답을 통해 우리는 데이터 속 진실을 찾을 수 있답니다! 🎯
Leave a comment