우도함수(Likelihood Function) 쉽게 이해하기: 피자 맛 테스트로 배우는 통계학

우도함수(Likelihood Function) 쉽게 이해하기

한 줄 요약:
우도 함수는 “이 데이터가 주어진 조건(모델/파라미터)에서 얼마나 말이 되냐?”를 수치로 표현한 것이에요.

🍕 피자 맛 테스트로 배우는 우도함수

상황

당신이 피자를 10조각 먹었는데, 7조각이 아주 맛있었어요.

지금 두 가지 셰프가 있어요:

셰프 A: “내 피자는 70% 확률로 맛있어.”
셰프 B: “난 30% 확률이야.”

질문

이 7개의 맛있는 피자 결과가 셰프 A 때문인지 B 때문인지 어떻게 판단할까요?

👉 각 셰프의 주장(확률)에 따라, 이런 결과(7개가 맛있는 것)이 얼마나 가능성이 있는지 계산해보는 게 바로 우도(Likelihood)입니다.

🧠 수학적으로 표현해보면

관측된 데이터: 맛있는 피자 7개, 맛없는 3개 → 총 10개

셰프 A가 맞다고 가정하면 (확률 = 0.7): $L_A = 0.7^7 \times 0.3^3 = 0.0022 \text{ (그럴듯한 정도)}$

셰프 B일 경우 (확률 = 0.3): $L_B = 0.3^7 \times 0.7^3 = 0.0000075 \text{ (그럴듯한 정도)}$

👉 이 중 우도가 더 큰 셰프 A가 실제로 더 말이 되는 모델이겠죠?

📌 우도 vs 확률의 차이

구분	확률 (Probability)	우도 (Likelihood)
뭘 알고 있음?	모델(파라미터)	관측된 데이터
뭘 알고 싶음?	데이터의 확률	모델(파라미터)의 적합도
예시	“이 모델에서 7개가 맛있을 확률은?”	“7개가 맛있었는데, 어떤 모델이 제일 말이 됨?”

📝 우도함수의 정의

우도함수(Likelihood Function)는 관측된 데이터가 주어졌을 때, 특정 모수(parameter)가 얼마나 그럴듯한지를 나타내는 함수입니다.

🎯 핵심 정의

주어진 데이터 $x_1, x_2, \ldots, x_n$에 대해 모수 $\theta$의 우도함수는:

\[L(\theta) = L(\theta | x_1, x_2, \ldots, x_n) = \prod_{i=1}^n f(x_i | \theta)\]

변수 설명:

우도함수: $L(\theta)$ - 모수 $\theta$에 대한 우도함수

확률함수: $f(x_i

\theta)$ - 모수 $\theta$가 주어졌을 때 $x_i$의 확률밀도함수 또는 확률질량함수

곱 기호: $\prod$ - 곱(product) 기호

🔍 핵심 아이디어:

데이터는 고정되어 있음
모수 $\theta$는 변수
“이 데이터가 관측될 때, 어떤 $\theta$ 값이 가장 그럴듯한가?”

💡 우도함수의 핵심 개념 정리

🔍 우도함수는 이런 것들을 해결해줍니다:

데이터는 고정하고, 모델의 파라미터를 바꿔가며 그 “그럴듯함”을 비교합니다.
가장 우도가 큰 파라미터를 찾는 게 바로 최대우도추정(MLE)입니다.
확률과 달리 우도는 1을 넘을 수도 있고, 합이 1이 될 필요도 없습니다.

🤝 다른 예시: 동전 던지기

상황: 동전을 10번 던져서 7번 앞면이 나왔어요.

확률적 사고 (모수 → 데이터):

“앞면 확률이 0.5인 동전에서 7번 앞면이 나올 확률은?”
답: $P(\text{7번 앞면} \text{확률=0.5}) = \binom{10}{7} \times 0.5^{10} = 0.117$

우도적 사고 (데이터 → 모수):

“7번 앞면이 나왔는데, 이 동전의 앞면 확률이 0.7일 가능성은?”
답: $L(\text{확률=0.7} \text{7번 앞면}) = \binom{10}{7} \times 0.7^7 \times 0.3^3 = 0.267$

🎯 핵심 차이점

구분	확률	우도
뭘 알고 있나?	모델 파라미터	관측된 데이터
뭘 구하나?	데이터가 나올 확률	파라미터의 적합도
방향	원인 → 결과	결과 → 원인
질문	“이 조건에서 이런 결과가 나올까?”	“이런 결과가 나왔으니 어떤 조건이 맞을까?”

🎯 우도함수로 최적의 파라미터 찾기

📊 피자 예시 계속…

앞서 피자 예시에서 셰프 A(70%)와 B(30%)를 비교했죠. 하지만 실제로는 모든 가능한 확률값(0%~100%)을 비교해야 합니다.

우도 함수를 그래프로 그려보면:

관측 데이터: 10개 중 7개 맛있음
우도 함수: L(p) = p^7 × (1-p)^3

확률 p	우도 L(p)	해석
0.1	0.0000001	거의 불가능
0.3	0.000007	낮은 우도
0.5	0.0008	보통 우도
0.7	0.0022	최대 우도 ⭐
0.9	0.0004	낮은 우도

👉 결론: p = 0.7일 때 우도가 최대! 이 값이 바로 최대우도추정(MLE) 결과입니다.

🏆 최대우도추정(MLE): 가장 말이 되는 답 찾기

💡 MLE의 핵심 아이디어

최대우도추정(MLE)은 간단합니다: 우도함수를 최대화하는 파라미터를 찾는 것!

$\hat{\theta}_{MLE} = \arg\max_{\theta} L(\theta)$ (읽는 법: “우도를 최대화하는 세타를 찾아라”)

🔍 피자 예시로 MLE 계산해보기

문제: 10개 중 7개가 맛있었을 때, 진짜 맛있을 확률 p는?

1단계: 우도함수 설정 $L(p) = p^7 \times (1-p)^3$

2단계: 로그 우도함수 변환 (계산이 쉬워짐) $\log L(p) = 7\log p + 3\log(1-p)$

3단계: 미분해서 최대값 찾기 $\frac{d}{dp} \log L(p) = \frac{7}{p} - \frac{3}{1-p} = 0$

4단계: 풀면… $\frac{7}{p} = \frac{3}{1-p} \rightarrow p = 0.7$

👉 결론: 맛있을 확률은 70%! (직관적으로도 10개 중 7개니까 맞죠?)

🤔 왜 로그를 사용하나요?

이유	설명	예시
곱셈 → 덧셈	$\log(a×b) = \log a + \log b$	계산이 훨씬 쉬움
큰 수 처리	매우 작은 확률값들의 곱셈 방지	컴퓨터가 계산하기 편함
미분 용이	로그 미분이 더 간단	최적화가 쉬움
최댓값 동일	로그는 단조증가 함수	최댓값 위치가 같음

🍕 피자 비유로 다시 보기

앞에서 우도(Likelihood) = “관측한 결과(7조각이 맛있음)가 어떤 셰프·레시피(확률 70% vs 30%) 아래서 얼마나 그럴듯한가?”라고 했죠.

셰프 A(70%)일 때 우도 $\mathcal{L}_A = 0.7^{7} \times 0.3^{3}$
셰프 B(30%)일 때 우도 $\mathcal{L}_B = 0.3^{7} \times 0.7^{3}$

곱셈이 잔뜩 들어 있어서 숫자가 매우 작아지고 계산도 불편합니다.

💡 로그 우도(Log-Likelihood)의 아이디어

로그(log)를 취해 곱을 합으로 바꾼다.
\[\log \mathcal{L}_A = 7\log 0.7 + 3\log 0.3\]
이렇게 하면
- 언더플로우(0에 가까워지는 문제) 방지
- 미분·최적화가 쉬워짐 → 머신러닝에서 필수
실제 학습(최대우도추정, MLE)에서는
- 로그 우도를 최대화 ↔ 음의 로그 우도(= NLL)를 최소화
- 분류기의 크로스 엔트로피 손실 = NLL

	우도 $\mathcal{L}$	로그 우도 $\log\mathcal{L}$
계산 형태	확률의 곱	합으로 단순화
수치 크기	매우 작아짐	적당한 크기로 안정적
최적화	곱 미분 → 복잡	합 미분 → 간단

🚀 한 줄 정리

로그 우도는 ‘데이터가 이 모델에서 나올 그럴듯함’을 로그로 변환해 계산을 안정화한 지표입니다. 머신러닝에서는 이 값을 최대화(= NLL 최소화)하며 모델을 학습합니다.

🍦 다른 예시: 아이스크림 판매량

📊 상황

아이스크림 가게에서 하루 판매량을 조사했어요:

월요일: 50개
화요일: 45개
수요일: 55개
목요일: 48개
금요일: 52개

평균적으로 하루에 몇 개나 팔릴까요?

🔍 MLE로 해결하기

직관적 답: (50+45+55+48+52) ÷ 5 = 50개

MLE 방법:

판매량이 평균 μ인 정규분포를 따른다고 가정
우도함수를 최대화하는 μ를 찾기
결과: μ = 50개 (같은 답!)

🤩 놀라운 사실

많은 경우에 MLE는 우리가 직관적으로 생각하는 답과 같습니다:

상황	MLE 결과	직관적 답
동전 던지기	성공 횟수 ÷ 총 횟수	성공 횟수 ÷ 총 횟수
평균 구하기	모든 값의 합 ÷ 개수	모든 값의 합 ÷ 개수
성공률 추정	성공 횟수 ÷ 시도 횟수	성공 횟수 ÷ 시도 횟수

👉 MLE는 우리의 직관을 수학적으로 뒷받침해주는 도구입니다!

🤓 우도함수의 특별한 성질들

💡 알아두면 좋은 특징들

항상 0 이상: 우도는 음수가 될 수 없어요 (확률이니까!)
합이 1이 아님: 확률과 달리 모든 우도를 더해도 1이 되지 않아요
크기 무관: 우도에 같은 상수를 곱해도 최대값 위치는 같아요
로그 변환 OK: 로그를 취해도 최대값 위치는 그대로!

🎯 실제로 어디에 쓰이나요?

우도함수는 생각보다 우리 주변에서 많이 사용되고 있어요:

🤖 인공지능/머신러닝

ChatGPT 같은 AI 모델 학습
이미지 인식, 음성 인식
추천 시스템 (넷플릭스, 유튜브 등)

📊 데이터 분석

A/B 테스트 (어떤 광고가 더 효과적인지)
설문조사 결과 분석
주식 가격 예측

🏥 의료/생명과학

신약 효과 검증
유전자 분석
질병 진단 시스템

🏢 비즈니스

고객 행동 분석
매출 예측
리스크 관리

🕵️ 탐정으로 이해하는 우도함수

🔍 상황: 범죄 현장 수사

증거들: 지문, DNA, 목격자 증언, CCTV 영상

용의자들: A, B, C 세 명

🤔 두 가지 사고방식

확률적 사고 (원인 → 결과):

“A가 범인이라면, 이런 증거들이 나타날 확률은?”
“B가 범인이라면, 이런 증거들이 나타날 확률은?”

우도적 사고 (결과 → 원인):

“이런 증거들이 발견되었을 때, A가 범인일 우도는?”
“이런 증거들이 발견되었을 때, B가 범인일 우도는?”

👮‍♂️ 탐정의 결론 (MLE)

“모든 증거를 종합해보니, C가 범인일 가능성이 가장 높다!”

→ 이게 바로 최대우도추정입니다!

📝 마무리: 우도함수가 중요한 이유

🎯 핵심 메시지

우도함수는 “데이터를 통해 진실을 찾는 도구”입니다.

📊 데이터 분석: “이 결과가 나온 진짜 이유는 뭘까?”
🤖 AI 학습: “어떤 모델이 이 데이터를 가장 잘 설명할까?”
🔬 과학 연구: “어떤 가설이 실험 결과와 가장 일치할까?”
💼 비즈니스: “어떤 전략이 이 성과를 가장 잘 설명할까?”

🌟 기억해야 할 핵심 3가지

우도 = 그럴듯함: 주어진 데이터에서 특정 모델이 얼마나 말이 되는지
확률 ≠ 우도: 뭘 고정하고 뭘 변수로 보는지가 다름
MLE = 최고의 설명: 우도가 가장 큰 모델이 가장 좋은 설명

🚀 이제 여러분도 데이터 탐정!

우도함수를 이해했다면, 여러분도 데이터 속에서 숨겨진 패턴과 진실을 찾아낼 수 있습니다.

피자 맛부터 AI까지, 우도함수는 우리 주변 어디에나 있어요! 🍕→🤖

💡 한 줄 요약 (다시):
우도 함수는 “이 데이터가 주어진 조건에서 얼마나 말이 되냐?”를 수치로 표현한 것이에요. 그리고 그 답을 통해 우리는 데이터 속 진실을 찾을 수 있답니다! 🎯

Share on

Twitter Facebook LinkedIn