확률과 통계 마스터 노트 시리즈 3편. 이산과 연속을 가르는 자리, BINS 조건으로 잡는 이항 분포, 매장 방문객 수 모델링하는 포아송, 자연계의 거의 모든 데이터가 따른다는 정규분포의 68-95-99.7 룰까지 — 다섯 가지 분포가 각자 빛나는 자리를 손으로 풀어 갑니다.
이 글은 확률과 통계 마스터 노트 시리즈의 세 번째 편입니다. 2편(확률 기초)에서 확률의 기본 도구를 다 잡았다면, 이번엔 그 도구를 분포(Distribution) 라는 모양으로 묶는 시간이에요. 확률 분포는 "확률 변수가 어떤 값을 어떤 확률로 가지는가"를 한 그림에 정리한 것입니다.
자연계의 데이터는 다섯 가지 분포로 거의 다 모델링돼요. 이항·정규·포아송·기하·베르누이. 각자가 어떤 자리에서 등장하는지를 한 번 묶어 두면, 4편 추론통계부터 끝까지 같은 도구가 반복돼서 학습 부담이 확 줄어듭니다.
처음 분포가 어렵게 느껴지는 이유
이유는 두 가지예요.
첫째, 다섯 가지가 다 비슷해 보입니다. 이름·기호·공식이 닮았어요. 그런데 BINS 조건·포아송 조건·정규분포 가정이 미묘하게 달라서 "이 문제는 어떤 분포지?"가 첫 단계에서 막혀요.
둘째, 공식이 길고 무서워 보입니다. 이항 공식의 조합 부호 C(n,k), 포아송 공식의 e의 -λ제곱 — 처음 보면 외계어 같아요. 사실 의미는 단순한데 표기가 위협적이라 학습 의욕이 꺾이기 쉽습니다.
해결법은 한 가지예요. 각 분포를 "이 분포가 답하는 한 줄짜리 질문" 으로 줄이는 것. 베르누이 = "1번 시도, 성공 확률 p?", 이항 = "n번 중 k번 성공할 확률?", 기하 = "첫 성공까지 몇 번?", 포아송 = "한 시간에 N건 일어날 확률?", 정규 = "자연계 데이터의 디폴트 모양". 이 질문 다섯 줄만 외워도 첫 단계가 안 막혀요.
이산 vs 연속 — 분포의 첫 갈림길
확률 변수는 두 종류입니다.
| 종류 | 정의 | 예시 |
|---|---|---|
| 이산(Discrete) | 셀 수 있는 값. 결과를 목록으로 나열 가능 | 주사위 눈, 동전 결과, 5번 시도 중 성공 횟수 |
| 연속(Continuous) | 무한히 많은 값. 나열 불가 | 키, 시간, 무게, 온도 |
이산은 "값 하나하나에 확률"이 붙어요. 주사위 1·2·3·4·5·6 각각이 1/6 확률. 연속은 다릅니다 — 특정 한 값의 확률은 0이에요. 키가 정확히 175.000000... cm일 확률은 무한히 작아 0으로 봐요. 대신 "170cm와 180cm 사이일 확률"처럼 구간으로 묻습니다.
여기서 시험 함정이 하나 있어요. 연속 분포에서 P(X = 175) = 0 이라는 사실이 직관과 어긋나는데, 시험에 자주 나옵니다. 연속에서는 항상 구간으로 묻는다고 외우세요.
이산 확률 변수의 기본 — 분포표·기댓값·분산
이산 확률 변수의 분포는 표로 정리합니다.
| x | 1 | 2 | 3 | 4 | 5 | 6 |
|---|---|---|---|---|---|---|
| P(x) | 1/6 | 1/6 | 1/6 | 1/6 | 1/6 | 1/6 |
기본 규칙 두 줄:
- 모든 P(x)는 0 이상 1 이하
- 모든 P(x)의 합은 1
기댓값(Expected Value, 평균)은 1편에서 본 평균과 같은 개념이에요. 단, 각 값에 확률 가중치를 곱해서 더합니다.
$$E(X) = \mu = \sum x \cdot P(x)$$
주사위로 풀어 봅니다.
$$E(X) = 1 \cdot \frac{1}{6} + 2 \cdot \frac{1}{6} + \cdots + 6 \cdot \frac{1}{6} = \frac{21}{6} = 3.5$$
주사위를 한 번 굴려 3.5가 나오진 않지만, 무한히 굴리면 평균이 3.5에 수렴해요(2편 대수의 법칙).
분산도 비슷합니다.
$$\sigma^2 = \sum (x - \mu)^2 \cdot P(x)$$
표준편차는 분산의 제곱근.
베르누이 분포 — 가장 단순한 분포
1번 시도, 성공(1) 또는 실패(0) 만 있는 가장 단순한 분포. 이항 분포의 n=1 특수 경우예요.
$$P(X = 1) = p, \quad P(X = 0) = 1-p$$
평균 E(X) = p, 분산 Var(X) = p(1-p).
자유투 한 번 — 성공률 80%인 선수가 한 번 던지는 게 베르누이. P(성공) = 0.8.
베르누이 자체로는 너무 단순해서 잘 안 등장하지만, 이항 분포의 빌딩 블록이라 정의를 알아 둬야 합니다.
이항 분포 — BINS 조건의 분포
n번의 시도 중 k번 성공할 확률을 말하는 분포. 가장 자주 쓰이는 이산 분포예요.
BINS 조건 — 외워두는 게 시간 절약
이항 분포는 다음 4가지 조건을 모두 만족해야 적용 가능.
- Binary outcomes — 결과가 정확히 두 가지(성공/실패)
- Independent trials — 각 시도가 독립
- Number of trials fixed — 시도 횟수 n이 고정
- Same probability — 매번 성공 확률 p가 동일
가방에서 빨강(1/3)·녹색(2/3) 구슬을 5번 뽑되 매번 다시 넣는다고 합시다(복원 추출).
- 빨강/녹색 두 결과 ✓
- 매번 다시 넣으니 독립 ✓
- 5번 고정 ✓
- 매번 P(빨강) = 1/3 ✓
→ 이항 분포 적용 가능.
이항 확률 공식
$$P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}$$
용어:
- n: 시도 횟수
- k: 성공 횟수
- p: 성공 확률
- C(n, k) = n! / (k!(n-k)!): 이항 계수
평균 μ = np, 표준편차 σ = √(np(1-p)).
손으로 풀어 보기 — 빨간 구슬 5번 중 3번
5번 시도, p = 1/3, 빨강 3번 나올 확률.
$$\binom{5}{3} = \frac{5!}{3! \cdot 2!} = 10$$
$$P(X=3) = 10 \cdot \left(\frac{1}{3}\right)^3 \cdot \left(\frac{2}{3}\right)^2 = 10 \cdot \frac{1}{27} \cdot \frac{4}{9} = \frac{40}{243} \approx 16.5%$$
여기서 시험 함정이 하나 있어요. 비복원 추출은 이항이 아닙니다. 카드를 안 돌려놓고 5번 뽑으면 매번 P가 바뀌니 BINS의 S(Same probability)와 I(Independent)를 동시에 위반해요. 이런 자리는 다른 분포(초기하 분포)나 조건부 확률로 풀어야 합니다.
기하 분포 — 첫 성공까지 몇 번?
첫 성공이 나올 때까지의 시도 횟수에 대한 분포.
$$P(X = k) = (1-p)^{k-1} \cdot p$$
평균 E(X) = 1/p.
성공률 20%인 게임에서 첫 승리까지 평균 몇 번? 1/0.2 = 5번.
직관 한 줄. 성공률 p의 역수가 평균 시도 횟수라는 단순한 사실이 거의 모든 기하 분포 문제의 출발점입니다. 성공률 1%면 평균 100번, 성공률 50%면 평균 2번 — 이게 전부.
포아송 분포 — 시간·공간당 사건 횟수
일정 시간·공간에서 사건이 몇 번 일어날까에 대한 분포. 매장 방문객 수, 시간당 콜센터 전화 수, 책 한 권의 오타 수 — 이런 자리에 다 적용됩니다.
포아송이 적용되는 자리
- 일정 시간·거리·면적 동안의 사건 발생 횟수 측정
- 모든 구간에서 평균 발생률이 동일
- 사건들이 독립적
- 매우 짧은 단위 구간에서 두 사건이 동시에 일어나기 어려움
포아송 공식
$$P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}$$
용어:
- λ (람다): 단위 구간당 평균 발생 횟수
- k: 실제 발생 횟수
- e: 자연상수 ≈ 2.71828
평균 E(X) = λ, 분산 Var(X) = λ. 둘이 같은 게 포아송 분포의 정체성이에요.
손으로 풀어 보기 — 매장 방문객
매장에 시간당 평균 4명 방문(λ=4). 다음 1시간에 정확히 2명 방문할 확률은?
$$P(X=2) = \frac{4^2 \cdot e^{-4}}{2!} = \frac{16 \cdot 0.01832}{2} \approx 14.7%$$
여기서 시험 함정이 하나 있어요. 포아송과 이항이 헷갈리는 자리 — 시도 횟수 n이 매우 크고 성공 확률 p가 매우 작을 때(예: n=1000, p=0.001) 포아송은 이항의 근사예요. λ = np로 두면 거의 같은 결과가 나옵니다. 큰 n과 작은 p 환경(예: 희귀병 발생률, 책 오타 수)이면 포아송이 계산이 훨씬 빠릅니다.
정규 분포 — 자연계의 디폴트 모양
자연계 데이터의 80% 이상이 따른다는 그 분포. 키·몸무게·시험 점수·측정 오차 — 거의 다 정규 분포로 모델링돼요.
특징
- 좌우 대칭, 종 모양(Bell-shaped)
- 평균 = 중앙값 = 최빈값 (모두 한가운데)
- 곡선 아래 전체 면적 = 1 (=100%)
- 평균 기준 좌우 각 50%씩
경험 법칙 — 68-95-99.7
정규 분포에서만 적용되는 황금 법칙이에요.
| 범위 | 포함 비율 |
|---|---|
| μ ± 1σ | 68% |
| μ ± 2σ | 95% |
| μ ± 3σ | 99.7% |
평균 100, 표준편차 15인 IQ 분포로 풀어 봅니다.
- 85~115 (μ ± 1σ) 안에 인구의 68%
- 70~130 (μ ± 2σ) 안에 인구의 95%
- 55~145 (μ ± 3σ) 안에 인구의 99.7%
3σ 밖은 약 0.3%니까 IQ 145 이상은 인구의 0.13% 정도. 멘사 가입 기준이 상위 2%(약 IQ 130)인 것도 이 분포에서 나오는 숫자예요.
여기서 정말 중요한 시험 함정 — 경험 법칙은 정규분포에만 적용됩니다. 우편향·좌편향이거나 t-분포에는 안 통해요. 분포 모양을 먼저 확인해야 합니다.
z-점수와 표준 정규 분포
1편에서 잡았던 z-점수가 여기서 진가를 발휘합니다.
$$z = \frac{x - \mu}{\sigma}$$
z-점수로 변환하면 어떤 정규 분포든 평균 0·표준편차 1의 표준 정규 분포 N(0, 1) 로 옮겨집니다. 그러면 표준 정규분포표(z-table) 한 장으로 모든 정규 분포 확률을 계산할 수 있어요.
- P(X < x) = Φ(z) — 누적 확률, 표에서 직접 읽음
- P(X > x) = 1 - Φ(z)
- P(a < X < b) = Φ(zᵦ) - Φ(zₐ)
IQ 130 이상의 비율을 구하려면 z = (130-100)/15 = 2 → 표에서 Φ(2) ≈ 0.9772 → P(IQ > 130) = 1 - 0.9772 ≈ 2.28%. 멘사 가입 기준 상위 2%와 맞아떨어집니다.
z = 2면 상위 2.5% (정확히는 2.28%, 경험 법칙 95%의 절반) — 이 한 숫자만 외워두면 정규분포 문제 절반은 즉답 가능해요. z=1 → 상위 16%, z=2 → 상위 2.5%, z=3 → 상위 0.15%.
확률 변수의 결합 — 더하고 곱할 때
두 확률 변수 X, Y가 있을 때 합·곱·상수 변환이 평균·분산에 어떤 영향을 주는지 정리합니다.
독립일 때의 합
$$E(X + Y) = E(X) + E(Y)$$
$$\text{Var}(X + Y) = \text{Var}(X) + \text{Var}(Y) \quad \text{(독립일 때만)}$$
평균은 항상 더해지지만 분산은 독립일 때만 더해져요. 종속이면 공분산 항이 추가됩니다(아래 9번 항목).
상수 변환
| 연산 | 평균 | 분산 |
|---|---|---|
| X + c | E(X) + c | Var(X) — 불변 |
| cX | c·E(X) | c²·Var(X) |
여기서 1편에서 본 시프팅·스케일링과 같은 결과가 나옵니다 — 위치(평균)은 시프팅에 따라가고, 퍼짐(분산)은 시프팅에 안 움직이고 스케일링에는 c²로 반응.
공분산 — 두 변수가 함께 움직이는 정도
$$\text{Cov}(X, Y) = E[(X - \mu_X)(Y - \mu_Y)]$$
- Cov > 0: X 증가 시 Y도 증가 경향
- Cov < 0: X 증가 시 Y는 감소 경향
- Cov = 0: 선형 관계 없음
여기서 시험 함정이 하나 있어요. 독립이면 Cov = 0이지만, Cov = 0이라고 독립인 건 아닙니다. 비선형 관계(예: Y = X²)면 Cov가 0인데 둘은 분명히 종속이에요. 5편(상관·회귀)에서 이 함정이 다시 등장합니다.
다섯 분포 한눈에 비교
| 분포 | 적용 자리 | 모수 | 평균 | 분산 |
|---|---|---|---|---|
| 베르누이 | 1번 시도, 성공/실패 | p | p | p(1-p) |
| 이항 | n번 독립 시도, 성공 횟수 | n, p | np | np(1-p) |
| 기하 | 첫 성공까지 시도 횟수 | p | 1/p | (1-p)/p² |
| 포아송 | 단위 시간·공간의 사건 횟수 | λ | λ | λ |
| 정규 | 연속, 자연계 디폴트 | μ, σ | μ | σ² |
시험 직전 한 번 더 — 자주 헷갈리는 함정 모음
여기까지가 3편의 핵심입니다. 시험 직전 또는 실무에서 헷갈릴 때 다시 펼쳐 볼 수 있게 압축 노트로 마무리할게요.
- 이산 vs 연속 — 이산은 점확률, 연속은 구간 확률(점 = 0)
- 이산 확률 합 = 1, 모든 P(x) ≥ 0
- 기댓값 E(X) = Σ x·P(x) — 가중 평균
- 베르누이 = 1번 시도. E = p, Var = p(1-p)
- 이항 = n번 시도 중 k번 성공. BINS 조건(Binary·Independent·N-fixed·Same-p)
- 이항 공식 P(X=k) = C(n,k)·pᵏ·(1-p)^(n-k)
- 이항 평균 = np, 표준편차 = √(np(1-p))
- 비복원 추출은 이항 아님 (BINS의 I·S 위반)
- 기하 = 첫 성공까지 시도 횟수. 평균 = 1/p
- 포아송 = 단위 시간·공간 사건 횟수. λ = 평균 = 분산
- 포아송 공식 P(X=k) = λᵏ·e^(-λ) / k!
- n 크고 p 작을 때 포아송 ≈ 이항 (λ = np 대입)
- 정규분포 — 좌우 대칭, 평균 = 중앙값 = 최빈값
- 경험 법칙 68-95-99.7 — 정규분포에만!
- z = (x - μ) / σ — 표준 정규로 옮기는 도구
- z = 1 → 상위 16%, z = 2 → 상위 2.5%, z = 3 → 상위 0.15%
- 표준 정규분포표(z-table)로 모든 정규 확률 계산
- 합의 평균은 항상 더해진다 (E(X+Y) = E(X) + E(Y))
- 분산의 합은 독립일 때만 단순 덧셈
- 상수 더하기 → 분산 불변, 상수 곱하기 → 분산 c²배
- 독립이면 Cov = 0, 역은 거짓 (비선형 종속이면 Cov = 0이지만 종속)
시리즈 다른 편
같은 시리즈의 다른 글들도 같은 톤으로 묶어 정리되어 있어요. 이번 편의 정규분포·z-점수 감각이 다음 편 가설 검정·신뢰구간의 토대가 됩니다.
- 1편 — 기술통계 (평균·중앙값·분산)
- 2편 — 확률 기초 (조건부·독립·베이즈)
- 3편 — 확률 분포 (현재 글)
- 4편 — 가설 검정 (p-value·신뢰구간·CLT)
- 5편 — 회귀분석 (상관계수와 회귀선)
- 6편 — 고급 주제 (카이제곱·ANOVA·비모수)
공식 문서: Khan Academy 확률 분포 강좌에서 분포별 시뮬레이션을 직접 굴려 볼 수 있어요.
다음 글(4편)에서는 추론통계의 핵심 — 표본 분포·중심극한정리·신뢰구간·가설 검정·p-value를 풀어 갑니다. 이번 편의 정규분포가 거기서 다시 무대에 오릅니다.