가설 검정 마스터 — p-value·신뢰구간·CLT

2026-05-03•확률과 통계 마스터 노트

확률과 통계 마스터 노트 시리즈 4편. 표본 100개로 모집단 1억 명을 추론할 수 있는 이유 — 중심극한정리부터 신뢰구간·가설 검정·p-value·t-분포·제1종 오류까지. 의료 통계와 A/B 테스트의 핵심 도구를 골프 점수와 다이어트 데이터로 풀어 갑니다.

이 글은 확률과 통계 마스터 노트 시리즈의 네 번째 편입니다. 이번이 아마 가장 무겁고 가장 중요한 편이에요. 의료 임상 시험, A/B 테스트, 여론 조사 — 데이터로 결론을 내리는 모든 자리에 이번 편의 도구가 들어갑니다.

핵심 질문은 단순합니다. 표본 100명을 조사해서 모집단 1억 명에 대해 뭐라고 말할 수 있을까? 답이 가능한 이유가 중심극한정리(CLT)예요. CLT 위에 신뢰구간이, 신뢰구간 위에 가설 검정이 올라갑니다. 이 세 단계를 한 번에 풀어 갑니다.

처음 추론통계가 어렵게 느껴지는 이유

이유는 세 가지예요.

첫째, "표본 분포"라는 개념이 이름부터 헷갈립니다. 표본 = 데이터 100개? 표본 분포 = 그 100개의 분포? 아닙니다. 표본 분포는 "표본을 여러 번 뽑아 매번 평균을 낸 그 평균들의 분포" 입니다. 두 단계 추상이 한꺼번에 들어와서 처음엔 어지러워요.

둘째, p-value의 정의가 직관과 어긋납니다. "p < 0.05면 귀무가설 기각"은 외워도, p-value가 정확히 뭔지 물으면 답이 막혀요. 그리고 90%·95%·99% 신뢰수준 — 도대체 뭘 95% 확신한다는 건지 헷갈립니다.

셋째, 귀무가설(H₀)과 대립가설(H₁)의 방향이 직관과 거꾸로 갑니다. 신약 효과를 증명하려는데 "신약 효과가 없다"를 귀무가설로 두고 그걸 기각하는 방식 — 처음엔 왜 이렇게 돌아가나 싶어요.

해결법은 한 가지입니다. 법정 비유로 잡으세요. 귀무가설 = "피고는 무죄" (기본 가정), 대립가설 = "피고는 유죄" (증명하려는 것). 검사(=데이터)가 합리적 의심을 넘는 증거(p < 0.05)를 제시하면 무죄 가정을 기각합니다. 이 비유 하나면 가설 검정의 모든 함정이 정리돼요.

모집단과 표본 — 기호 다시 정리

1편에서 잡은 표인데 이번 편에서 매 식마다 등장하니 다시 정리합니다.

구분	모집단	표본
정의	연구 대상 전체 집합	모집단의 부분집합
크기	N	n
평균	μ (뮤)	x̄ (엑스바)
분산	σ²	S²
표준편차	σ	S
매개변수 이름	모수(Parameter)	통계량(Statistic)

표본을 뽑는 이유는 단순합니다. 모집단 전체를 조사할 수 없으니까요. 북극곰 100마리를 측정해서 전 세계 북극곰의 평균 키를 추론하는 식이에요.

표본 추출 방법 네 가지

표본을 어떻게 뽑느냐도 결과의 신뢰성을 좌우합니다.

방법	설명
단순 무작위	모집단에서 모두 동등 확률로 선택. 가장 기본
층화 무작위	모집단을 층으로 나눠 각 층에서 무작위. 각 층 특성 반영
집락	자연 발생 집단(학급·동네) 선택 후 그 안 전수 조사
계통	목록에서 k번째마다 선택 (1000명 중 100명 → 10번째마다)

여기서 시험 함정이 하나 있어요. 편의 표본(Convenience Sample) — 길거리에서 만나는 사람 아무나 잡고 설문 하는 방식은 무작위가 아니라 통계적 추론에 못 씁니다. 1936년 미국 대선에서 당시 가장 큰 잡지가 240만 명을 설문했는데도 결과를 틀린 게 이 함정 때문이에요.

표본 평균의 표본 분포 — CLT의 무대

핵심 개념. 표본을 한 번 뽑으면 표본 평균 x̄ 한 개가 나옵니다. 표본을 여러 번 뽑으면 x̄ 여러 개가 모여 분포가 돼요. 이게 표본 평균의 표본 분포.

예시로 풀면 — 모집단 평균 μ = 10이라고 합시다. 크기 n=100인 표본을 100번 뽑으면 x̄₁ = 9.6, x̄₂ = 11.2, x̄₃ = 10.4, … 같은 100개의 평균이 나와요. 이 100개의 분포가 표본 분포입니다.

표본 분포의 특성:

표본 분포의 평균 = 모집단 평균 μ (편향이 없음)
표본 분포의 표준편차 = σ/√n — 이걸 표준오차(Standard Error) 라고 부름

표본 크기 n	표준오차 σ/√n
1	σ
4	σ/2
16	σ/4
100	σ/10

여기서 시험 함정이 하나 있어요. 표본 크기를 4배로 늘려야 표준오차가 절반이 됩니다(√4 = 2). 작은 표본 크기 차이는 정확도에 별 영향이 없고, 진짜 차이를 보려면 표본 크기를 한 자릿수 키워야 해요.

중심극한정리 (CLT) — 모든 추론의 토대

표본 크기 n이 충분히 클 때(보통 n ≥ 30), 모집단의 분포 모양에 관계없이 표본 평균의 분포는 정규분포에 근사한다.

$$\bar{x} \sim N\left(\mu, \frac{\sigma^2}{n}\right)$$

이게 통계학에서 가장 강력한 정리예요. 이유:

모집단이 우편향이든 좌편향이든 이상한 모양이든 상관없음
n만 충분히 크면 표본 평균은 정규분포로 모인다
→ 3편에서 잡은 정규분포 도구(z-점수·경험 법칙) 다 사용 가능

여기서 정말 중요한 시험 함정 — CLT가 말하는 건 "표본 평균의 분포"가 정규라는 거지, "표본 자체"가 정규는 아닙니다. 모집단이 우편향이면 표본도 우편향이에요. 표본 평균만 정규가 됩니다. 이 한 단어 차이로 답이 갈려요.

신뢰구간 — 모수의 추정 범위

신뢰구간(Confidence Interval) 은 모집단 평균이 들어 있을 가능성이 높은 범위예요.

σ를 알 때 — z-분포

$$\bar{x} \pm z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}$$

신뢰수준별 z 값은 외워두면 편해요.

신뢰수준	α	z(α/2)
90%	0.10	1.645
95%	0.05	1.960
99%	0.01	2.576

95% 신뢰수준의 z = 1.96은 가장 많이 등장합니다. 외워두세요.

손으로 풀어 보기

표본 평균 x̄ = 50, σ = 10, n = 100, 95% 신뢰수준.

$$\text{CI} = 50 \pm 1.96 \cdot \frac{10}{\sqrt{100}} = 50 \pm 1.96 \cdot 1 = 50 \pm 1.96$$

→ [48.04, 51.96]

해석: 모집단 평균 μ가 이 구간 안에 있을 거라고 95% 확신.

σ를 모를 때 — t-분포

실무에서는 σ(모집단 표준편차)를 보통 모릅니다. 표본 표준편차 S로 추정하는 거죠. 이때는 z 대신 t-분포를 씁니다.

$$\bar{x} \pm t_{\alpha/2, n-1} \cdot \frac{S}{\sqrt{n}}$$

t-분포는 종 모양인데 정규분포보다 꼬리가 두꺼워요. 자유도(df = n-1)가 클수록 정규분포에 가까워집니다.

조건	사용 분포
σ 알고 정규분포	z
σ 모르고 n ≥ 30	z 또는 t
σ 모르고 n < 30	t

여기서 정말 중요한 시험 함정 — 신뢰구간을 "모수가 이 안에 있을 확률 95%" 라고 해석하면 엄밀히 틀립니다. 모수는 고정값이라 확률이 없어요. 정확한 해석은 "같은 방식으로 표본을 100번 뽑으면 그중 약 95개의 신뢰구간이 모수를 포함" 입니다. 시험 답안에는 "95% 확신"이라는 표현이 통용되지만, 개념 문제에서는 정확한 해석을 묻기도 해요.

오차 범위 (Margin of Error)

$$E = z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}$$

표본 크기 ↑, 신뢰수준 ↓이면 오차 범위가 작아집니다. 여론 조사에서 "오차 범위 ±3%"라고 할 때 그 ±3%가 이 E예요.

비율의 신뢰구간

평균이 아닌 비율(예: 지지율)에는 다른 공식.

$$\hat{p} \pm z_{\alpha/2} \cdot \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$$

여론 조사에서 가장 자주 쓰이는 식입니다.

가설 검정 — 본격적인 추론

가설 두 개

귀무가설(H₀) — "효과 없다·차이 없다." 기본값이자 무효 가정. 대립가설(H₁) — "효과 있다·차이 있다." 증명하려는 주장.

법정 비유: H₀ = 무죄 추정, H₁ = 유죄 입증. 검사(데이터)가 합리적 의심을 넘는 증거(p < α)를 제시하면 무죄 가정 기각.

절차 다섯 단계

가설 설정 — H₀, H₁ 정의
유의수준 선택 — α (보통 0.05)
검정통계량 계산 — z 또는 t
p-value 또는 임계값 비교
결론 — H₀ 기각 여부

검정통계량

σ 알 때 (z-검정): $$z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}}$$

σ 모를 때 (t-검정): $$t = \frac{\bar{x} - \mu_0}{S / \sqrt{n}}, \quad df = n - 1$$

손으로 풀어 봅시다. H₀: μ = 100, x̄ = 106, S = 20, n = 25.

$$t = \frac{106 - 100}{20 / \sqrt{25}} = \frac{6}{20/5} = \frac{6}{4} = 1.5$$

자유도 24의 t-분포에서 t = 1.5에 해당하는 p-value를 표에서 찾고, α(0.05)와 비교해 결론 도출.

p-value — 가장 헷갈리는 한 단어

p-value의 정의: 귀무가설(H₀)이 참이라고 가정할 때, 관측된 검정통계량만큼 극단적이거나 더 극단적인 결과가 나올 확률.

해석:

p-value < α → H₀ 기각 (대립가설 채택)
p-value ≥ α → H₀ 기각 못함 (귀무가설 유지)

여기서 정말 중요한 시험 함정 — p-value는 "H₀가 참일 확률"이 아닙니다. 자주 헷갈리는데, "H₀가 참이라고 가정했을 때 이런 결과가 나올 확률" 입니다. 비슷해 보이지만 완전히 다른 개념이에요. p-value = 0.03이면 "H₀가 참인데도 이만큼 극단적인 결과가 나올 확률 3%"라는 뜻이지, "H₀가 참일 확률 3%"가 아닙니다.

유의수준 α 선택 기준

α	신뢰수준	적용 자리
0.01	99%	의료·약품 (오류가 치명적)
0.05	95%	일반 연구의 표준
0.10	90%	위험 낮은 탐색 연구

두 가지 오류 — 제1·2종

실제 \ 결정	H₀ 기각	H₀ 채택
H₀ 참	제1종 오류 (α)	옳음
H₀ 거짓	옳음	제2종 오류 (β)

제1종 오류 = 무죄인데 유죄 판결 (False Positive). α가 그 확률.
제2종 오류 = 유죄인데 무죄 판결 (False Negative). β가 그 확률.

검정력(Power) = 1 - β = 진짜 효과가 있을 때 그걸 잡아낼 확률.

두 오류는 트레이드오프

α를 작게 하면(예: 0.05 → 0.01) 제1종 오류는 줄지만 제2종 오류 β는 늘어요. 신약 검정에서 효과가 있는데도 못 잡아내는 경우가 늘 수 있다는 뜻. 그래서 의료에서는 검정력 80% 이상을 권장합니다.

여기서 시험 함정이 하나 있어요. "p-value가 큰 = H₀가 참이다" 가 아닙니다. p > α면 단지 H₀를 기각할 증거가 부족할 뿐, H₀가 진짜 참이라는 증명은 아니에요. 표본이 작아서 검정력이 부족했을 수도 있고요.

검정의 방향 — 양측 vs 단측

종류	H₁	기각역 위치
양측	μ ≠ μ₀	양쪽 — α/2씩
우측 단측	μ > μ₀	오른쪽
좌측 단측	μ < μ₀	왼쪽

연구 가설이 "차이가 있다"인지 "X가 Y보다 크다"인지에 따라 결정. 단측이 양측보다 검정력이 강해요(같은 α라도 한쪽에 다 몰아 쓰니까).

두 모집단 비교

독립 표본 t-검정

두 그룹(예: A 약·B 약)의 평균 차이.

$$t = \frac{(\bar{x}_1 - \bar{x}_2) - D_0}{\sqrt{S_1^2/n_1 + S_2^2/n_2}}$$

대응 표본 t-검정

같은 대상 두 번 측정(예: 다이어트 전·후 체중).

$$d_i = x_{1i} - x_{2i}, \quad t = \frac{\bar{d} - 0}{S_d / \sqrt{n}}$$

여기서 시험 함정이 하나 있어요. 다이어트 전·후 같이 짝지어진 데이터에 독립 표본 t-검정을 쓰면 안 됩니다. 같은 사람의 두 측정값은 독립이 아니에요. 대응 표본을 써야 검정력이 살아납니다.

비율 차이 검정

$$z = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\hat{p}(1-\hat{p})\left(\frac{1}{n_1} + \frac{1}{n_2}\right)}}$$

A/B 테스트(웹사이트 전환율 비교)의 핵심 도구.

시험 직전 한 번 더 — 자주 헷갈리는 함정 모음

여기까지가 4편의 핵심입니다. 시험 직전 또는 실무에서 헷갈릴 때 다시 펼쳐 볼 수 있게 압축 노트로 마무리할게요.

모집단 vs 표본 기호 — μ·σ·N (모집단), x̄·S·n (표본)
표본 추출 — 무작위·층화·집락·계통 (편의 표본 X)
표본 분포 = 표본 평균들의 분포 (표본 자체 분포 아님)
표준오차 SE = σ/√n — n 4배 늘려야 SE 절반
CLT — n ≥ 30이면 모집단 분포와 무관하게 표본 평균이 정규
CLT가 말하는 건 표본 평균의 분포, 표본 자체 분포 아님
z = 1.96 = 95% 신뢰수준 (외울 것)
신뢰구간 x̄ ± z·σ/√n (σ 알 때) / x̄ ± t·S/√n (σ 모를 때)
t-분포 — σ 모르고 n < 30일 때, df = n-1
신뢰구간 해석 — "100번 뽑으면 95개가 모수 포함" (모수가 95% 확률은 X)
오차 범위 E = z·σ/√n
귀무가설 H₀ = 효과 없다 (기본 가정), 대립가설 H₁ = 효과 있다
가설 검정 = 법정 비유 — H₀ 무죄 추정, p < α면 합리적 의심 넘음
검정통계량 — z = (x̄-μ₀) / (σ/√n) 또는 t = (x̄-μ₀) / (S/√n)
p-value = H₀ 가정 시 이런 결과가 나올 확률
p-value가 H₀가 참일 확률 X — 가장 자주 틀리는 정의
p < α → H₀ 기각 / p ≥ α → H₀ 기각 못함 (참이라는 증명 아님)
유의수준 — 의료 0.01 / 일반 0.05 / 탐색 0.10
제1종 오류 = α = 무죄인데 유죄 (False Positive)
제2종 오류 = β = 유죄인데 무죄 (False Negative)
검정력 = 1 - β — 진짜 효과를 잡을 확률 (보통 80% 이상 권장)
α↓ → β↑ (트레이드오프)
양측 vs 단측 — 단측이 검정력 강함 (한쪽에 α 몰아 씀)
대응 표본 = 같은 대상 전·후 (독립 t로 풀면 검정력 손실)
A/B 테스트 = 비율 차이 z-검정

시리즈 다른 편

같은 시리즈의 다른 글들도 같은 톤으로 묶어 정리되어 있어요. 4편이 가장 무거웠지만 5·6편은 한결 가볍습니다. 회귀와 카이제곱은 4편의 도구를 응용하는 자리예요.

공식 문서: Khan Academy 추론통계 강좌에 신뢰구간·가설 검정 연습 문제가 풍부합니다.

다음 글(5편)에서는 두 변수 사이 관계를 다루는 상관관계와 회귀 — 피어슨 r·최소제곱법·잔차 분석을 풀어 갑니다.

※ 이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.