ANOVA & 카이제곱 — 고급 통계 마스터

2026-05-03•확률과 통계 마스터 노트

확률과 통계 마스터 노트 시리즈 6편(완결). 세 그룹 이상의 평균 비교가 왜 t-검정 여러 번이 아니라 ANOVA로 가야 하는지, 범주형 데이터의 카이제곱 세 갈래(동질성·독립성·적합도), 정규성 가정 없이 쓰는 비모수 통계, 그리고 통계적 유의성 옆에 항상 따라야 할 효과 크기까지.

이 글은 확률과 통계 마스터 노트 시리즈의 마지막 편이자 여섯 번째 편입니다. 4편에서 잡은 가설 검정의 도구를 세 그룹 이상의 비교(ANOVA), 범주형 데이터(카이제곱), 정규성 가정이 어려운 자리(비모수) 로 확장하는 자리예요. 그리고 통계적 유의성만으로는 부족한 이유 — 효과 크기와 검정력 분석으로 마무리.

이 편이 끝나면 의료 통계·심리 측정·시장 조사 데이터 분석에서 마주치는 거의 모든 표준 검정을 이해할 수 있어요.

처음 고급 통계가 어렵게 느껴지는 이유

이유는 두 가지예요.

첫째, 카이제곱이 세 갈래로 갈라집니다. 동질성·독립성·적합도 — 이름이 비슷비슷하고 계산식도 똑같아서 어떤 자리에 어떤 검정인지 구분이 쉽지 않아요.

둘째, ANOVA의 F-통계량이 직관적이지 않습니다. "그룹 간 분산을 그룹 내 분산으로 나눈다"는 건 이해해도 그게 왜 그룹 간 차이를 잡아내는지가 한 번에 안 들어와요.

해결법은 두 가지. 카이제곱은 표본 개수와 목적으로 구분하세요. 여러 표본의 분포 비교 = 동질성, 한 표본의 두 변수 관계 = 독립성, 한 표본이 특정 분포를 따르는지 = 적합도. F-통계량은 신호 대 잡음비 로 잡으면 직관이 옵니다. 그룹 간 차이(신호) ÷ 그룹 내 변동(잡음). 신호가 잡음보다 크면 진짜 차이가 있다는 뜻이에요.

카이제곱 검정 — 범주형 데이터의 도구

이전까지 다룬 t-검정·z-검정은 모두 양적 데이터(평균)를 대상으로 했어요. 카이제곱은 범주형 데이터(빈도) 검정의 대표 도구입니다.

적용 조건 세 가지

무작위 표본 추출
기댓값이 모든 셀에서 5 이상
표본 크기가 모집단의 10% 이하 (독립 조건)

카이제곱 통계량

$$\chi^2 = \sum \frac{(O - E)^2}{E}$$

O: 관측 빈도 (Observed)
E: 기댓값 빈도 (Expected)

직관 한 줄. 관측값이 기댓값에서 얼마나 멀리 떨어졌는가를 모든 셀에서 더한 값. 멀어질수록 χ²가 커지고, 어느 임계값을 넘으면 "분포가 다르다"고 결론.

카이제곱 동질성 검정 — 여러 그룹의 분포 비교

서로 다른 그룹들이 어떤 범주형 변수에서 같은 분포를 가지는지 검정.

H₀: 두 그룹의 분포가 동일하다
H₁: 두 그룹의 분포가 동일하지 않다

30대 vs 40대 스포츠 선호도 예시

	야구	축구	농구	합계
30대	60	90	100	250
40대	80	70	100	250
합계	140	160	200	500

기댓값 공식:

$$E_{ij} = \frac{(\text{행 합계}) \cdot (\text{열 합계})}{\text{전체 합계}}$$

(30대, 야구)의 기댓값 = (250 × 140) / 500 = 70.

(30대, 야구)의 χ² 기여 = (60 - 70)² / 70 = 100/70 ≈ 1.43.

여섯 셀 모두 계산해 합산 → 카이제곱 통계량.

자유도 df = (행 - 1) × (열 - 1) = 1 × 2 = 2.

χ²이 임계값(α=0.05, df=2의 경우 약 5.99)을 넘으면 H₀ 기각 → 두 연령대의 스포츠 선호 분포가 다르다.

카이제곱 독립성/연관성 검정 — 한 표본 안의 두 변수

하나의 표본에서 두 범주형 변수가 독립인지(연관 없는지) 검정.

H₀: 두 변수는 독립
H₁: 두 변수는 독립이 아님

구분	동질성 검정	독립성 검정
표본 수	여러 독립 표본	하나의 표본
목적	그룹별 분포 동일성	두 변수 간 관계
계산	동일	동일

여기서 시험 함정이 하나 있어요. 계산은 똑같지만 표본 설계가 달라요. 30대 250명·40대 250명을 각각 모집(독립 두 표본) → 동질성. 임의 500명을 모집해서 연령대와 선호 둘 다 측정(한 표본) → 독립성. 결과 해석도 미묘하게 다릅니다.

카이제곱 적합도 검정 — 분포 가설 검정

관측 데이터가 특정 분포를 따르는지 검정.

H₀: 데이터가 지정된 분포를 따른다
H₁: 따르지 않는다

주사위 공정성 검정 예시

주사위를 60번 굴려 결과를 셉니다.

눈	관측 O	기댓값 E	(O-E)²/E
1	15	10	2.5
2	8	10	0.4
3	12	10	0.4
4	9	10	0.1
5	11	10	0.1
6	5	10	2.5
합계	60	60	χ² = 6.0

자유도 df = 범주 수 - 1 = 5. α=0.05의 임계값은 약 11.07. χ² = 6.0 < 11.07 → H₀ 기각 못함 → "주사위가 공정하지 않다고 결론 못 냄" (공정함을 증명한 건 아님).

ANOVA — 세 그룹 이상의 평균 비교

ANOVA(Analysis of Variance, 분산분석)는 세 개 이상의 그룹 평균이 같은지 한 번에 검정합니다.

t-검정을 여러 번 하면 안 되는 이유

3개 그룹 A·B·C가 있다고 가정. t-검정으로 비교하려면 A-B, A-C, B-C 세 번. 각 검정 α=0.05인데 세 번 모두 H₀ 참일 확률은 (0.95)³ = 0.857, 즉 최소 한 번 제1종 오류 확률은 14.3%. α를 통제 못 합니다.

ANOVA는 한 번의 검정으로 전체 오류율을 α로 묶어 둬요.

가설

H₀: μ₁ = μ₂ = μ₃ = ... = μₖ (모든 평균 같음)
H₁: 적어도 하나 다름

F-통계량

$$F = \frac{\text{그룹 간 분산 (MSB)}}{\text{그룹 내 분산 (MSW)}}$$

MSB (Mean Square Between) — 그룹 간 평균 차이 분산. 신호.
MSW (Mean Square Within) — 그룹 내 개인 차이 분산. 잡음.

$$MSB = \frac{SSB}{k-1}, \quad MSW = \frac{SSW}{N-k}$$

SSB: 그룹 간 제곱합
SSW: 그룹 내 제곱합
k: 그룹 수
N: 전체 관측치 수

F-통계량 해석

F가 크면 → 그룹 간 차이가 그룹 내 변동보다 큼 → H₀ 기각 가능
F = 1에 가까우면 → 그룹 간 차이가 잡음 수준 → 차이 없음

ANOVA 표 (정리용)

출처	SS	df	MS	F
그룹 간	SSB	k-1	MSB	MSB/MSW
그룹 내	SSW	N-k	MSW
전체	SST	N-1

ANOVA 가정 세 가지

각 그룹 데이터가 정규분포 (CLT로 n ≥ 30이면 완화 가능)
등분산성 (각 그룹의 분산이 비슷)
관측치 독립

사후 검정 (Post-hoc Test)

ANOVA에서 H₀를 기각해도 어떤 그룹 쌍이 다른지는 아직 모릅니다. 그래서 사후 검정.

방법	특징
Tukey HSD	모든 쌍 비교, 가장 자주 사용
Bonferroni	검정 수 k로 α 조정 (α/k)

여기서 시험 함정이 하나 있어요. ANOVA에서 H₀ 기각 = 적어도 한 쌍이 다르다는 뜻이지, "모두 다르다"가 아닙니다. 사후 검정으로 어떤 쌍인지 확인해야 해요.

비모수 통계 — 정규성 가정이 어려운 자리

지금까지 본 t-검정·ANOVA·회귀는 모두 데이터가 정규분포라는 가정을 깔고 있었어요. 정규성이 의심스러우면 비모수 통계로 갑니다.

언제 사용?

데이터가 정규분포를 따르지 않음 (확실히 비대칭·이중봉우리)
표본 크기가 매우 작음 (n < 15)
데이터가 순위·서열 척도 (예: 만족도 1~5점)

모수 vs 비모수 대응

모수 검정	비모수 대응	목적
단일 t-검정	Wilcoxon Signed-rank	단일 모집단 평균
독립 t-검정	Mann-Whitney U	두 독립 그룹 비교
대응 t-검정	Wilcoxon Signed-rank	짝지어진 데이터
ANOVA	Kruskal-Wallis	3+ 그룹 비교

순위 기반 원리

비모수 검정의 공통 원리는 단순합니다 — 원래 데이터를 순위(Rank)로 변환 후 분석.

예: {3, 8, 1, 5} → 정렬하면 1·3·5·8 → 순위 {2, 4, 1, 3}

순위로 바꾸면 극단값이나 이상치의 영향이 줄어요. 다만 그만큼 정보 손실도 있어서 정규성이 충족되면 모수 검정이 검정력 면에서 유리합니다.

여기서 시험 함정이 하나 있어요. 비모수가 항상 안전한 선택은 아닙니다. 정규성 가정이 충족되는데도 비모수로 가면 검정력이 떨어져요. 정규성 검정(Shapiro-Wilk 등)이나 표본 크기를 먼저 확인하고 결정해야 합니다.

검정력 분석 — 표본 크기 정하기

검정력 (Power)

$$\text{Power} = 1 - \beta$$

귀무가설이 거짓일 때 올바르게 기각할 확률. 4편에서 봤던 그 검정력. 보통 80% 이상이 권장됩니다.

검정력에 영향을 주는 요인

요인	검정력 변화
표본 크기 n ↑	↑
유의수준 α ↑	↑ (단 제1종 오류 늘어남)
효과 크기 ↑	↑
분산 ↓	↑

적정 표본 크기 계산

$$n = \left(\frac{z_{\alpha/2} + z_\beta}{\Delta / \sigma}\right)^2$$

Δ: 감지하려는 차이 크기
σ: 모집단 표준편차

연구를 시작하기 전에 이 공식으로 표본 크기를 정하는 게 바람직해요. 끝난 후에 표본 크기가 부족했음을 깨닫는 건 너무 늦습니다.

효과 크기 — 통계적 유의성 옆에 꼭 따라야 할 한 숫자

p-value가 작아서 통계적으로 유의미해도 실질적으로 의미 없는 차이일 수 있어요. 표본을 충분히 크게 하면 어떤 작은 차이도 p < 0.05로 만들 수 있거든요.

Cohen's d (평균 차이용)

$$d = \frac{\mu_1 - \mu_2}{\sigma_{\text{pooled}}}$$

Cohen's d	해석
0.2	작은 효과
0.5	중간 효과
0.8	큰 효과

여기서 시험 함정이 하나 있어요. p-value와 효과 크기는 서로 다른 정보입니다. p-value는 "차이가 우연일 가능성", 효과 크기는 "차이의 실질적 크기". 큰 표본에서는 작은 효과 크기도 p < 0.05를 받을 수 있고, 그건 통계적으로 유의미해도 실질적으로 무의미할 수 있어요. 의료 연구에서 "통계적 유의성"만 보고하지 말고 효과 크기도 함께 보고하라는 가이드라인이 강해진 이유.

다중 비교 문제 — 여러 검정을 동시에 할 때

FWER (Family-Wise Error Rate)

여러 검정을 동시에 하면 적어도 한 번 제1종 오류를 범할 확률이 폭증합니다.

k번의 독립 검정 시 FWER:

$$\text{FWER} = 1 - (1 - \alpha)^k$$

α = 0.05, k = 20이면 FWER ≈ 1 - 0.95²⁰ ≈ 64%. 20번 검정 중 적어도 한 번 잘못된 양성 결과를 얻을 확률 64%. 무서운 숫자죠.

보정 방법

방법	설명
Bonferroni 보정	α_adj = α/k. 가장 보수적, 단순
False Discovery Rate (FDR)	Benjamini-Hochberg 절차. 게놈 분석 등에서 표준

A/B 테스트에서 여러 지표를 동시에 보거나, 게놈에서 수천 개 유전자를 동시에 검정할 때 필수.

카이제곱 분포 특성 — 한눈에

항상 양수 (χ² ≥ 0)
오른쪽으로 치우친 분포 (우편향)
자유도 df에 따라 형태 변화
df가 클수록 정규분포에 근사

평균과 분산:

$$E(\chi^2) = df, \quad \text{Var}(\chi^2) = 2 \cdot df$$

범주형 데이터 심화 — 오즈비와 상대위험도

오즈비 (Odds Ratio, OR)

$$\text{Odds} = \frac{p}{1-p}$$

$$\text{OR} = \frac{\text{Odds}_1}{\text{Odds}_2}$$

OR = 1: 두 그룹 동일
OR > 1: 그룹 1에서 사건 발생 오즈 높음
OR < 1: 그룹 1에서 오즈 낮음

흡연자와 비흡연자의 폐암 오즈비가 20이라는 건 흡연자가 비흡연자보다 폐암 발생 오즈가 20배 높다는 뜻. 의료 통계의 표준 도구예요.

상대위험도 (Relative Risk, RR)

$$\text{RR} = \frac{p_1}{p_2}$$

오즈비와 비슷하지만 확률(=위험)의 비라서 직관이 더 쉬워요. 의료 임상에서 RR을, 전염병학에서는 OR을 더 자주 씁니다.

시험 직전 한 번 더 — 자주 헷갈리는 함정 모음

여기까지가 6편이자 시리즈 전체의 마무리예요. 시험 직전 또는 실무에서 헷갈릴 때 다시 펼쳐 볼 수 있게 압축 노트로 마무리할게요.

카이제곱 = 범주형 데이터, χ² = Σ(O-E)²/E
카이제곱 조건 — 무작위, 모든 셀 E ≥ 5, 모집단 10% 이하
동질성 = 여러 표본 분포 비교 / 독립성 = 한 표본 두 변수 / 적합도 = 분포 가설
동질성과 독립성은 계산 같음, 표본 설계 다름
카이제곱 자유도 — (행-1)(열-1) 또는 범주-1
임계값 못 넘으면 "유의미한 차이 못 잡음"이지 "차이 없음 증명"이 아님
ANOVA — 3그룹 이상 평균 비교 (t-검정 반복은 α 통제 실패)
F = MSB / MSW (그룹 간 분산 / 그룹 내 분산 = 신호 / 잡음)
F 크면 H₀ 기각, F=1 가까우면 차이 없음
ANOVA 가정 — 정규성·등분산성·독립
ANOVA 기각 = 적어도 한 쌍 다름 — 어떤 쌍인지 사후 검정 필요
사후 검정 — Tukey HSD (가장 보편), Bonferroni
비모수 — 정규성 의심·작은 표본·순위 데이터일 때
t 대응 = Mann-Whitney U / 대응 t = Wilcoxon / ANOVA 대응 = Kruskal-Wallis
비모수는 순위로 변환 — 정규성 충족 시엔 검정력 손실
검정력 = 1 - β, 80% 이상 권장
검정력 ↑ 요인 — n ↑, 효과 크기 ↑, 분산 ↓
표본 크기는 연구 시작 전에 검정력 분석으로 정함
효과 크기 (Cohen's d) — 0.2 작음, 0.5 중간, 0.8 큼
p-value와 효과 크기는 다른 정보 — 둘 다 보고
큰 표본은 작은 효과도 p < 0.05 만들 수 있음 (통계 유의 ≠ 실질 유의)
다중 비교 — FWER 폭증 (20개 검정 시 64%)
Bonferroni 보정 — α/k
카이제곱 분포 — 양수, 우편향, df 클수록 정규에 가까움
오즈비 OR = 두 그룹 사건 오즈의 비
상대위험도 RR = 두 그룹 사건 확률의 비
의료에서 흡연·폐암 OR ≈ 20 (흡연자 폐암 오즈 20배)

시리즈 마무리 — 6편 전체 요약

여기까지 오신 분이 있다면 진심으로 축하드립니다. 시리즈 전체에서 잡아 둔 핵심을 마지막으로 한 번 정리합니다.

1편 — 기술통계 — 데이터를 평균·중앙값·분산으로 요약
2편 — 확률 기초 — 덧셈·곱셈 법칙·조건부·베이즈
3편 — 확률 분포 — 이항·정규·포아송·기하·베르누이
4편 — 가설 검정 — CLT·신뢰구간·p-value·t-분포 — 시리즈의 무거운 중심
5편 — 회귀분석 — 두 변수 관계·예측·인과 vs 상관
6편 — 고급 주제 (현재 글) — ANOVA·카이제곱·비모수·효과 크기

이 여섯 편의 도구가 통계학의 80%를 차지합니다. 나머지 20%는 베이지안 통계·시계열·기계학습 — 모두 이 여섯 편 위에 쌓인 응용이에요.

시리즈 다른 편

같은 시리즈의 다른 글들은 아래에서 한 번에 묶어 볼 수 있어요.

공식 문서: Khan Academy 통계 강좌와 scipy.stats 문서에서 모든 검정의 파이썬 구현을 확인할 수 있어요.

다음 단계로 가신다면 베이지안 통계·시계열 분석·머신러닝의 통계적 학습 이론(SLT) 같은 주제가 자연스러운 확장이에요. 통계학은 한 번에 정복되는 학문이 아니라 평생 도구로 다듬어 가는 영역입니다. 시리즈 끝까지 읽어 주셔서 감사합니다.

※ 이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.