확률과 통계 마스터 노트 시리즈 1편. 평균·중앙값·최빈값이 같은 데이터를 왜 다르게 보여주는지, IQR이 범위를 이기는 자리는 어디인지, 분산을 왜 굳이 제곱해서 다시 제곱근을 씌우는지 — 골프 점수·레모네이드 매출·올림픽 개최 데이터로 풀어 가는 기술통계 입문.
이 글은 확률과 통계 마스터 노트 시리즈의 첫 번째 편입니다. 평균이 뭔지 정도는 다 알아요. 그런데 "평균·중앙값·최빈값이 같은 데이터를 왜 셋이나 만들어 놨는지" 물으면 답이 살짝 막힙니다. 기술통계는 그 답이 모이는 자리예요.
이 시리즈는 6편을 통해 기술통계 → 확률 기초 → 확률 분포 → 추론통계와 가설 검정 → 회귀 → 카이제곱·ANOVA까지 차근차근 쌓아 갑니다. 1편의 목표는 단순합니다. 세 가지 중심값(평균·중앙값·최빈값) + 세 가지 산포 측도(범위·IQR·표준편차) 가 각각 어떤 자리에서 빛나는지, 어떤 자리에서 무너지는지를 손에 잡히게 만드는 것.
본문 흐름은 골프 점수·레모네이드 매출·올림픽 개최 데이터 같은 실제 데이터로 따라갑니다. 공식만 외우면 며칠 뒤 다 잊어버려요. 데이터를 보고 "여기는 평균이 위험하다"고 즉시 직감하는 게 진짜 학습입니다.
이 시리즈는 통계학 교재, 칸 아카데미·MIT OCW 같은 공개 강의, 여러 데이터 분석 학습 자료를 참고해 한국어 학습 노트로 풀어쓴 자료입니다.
본문에 나오는 데이터를 엑셀이나 파이썬 한 줄로 직접 계산해 보면 머리에 훨씬 잘 박혀요. 평균·중앙값을 구해 보고 한 번 확 다른 값(이상치)을 끼워넣으면 둘이 어떻게 갈라지는지 손으로 느낄 수 있습니다.
처음 통계가 어렵게 느껴지는 이유
이유는 두 가지예요.
첫째, 이름이 너무 비슷합니다. 평균(Mean)·중앙값(Median)·최빈값(Mode) — 셋 다 한국말로 "가운데"·"가장 많은" 같은 뉘앙스라 어떤 게 어떤 건지 헷갈려요. 분산(Variance)·표준편차(Standard Deviation)도 마찬가지죠. 둘 다 "퍼진 정도"인데 하나는 제곱이고 하나는 제곱근.
둘째, "굳이 왜 N개나 만들었지?"가 안 보입니다. 평균 하나면 충분할 것 같은데 중앙값·최빈값이 또 있고, 분산이 있는데 표준편차도 있고. 처음 보면 다 비슷해 보여요.
해결법은 한 가지입니다. 각 도구를 "이 도구가 약해지는 순간" 으로 묶어서 외우면 갑자기 명확해져요. 평균은 이상치 한 방에 무너지고, 중앙값은 그걸 버팁니다. 범위는 끝값 두 개에 휘둘리고, IQR은 가운데 50%만 보거든요. 모든 통계 도구는 "어디서 무너지는지"가 정체성입니다.
데이터부터 — 변수와 데이터 테이블
먼저 용어를 가볍게 정리합니다.
- 데이터(Data): 정보 그 자체. 숫자·문자·범주 다 됨.
- 개별 요소(Individual): 분석 대상 한 줄 (사람·물건·사례).
- 변수(Variable): 그 개별 요소가 가진 속성.
회사 명함 비유로 풀면, 명함 한 장이 "개별 요소"고 명함에 적힌 이름·직급·전화번호가 "변수"예요.
변수는 두 종류로 나뉩니다.
| 종류 | 설명 | 예시 |
|---|---|---|
| 양적 변수 (Quantitative) | 숫자로 표현 | 키, 판매량, 점수 |
| 범주형 변수 (Categorical) | 카테고리로 표현 | 성별, 아이스크림 종류, 예/아니오 |
데이터 테이블은 단방향과 양방향으로 나뉩니다.
- 단방향(One-way): "어떤 달의 매출인가?" 한 질문이면 값이 특정됨.
- 양방향(Two-way): "어떤 연도의, 어떤 달의 매출인가?" 두 질문이 모두 필요.
여기서 시험 함정이 하나 있어요. 양방향 데이터는 시각화할 때 막대그래프 하나로 안 됩니다. 그룹별 막대그래프(Side-by-side bar chart) 또는 결합분포표 로 가야 두 변수의 관계가 한 그림에 들어와요.
데이터 시각화 — 어떤 그래프를 언제
| 데이터 모양 | 그래프 |
|---|---|
| 비율을 보여주고 싶음 | 원그래프 (Pie Chart) |
| 카테고리별 비교 | 막대그래프 (Bar Chart) |
| 연속형 데이터의 분포 | 히스토그램 (Histogram) |
| 두 집합의 교집합·합집합 | 벤 다이어그램 (Venn Diagram) |
| 원시 데이터를 보존하면서 분포 | 줄기-잎 그림 (Stem-and-Leaf) |
| 다섯 수치 요약 (최소·Q1·중앙·Q3·최대) | 박스 플롯 (Box-and-Whisker) |
올림픽 데이터로 한 번 굴려 봅니다. 하계 올림픽 대륙별 개최 횟수가 유럽 16회·북미 6회·아시아 3회·오스트레일리아 2회·남미 1회예요. 비율을 직관적으로 보여주려면 원그래프 — 유럽 57%·북미 21%·아시아 11%·오스트레일리아 7%·남미 4%로 한눈에 들어옵니다. 절댓값을 비교하려면 막대그래프가 낫고요.
여기서 시험 함정이 하나 있어요. 막대그래프 vs 히스토그램을 헷갈리면 곤란해집니다. 막대그래프는 카테고리(이산) — 막대 사이에 간격이 있어요. 히스토그램은 연속형 — 막대 사이에 간격이 없습니다. 이게 정체성 차이라 시험·실무 모두에서 자주 묻습니다.
중심을 말하는 세 가지 — 평균·중앙값·최빈값
세 도구가 따로 있는 이유는 각자 무너지는 자리가 달라서예요.
평균 (Mean)
가장 기본. 모든 값을 더해 개수로 나눕니다.
모집단 평균: $$\mu = \frac{\sum_{i=1}^{N} X_i}{N}$$
표본 평균: $$\bar{x} = \frac{\sum_{i=1}^{n} X_i}{n}$$
데이터 {2, 4, 7, 7}이면 평균은 (2+4+7+7) ÷ 4 = 5.
여기서 직관 한 줄. 평균은 데이터의 균형점(Balance Point) 입니다. 5를 기준으로 왼쪽 거리 합(1+3=4)과 오른쪽 거리 합(2+2=4)이 정확히 일치해요. 시소로 치면 받침점.
중앙값 (Median)
오름차순으로 정렬한 뒤 정중앙에 오는 값.
- 홀수 개: {1, 2, 3, 4, 5} → 3
- 짝수 개: {2, 4, 7, 7} → 가운데 4와 7의 평균 = 5.5
평균과 결과가 다른 게 핵심이에요.
최빈값 (Mode)
가장 자주 나타나는 값. {2, 4, 7, 7}이면 7. 두 개가 동률이면 이중최빈(Bimodal), 모든 값이 같은 빈도면 최빈값 없음.
셋이 갈라지는 자리 — 이상치 한 방
데이터 {1, 2, 3}을 가져왔다가 누가 1000을 끼워넣었다고 합시다. 그러면:
| 값 | 평균 | 중앙값 | 최빈값 |
|---|---|---|---|
| {1, 2, 3} | 2 | 2 | 없음 |
| {1, 2, 3, 1000} | 약 251.5 | 2.5 | 없음 |
평균은 폭발했고 중앙값은 거의 안 움직였습니다. 부동산 가격·소득 분포처럼 이상치가 흔한 데이터에서 평균을 쓰면 거짓말이 돼요. 그래서 부동산 시세를 발표할 때 "평균가"가 아니라 "중위가(중앙값)"를 쓰는 거예요.
여기서 정말 중요한 시험 함정 — "평균은 이상치에 민감, 중앙값은 강건(robust)" 한 줄이 거의 모든 통계 시험에 나옵니다. 외워두세요.
퍼진 정도를 말하는 세 가지 — 범위·IQR·표준편차
이번엔 산포(spread) 측도. 골프 점수 데이터로 풀어 갑니다.
데이터 (18개): {66, 67, 67, 68, 68, 68, 68, 69, 69, 69, 69, 70, 71, 71, 72, 73, 74, 75}
범위 (Range)
가장 단순. 최댓값 - 최솟값.
$$\text{Range} = X_{\max} - X_{\min} = 75 - 66 = 9$$
문제는 끝값 두 개에 완전히 의존한다는 점이에요. 한 명이 88점을 친 날이 끼면 범위가 갑자기 22로 튀어요. 끝점 한 방에 무너집니다.
사분범위 (IQR, Interquartile Range)
데이터를 4등분해서 가운데 50%만 보는 측도.
- Q₁: 25% 지점
- Q₂: 50% 지점 (중앙값)
- Q₃: 75% 지점
- IQR = Q₃ - Q₁
골프 데이터로 계산하면 Q₁ = 68, Q₂ = 69, Q₃ = 71 → IQR = 71 - 68 = 3.
여기서 시험 함정이 하나 있어요. 데이터 개수가 짝수냐 홀수냐에 따라 사분위수 계산이 달라집니다.
- 전체 짝수 → Q₂는 가운데 두 값의 평균, 각 그룹에 Q₂ 포함
- 전체 홀수 → Q₂는 정중앙 값, 각 그룹에 Q₂ 미포함
이걸 헷갈리면 IQR이 1~2 차이로 어긋나요. 시험에서 자주 묻습니다.
분산과 표준편차
가장 중요한 도구. 정규분포·z-점수·신뢰구간·회귀 — 이후 시리즈 모든 챕터의 기반입니다.
모집단 분산: $$\sigma^2 = \frac{\sum_{i=1}^{N}(X_i - \mu)^2}{N}$$
표본 분산: $$S^2 = \frac{\sum_{i=1}^{n}(X_i - \bar{x})^2}{n-1}$$
골프 데이터(평균 69.4)로 풀어 봅니다.
- 66 - 69.4 = -3.4 → 제곱 11.56
- 67 - 69.4 = -2.4 → 제곱 5.76
- … (전부 합산하면 88.48)
- 분산 = 88.48 ÷ 18 ≈ 4.92
- 표준편차 σ = √4.92 ≈ 2.22
여기서 정말 중요한 시험 함정 — 표본 분산은 왜 n이 아니라 n-1로 나누는가? 답은 베셀 보정(Bessel's Correction)이에요. 표본으로 모집단을 추정할 때 n으로 나누면 분산이 살짝 작게(편향) 나옵니다. n-1로 나누면 그 편향이 보정돼서 더 정확한 모집단 분산 추정값이 돼요. 모집단 분산은 그냥 N으로 나눕니다 — 추정이 아니라 진짜 값이니까요.
직관 한 줄. 표준편차 = 데이터 포인트들이 평균에서 평균적으로 얼마나 떨어져 있는가. 분산은 단위가 제곱(점²)이라 해석이 어렵고, 표준편차는 원래 단위(점)라 "평균에서 평균 2.22점 떨어져 있다"고 바로 말할 수 있어요. 그래서 실무에서는 표준편차가 훨씬 자주 등장합니다.
데이터 변환이 통계량에 미치는 영향
같은 데이터에 모든 값을 더하거나 곱하면 통계량이 어떻게 변할까요?
시프팅 (Shifting) — 더하기·빼기
모든 값에 상수 k를 더하거나 뺍니다.
| 통계량 | 변화 |
|---|---|
| 평균·중앙값·최빈값 | k만큼 변화 |
| 범위·IQR·분산·표준편차 | 변화 없음 |
직관: 데이터 전체가 평행이동하니 위치는 바뀌어도 간격(퍼짐) 은 그대로예요.
스케일링 (Scaling) — 곱하기·나누기
모든 값에 상수 k를 곱하거나 나눕니다.
| 통계량 | 변화 |
|---|---|
| 평균·중앙값·최빈값 | k배 |
| 범위·IQR·표준편차 | k배 |
| 분산 | k²배 |
여기서 시험 함정이 하나 있어요. 분산만 k²배입니다. 분산 자체가 제곱 단위라 그래요. 표준편차는 분산의 제곱근이라 다시 k배. 단순한 사실인데 시험에서 "분산은 k배" 함정을 자주 만들어요.
한 줄 정리 — 시프팅은 위치만, 스케일링은 위치와 퍼짐 모두. 분산은 스케일링 시 k²배.
박스 플롯과 이상치 탐지
다섯 수치 요약(최소·Q₁·Q₂·Q₃·최대)을 한 그림에 넣은 게 박스 플롯이에요.
이상치 기준은 IQR을 사용합니다.
이상치 = Q₁ - 1.5×IQR 미만 OR Q₃ + 1.5×IQR 초과
골프 데이터(Q₁=68, Q₃=71, IQR=3)를 적용하면 하한선 = 68 - 4.5 = 63.5, 상한선 = 71 + 4.5 = 75.5. 데이터가 모두 이 범위 안이라 이상치 없음.
1.5×IQR 룰은 박스 플롯에서 거의 매번 등장하는 공식. 외워두면 박스 플롯 문제는 절반 해결입니다. "왜 1.5인가?"는 통계학자 튜키(Tukey)의 경험적 권장값 — 정규분포 기준 약 0.7%만 이상치로 잡히도록 잡은 수치예요.
분포의 모양 — 정규·우편향·좌편향
데이터의 분포 모양은 평균·중앙값·최빈값 셋의 위치 관계로 한눈에 보입니다.
- 정규분포 (좌우 대칭): 평균 = 중앙값 = 최빈값 (모두 한가운데)
- 우편향(Right-skewed): 오른쪽 꼬리가 김 → 평균 > 중앙값 > 최빈값. 예: 소득 분포 (소수의 고소득자가 평균을 끌어올림)
- 좌편향(Left-skewed): 왼쪽 꼬리가 김 → 평균 < 중앙값 < 최빈값. 예: 어려운 시험 점수 (대부분 낮은 점, 소수만 잘 봄)
잠깐, 이 부분이 헷갈리는데 — "오른쪽 꼬리가 길면 우편향" 입니다. 이름이 꼬리 방향에서 옵니다. 평균이 꼬리 쪽으로 끌려간다고 기억하면 헷갈리지 않아요.
모집단 vs 표본 — 기호 정리
이후 시리즈 전체에서 계속 나오는 기호라 한 번 정리합니다.
| 구분 | 모집단 | 표본 |
|---|---|---|
| 크기 | N | n |
| 평균 | μ (뮤) | x̄ (엑스바) |
| 분산 | σ² | S² |
| 표준편차 | σ (시그마) | S |
| 분산 분모 | N | n - 1 |
이 표는 4편(추론통계)에서 다시 나옵니다.
z-점수 — 다른 분포끼리 비교하는 다리
z-점수는 "이 값이 평균에서 표준편차의 몇 배 떨어져 있는가"를 나타냅니다.
$$z = \frac{x - \mu}{\sigma}$$
평균 100·표준편차 15인 IQ 분포에서 IQ 130의 z-점수는 (130-100)/15 = 2. "평균보다 2 표준편차 위"라는 뜻이에요.
여기서 시험 함정이 하나 있어요. z-점수의 진짜 가치는 단위가 다른 분포끼리 비교하는 데 있습니다. 키 175cm와 IQ 130을 직접 비교할 수는 없죠. 둘 다 z-점수로 바꾸면 "이 사람의 키는 평균에서 1.5σ 위, IQ는 2σ 위" 같이 같은 척도로 비교 가능. 3편(정규분포)·4편(검정통계량)의 핵심 도구가 됩니다.
시험 직전 한 번 더 — 자주 헷갈리는 함정 모음
여기까지가 1편의 핵심입니다. 시험 직전 또는 실무에서 헷갈릴 때 다시 펼쳐 볼 수 있게 압축 노트로 마무리할게요.
- 평균·중앙값·최빈값 — 이상치 있으면 중앙값, 카테고리 빈도면 최빈값, 균형점은 평균
- 이상치에 민감 = 평균 / 이상치에 강건 = 중앙값 (1순위 암기)
- 짝수 개 데이터 중앙값 = 가운데 두 값의 평균
- 평균은 데이터의 균형점 (좌우 거리합 일치)
- 최빈값 없음 도 가능 — 모든 값 빈도 같을 때
- 범위 = 최대 - 최소 (끝값 두 개에 의존, 약함)
- IQR = Q₃ - Q₁ (가운데 50%, 강건)
- 사분위수 — 짝수면 Q₂ 그룹 포함, 홀수면 Q₂ 그룹 미포함
- 표본 분산은 n-1로 나눔 (베셀 보정), 모집단은 N
- 표준편차는 분산의 제곱근, 원래 단위와 동일해서 해석 쉬움
- 시프팅(±k) — 평균·중앙값은 k 변, 분산·표준편차는 불변
- 스케일링(×k) — 평균·범위·표준편차는 k배, 분산은 k²배
- 박스 플롯 이상치 기준: Q₁ - 1.5×IQR 미만 또는 Q₃ + 1.5×IQR 초과
- 정규분포 — 평균 = 중앙값 = 최빈값
- 우편향(오른쪽 꼬리) — 평균 > 중앙값 > 최빈값 (소득 분포)
- 좌편향(왼쪽 꼬리) — 평균 < 중앙값 < 최빈값 (어려운 시험)
- z-점수 = (x - μ) / σ — 다른 분포끼리 비교하는 다리
- 단방향 데이터 = 한 질문, 양방향 데이터 = 두 질문 필요
- 막대그래프(이산, 간격 있음) vs 히스토그램(연속, 간격 없음)
- 통계 기호 — μ·σ·N (모집단) / x̄·S·n (표본)
시리즈 다른 편
같은 시리즈의 다른 글들도 같은 톤으로 묶어 정리되어 있어요. 1편이 끝났다면 다음은 확률 — 조건부 확률·독립/종속·베이즈 정리로 이어집니다.
- 1편 — 기술통계 (현재 글)
- 2편 — 확률 기초 (조건부·독립·베이즈)
- 3편 — 확률 분포 (이항·정규·포아송)
- 4편 — 가설 검정 (p-value·신뢰구간·CLT)
- 5편 — 회귀분석 (상관계수와 회귀선)
- 6편 — 고급 주제 (카이제곱·ANOVA·비모수)
공식 문서: Khan Academy 통계 강좌와 MIT OCW 18.05에 더 깊은 자료가 있어요.
다음 글(2편)에서는 확률의 기본 — 덧셈·곱셈 법칙·조건부 확률·베이즈 정리를 풀어 갑니다. 1편에서 잡은 평균·표준편차 감각이 그대로 이어지니 한 단원이 끝났다고 느끼지 마시고 차근차근.