확률과 통계 마스터 노트 시리즈 5편. 두 변수의 관계를 -1~1 한 숫자로 압축하는 피어슨 상관계수, 잔차 제곱합을 최소화해 미래를 예측하는 회귀선의 방정식, 그리고 아이스크림 판매와 익사 사고가 함께 늘어나는 진짜 이유까지 — 산점도와 손계산으로 풀어 갑니다.
이 글은 확률과 통계 마스터 노트 시리즈의 다섯 번째 편입니다. 이번 편 주제는 회귀분석과 그 동반자 상관관계예요. 두 변수가 함께 변할 때 그 관계를 한 숫자로 압축하고, 한 변수에서 다른 변수를 예측하는 도구입니다.
부동산 면적과 가격, 광고비와 매출, 키와 몸무게 — 데이터 분석 실무에서 가장 자주 등장하는 분석이에요. 머신러닝의 가장 기본 모델인 선형 회귀가 여기서 출발합니다. 4편 가설 검정이 한 변수의 평균을 다뤘다면, 5편은 두 변수의 관계를 다룹니다.
처음 회귀가 어렵게 느껴지는 이유
이유는 두 가지예요.
첫째, r과 R²의 관계가 헷갈립니다. 둘 다 -11 또는 01 사이 숫자라 비슷해 보이는데, 의미가 다릅니다. r은 관계의 방향과 강도, R²는 설명력 비율. 시험에서 "r = 0.8이면 x가 y의 변동을 80% 설명하는가?" 같이 물으면 잘못 답하기 쉬워요(정답 64%).
둘째, 상관관계와 인과관계의 차이가 직관과 어긋납니다. "A와 B가 함께 늘면 A 때문에 B가 늘어난 거 아니야?"라고 생각하기 쉬운데, 통계학의 가장 중요한 경고 중 하나가 "상관 ≠ 인과" 예요. 아이스크림 판매와 익사 사고가 함께 늘어나는 진짜 이유는 둘 다 더운 날씨 때문이지, 아이스크림이 익사를 유발하는 게 아닙니다.
해결법은 두 가지. 첫째, 산점도를 항상 먼저 그린다. 숫자만 보면 함정이 안 보이는데, 산점도를 그리면 비선형 관계·이상치·군집이 한눈에 보여요. 둘째, "제3의 변수가 있을까?" 한 질문을 모든 상관관계 분석에 박아 두세요. 교란 변수 한 가지만 의식해도 분석의 질이 달라집니다.
산점도부터 — 데이터를 눈으로 보기
회귀 분석의 첫 단계는 항상 산점도예요. 두 변수 (x, y)를 점 하나로 표시한 그래프.
- x축: 독립 변수(Independent Variable) — 원인 또는 예측 입력
- y축: 종속 변수(Dependent Variable) — 결과 또는 예측 출력
레모네이드 매장의 월별 매출을 산점도로 그린다고 합시다.
| x (월) | y (매출, 천원) |
|---|---|
| 1 | 25 |
| 2 | 38 |
| 3 | 29 |
| 4 | 50 |
| 5 | 65 |
점 5개를 평면에 찍어 보면 오른쪽 위로 향하는 패턴이 보일 거예요. 시간이 지날수록 매출이 늘어나는 양의 관계.
관계의 종류
- 양의 상관 (Positive) — x↑이면 y↑. 우상향 패턴.
- 음의 상관 (Negative) — x↑이면 y↓. 우하향 패턴.
- 상관 없음 (No correlation) — 점들이 무작위로 흩어짐.
피어슨 상관계수 — 관계를 한 숫자로
피어슨 r은 두 변수의 선형 관계의 방향과 강도를 -1부터 1 사이의 한 숫자로 압축합니다.
$$r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \cdot \sum (y_i - \bar{y})^2}}$$
또는 손계산용:
$$r = \frac{n\sum x_i y_i - (\sum x_i)(\sum y_i)}{\sqrt{[n\sum x_i^2 - (\sum x_i)^2][n\sum y_i^2 - (\sum y_i)^2]}}$$
r 값 해석
| r 값 | 해석 |
|---|---|
| 1 | 완전한 양의 선형 |
| 0.7 ~ 0.99 | 강한 양의 상관 |
| 0.3 ~ 0.7 | 중간 양의 상관 |
| 0 ~ 0.3 | 약한 양의 상관 |
| 0 | 선형 관계 없음 |
| -0.3 ~ 0 | 약한 음의 상관 |
| -0.7 ~ -0.3 | 중간 음의 상관 |
| -1 ~ -0.7 | 강한 음의 상관 |
| -1 | 완전한 음의 선형 |
여기서 정말 중요한 시험 함정 — r = 0은 "선형 관계 없음"이지 "관계 없음"이 아닙니다. y = x² 같은 비선형 관계는 r이 0에 가까운데도 분명히 강한 종속 관계예요. 그래서 산점도를 먼저 그리는 거예요.
결정계수 R² — 설명력의 비율
$$R^2 = r^2$$
R²는 독립 변수가 종속 변수의 변동을 얼마나 설명하는지의 비율이에요.
- r = 0.8 → R² = 0.64 → x가 y 변동의 64% 를 설명. 나머지 36%는 다른 요인.
- r = 0.5 → R² = 0.25 → x는 y 변동의 25%만 설명.
여기서 시험 함정이 하나 있어요. r = 0.8이라고 80% 설명이 아닙니다. R² = r² = 0.64 → 64%. r과 R²를 헷갈리면 답이 어긋나요.
단순 선형 회귀 — 회귀선 찾기
회귀선의 방정식
$$\hat{y} = b_0 + b_1 x$$
- ŷ: y의 예측값
- b₀: y 절편 (x = 0일 때의 y)
- b₁: 기울기 (x가 1 증가할 때 y의 변화)
최소제곱법 (Least Squares)
수많은 직선 중에 어떤 게 "최선의 회귀선"일까? 답은 잔차 제곱합을 최소화하는 선이에요.
$$\text{잔차} = e_i = y_i - \hat{y}_i$$
$$\text{SSR} = \sum (y_i - \hat{y}_i)^2 \rightarrow \text{최소화}$$
직관 한 줄. 각 점에서 회귀선까지의 수직 거리를 제곱해 모두 합한 값이 가장 작은 선이 최선이에요. 절댓값이 아니라 제곱을 쓰는 이유는 큰 오차에 더 강하게 페널티를 주기 위함.
기울기와 절편 공식
$$b_1 = r \cdot \frac{S_y}{S_x} = \frac{n\sum x_i y_i - (\sum x_i)(\sum y_i)}{n\sum x_i^2 - (\sum x_i)^2}$$
$$b_0 = \bar{y} - b_1 \bar{x}$$
손으로 풀어 보기
레모네이드 데이터로 회귀선을 구해 봅시다.
| x | y | xy | x² |
|---|---|---|---|
| 1 | 25 | 25 | 1 |
| 2 | 38 | 76 | 4 |
| 3 | 29 | 87 | 9 |
| 4 | 50 | 200 | 16 |
| 5 | 65 | 325 | 25 |
n = 5, Σx = 15, Σy = 207, Σxy = 713, Σx² = 55.
$$b_1 = \frac{5 \cdot 713 - 15 \cdot 207}{5 \cdot 55 - 15^2} = \frac{3565 - 3105}{275 - 225} = \frac{460}{50} = 9.2$$
$$\bar{x} = 3, \quad \bar{y} = 41.4$$
$$b_0 = 41.4 - 9.2 \cdot 3 = 41.4 - 27.6 = 13.8$$
→ 회귀선: ŷ = 13.8 + 9.2x
6번째 달 매출 예측: ŷ = 13.8 + 9.2 × 6 = 69천 원
회귀선 해석
- b₁ = 9.2 → x가 1 단위 증가할 때 y가 9.2 단위 증가. 매월 매출이 9.2천 원씩 증가.
- b₀ = 13.8 → x = 0(0번째 달)일 때 예측 y. 수학적 의미는 있지만 실제 의미는 맥락에 따라 달라요.
외삽의 위험 — 관측 범위 밖 예측
회귀선은 관측된 x 범위 안에서만 신뢰할 수 있습니다. 위 예시에서 x는 1~5월만 관측. 100번째 달 매출을 예측하려고 ŷ = 13.8 + 9.2 × 100 = 933천 원이라고 하면 위험해요. 100번째 달엔 시장 포화·계절·경쟁 요인 등이 모두 다를 수 있고, 선형 관계가 그렇게 멀리까지 유지된다는 보장이 없습니다.
여기서 시험 함정이 하나 있어요. 외삽(Extrapolation) — 관측 범위 밖 예측은 통계적으로 위험합니다. 시험에서 "회귀 모델로 X 예측이 안전한가?"를 물을 때 거의 항상 외삽 함정이에요.
잔차 분석 — 모델이 좋은지 검증
잔차 (Residual)
$$e_i = y_i - \hat{y}_i$$
실제 값과 예측값의 차이. 잔차의 패턴이 모델 품질을 알려줍니다.
잔차 도표 (Residual Plot)
x축에 x값, y축에 잔차를 찍은 그래프.
- 좋은 회귀 — 잔차가 0 주변에 무작위 분포. 패턴 없음.
- 문제 신호 — 잔차에 패턴(곡선·깔때기 모양 등)이 있음.
세 가지 흔한 문제 신호:
| 잔차 패턴 | 의미 |
|---|---|
| 곡선 모양 | x와 y가 비선형 관계 — 선형 회귀로 부적합 |
| 깔때기 모양 | 등분산성 위반 (이분산성, Heteroscedasticity) |
| 시간순 패턴 | 잔차가 독립이 아님 (시계열 자기상관) |
이상치·레버리지·영향점
| 용어 | 정의 |
|---|---|
| 이상치 (Outlier) | 잔차가 매우 큰 점 |
| 레버리지 (Leverage) | x값이 극단적인 점 |
| 영향점 (Influential Point) | 회귀선 자체에 큰 영향을 주는 점 |
영향점 한 점이 회귀선의 기울기를 완전히 바꿀 수 있어요. 이상치를 발견하면 데이터를 다시 확인하고, 정당한 이유가 있을 때만 제거합니다.
회귀의 가정 네 가지
선형 회귀가 신뢰 가능하려면 다음 네 가지 가정이 충족돼야 합니다.
- 선형성 — x와 y의 관계가 선형
- 독립성 — 잔차들이 서로 독립
- 등분산성 — 모든 x에서 잔차의 분산 동일
- 정규성 — 잔차가 정규분포를 따름
이 네 가지를 합쳐 영문 이니셜 LINE (Linearity·Independence·Normality·Equal variance)으로 외우는 사람들도 있어요.
다중 회귀 — 여러 독립 변수
현실 데이터는 변수 하나만으로 설명되지 않아요. 여러 독립 변수를 함께 쓰는 게 다중 회귀.
$$\hat{y} = b_0 + b_1 x_1 + b_2 x_2 + \cdots + b_k x_k$$
부동산 가격 예측이 대표 예시:
$$\text{가격} = b_0 + b_1 \cdot \text{면적} + b_2 \cdot \text{방 수} + b_3 \cdot \text{건축연도}$$
조정된 R² (Adjusted R²)
다중 회귀에서 변수가 많아질수록 R²가 자동으로 증가하는 함정이 있어요. 의미 없는 변수를 추가해도 R²가 올라간다는 거죠. 이걸 보정한 게 조정된 R².
$$R^2_{adj} = 1 - \frac{(1-R^2)(n-1)}{n-k-1}$$
여기서 k는 독립 변수의 수. 변수를 추가했을 때 진짜로 설명력이 늘었으면 R²adj도 올라가지만, 아무 의미 없는 변수면 오히려 떨어집니다.
상관관계 vs 인과관계 — 통계학의 가장 큰 경고
핵심 원칙: 상관관계가 있다고 인과관계가 있는 건 아니다.
가장 유명한 예시 — 아이스크림 판매량과 익사 사고 수가 양의 상관관계. 그런데 아이스크림이 익사를 유발하지 않아요. 둘 다 더운 날씨라는 제3의 변수에 영향받을 뿐입니다. 이런 걸 허위 상관(Spurious Correlation) 또는 교란 변수(Confounding Variable) 라고 해요.
여기서 정말 중요한 시험 함정 — 데이터에서 강한 상관관계를 발견하면 즉시 "왜?"를 묻고 교란 변수를 의심해야 합니다. 예시:
- 신발 크기와 글쓰기 능력 상관관계 → 둘 다 나이에 영향
- TV 시청 시간과 비만율 상관관계 → 활동량 등 여러 교란
- 헬리콥터 부모와 자녀 성공률 상관관계 → 사회경제적 지위 교란
인과관계를 증명하려면
- 무작위 통제 실험(RCT) — 무작위로 처치/통제 그룹 나눠 비교. 의약품 임상 시험이 표준.
- 자연 실험·도구 변수 — 관찰 데이터에서 무작위에 가까운 변동을 활용
- 차이의 차이(Diff-in-Diff) — 정책 영향 분석 시 표준
관찰 데이터(observational data)만으로는 엄밀한 인과 추론이 어려워요.
공분산 — 상관계수의 친척
$$\text{Cov}(X, Y) = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{n}$$
피어슨 r은 공분산을 표준화한 것:
$$r = \frac{\text{Cov}(X, Y)}{S_x \cdot S_y}$$
공분산은 단위가 있어서 해석이 어려워요(예: cm·kg). 상관계수는 단위 없는 -1~1 숫자라 직관적입니다. 그래서 실무에서 보통 r을 보고합니다.
회귀의 실용 응용
| 분야 | 적용 |
|---|---|
| 비즈니스 | 광고비 → 매출 예측 |
| 부동산 | 면적·위치 → 집값 예측 |
| 의학 | 나이·생활습관 → 혈압 |
| 경제학 | GDP ↔ 실업률 |
| 머신러닝 | 선형 회귀 = ML 기본 모델 |
시험 직전 한 번 더 — 자주 헷갈리는 함정 모음
여기까지가 5편의 핵심입니다. 시험 직전 또는 실무에서 헷갈릴 때 다시 펼쳐 볼 수 있게 압축 노트로 마무리할게요.
- 산점도 먼저 — 비선형 관계·이상치 한눈에
- 양의 상관 = 우상향 / 음의 상관 = 우하향
- 피어슨 r ∈ [-1, 1] — 방향과 강도
- |r| ≥ 0.7 강함 / 0.3~0.7 중간 / < 0.3 약함
- r = 0은 선형 관계 없음, 비선형 관계는 가능 (y = x²이면 r ≈ 0)
- R² = r² — 설명력 비율 (r = 0.8이면 R² = 0.64, 64% 설명)
- 회귀선 ŷ = b₀ + b₁x
- 최소제곱법 — 잔차 제곱합 최소
- b₁ = r·(S_y / S_x), b₀ = ȳ - b₁·x̄
- 외삽 위험 — 관측 범위 밖 예측은 신뢰도 낮음
- 잔차 = y - ŷ — 좋은 회귀는 잔차가 무작위
- 잔차 곡선 패턴 = 비선형 / 깔때기 = 이분산성
- 회귀 가정 LINE — Linearity·Independence·Normality·Equal variance
- 이상치 vs 레버리지 vs 영향점 구분
- 다중 회귀 — 여러 x로 y 예측
- 조정된 R² — 변수 수 보정, 의미 없는 변수 추가 시 떨어짐
- 상관 ≠ 인과 — 가장 중요한 경고
- 교란 변수(Confounding Variable) — 제3의 변수
- 인과 증명 — 무작위 통제 실험(RCT)이 표준
- 공분산 = 단위 있음, 상관계수 = 표준화된 단위 없는 r
- 머신러닝의 가장 기본 모델 = 선형 회귀
시리즈 다른 편
같은 시리즈의 다른 글들도 같은 톤으로 묶어 정리되어 있어요. 5편까지 왔다면 마지막 6편은 한결 가볍습니다. 카이제곱·ANOVA·비모수 — 가설 검정을 다양한 데이터 형태로 확장하는 자리예요.
- 1편 — 기술통계 (평균·중앙값·분산)
- 2편 — 확률 기초 (조건부·독립·베이즈)
- 3편 — 확률 분포 (이항·정규·포아송)
- 4편 — 가설 검정 (p-value·신뢰구간·CLT)
- 5편 — 회귀분석 (현재 글)
- 6편 — 고급 주제 (카이제곱·ANOVA·비모수)
공식 문서: Khan Academy 회귀 강좌와 scikit-learn 선형 회귀 가이드에서 더 깊이 갈 수 있어요.
다음 글(6편)에서는 범주형 데이터를 다루는 카이제곱 검정과 세 그룹 이상의 평균 비교인 ANOVA, 그리고 정규성 가정 없이 쓰는 비모수 통계를 풀어 갑니다. 시리즈 마무리.