회귀분석 마스터 — 상관계수와 회귀선

2026-05-03•확률과 통계 마스터 노트

확률과 통계 마스터 노트 시리즈 5편. 두 변수의 관계를 -1~1 한 숫자로 압축하는 피어슨 상관계수, 잔차 제곱합을 최소화해 미래를 예측하는 회귀선의 방정식, 그리고 아이스크림 판매와 익사 사고가 함께 늘어나는 진짜 이유까지 — 산점도와 손계산으로 풀어 갑니다.

이 글은 확률과 통계 마스터 노트 시리즈의 다섯 번째 편입니다. 이번 편 주제는 회귀분석과 그 동반자 상관관계예요. 두 변수가 함께 변할 때 그 관계를 한 숫자로 압축하고, 한 변수에서 다른 변수를 예측하는 도구입니다.

부동산 면적과 가격, 광고비와 매출, 키와 몸무게 — 데이터 분석 실무에서 가장 자주 등장하는 분석이에요. 머신러닝의 가장 기본 모델인 선형 회귀가 여기서 출발합니다. 4편 가설 검정이 한 변수의 평균을 다뤘다면, 5편은 두 변수의 관계를 다룹니다.

처음 회귀가 어렵게 느껴지는 이유

이유는 두 가지예요.

첫째, r과 R²의 관계가 헷갈립니다. 둘 다 -1~~1 또는 0~~1 사이 숫자라 비슷해 보이는데, 의미가 다릅니다. r은 관계의 방향과 강도, R²는 설명력 비율. 시험에서 "r = 0.8이면 x가 y의 변동을 80% 설명하는가?" 같이 물으면 잘못 답하기 쉬워요(정답 64%).

둘째, 상관관계와 인과관계의 차이가 직관과 어긋납니다. "A와 B가 함께 늘면 A 때문에 B가 늘어난 거 아니야?"라고 생각하기 쉬운데, 통계학의 가장 중요한 경고 중 하나가 "상관 ≠ 인과" 예요. 아이스크림 판매와 익사 사고가 함께 늘어나는 진짜 이유는 둘 다 더운 날씨 때문이지, 아이스크림이 익사를 유발하는 게 아닙니다.

해결법은 두 가지. 첫째, 산점도를 항상 먼저 그린다. 숫자만 보면 함정이 안 보이는데, 산점도를 그리면 비선형 관계·이상치·군집이 한눈에 보여요. 둘째, "제3의 변수가 있을까?" 한 질문을 모든 상관관계 분석에 박아 두세요. 교란 변수 한 가지만 의식해도 분석의 질이 달라집니다.

산점도부터 — 데이터를 눈으로 보기

회귀 분석의 첫 단계는 항상 산점도예요. 두 변수 (x, y)를 점 하나로 표시한 그래프.

x축: 독립 변수(Independent Variable) — 원인 또는 예측 입력
y축: 종속 변수(Dependent Variable) — 결과 또는 예측 출력

레모네이드 매장의 월별 매출을 산점도로 그린다고 합시다.

x (월)	y (매출, 천원)
1	25
2	38
3	29
4	50
5	65

점 5개를 평면에 찍어 보면 오른쪽 위로 향하는 패턴이 보일 거예요. 시간이 지날수록 매출이 늘어나는 양의 관계.

관계의 종류

양의 상관 (Positive) — x↑이면 y↑. 우상향 패턴.
음의 상관 (Negative) — x↑이면 y↓. 우하향 패턴.
상관 없음 (No correlation) — 점들이 무작위로 흩어짐.

피어슨 상관계수 — 관계를 한 숫자로

피어슨 r은 두 변수의 선형 관계의 방향과 강도를 -1부터 1 사이의 한 숫자로 압축합니다.

$$r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \cdot \sum (y_i - \bar{y})^2}}$$

또는 손계산용:

$$r = \frac{n\sum x_i y_i - (\sum x_i)(\sum y_i)}{\sqrt{[n\sum x_i^2 - (\sum x_i)^2][n\sum y_i^2 - (\sum y_i)^2]}}$$

r 값 해석

r 값	해석
1	완전한 양의 선형
0.7 ~ 0.99	강한 양의 상관
0.3 ~ 0.7	중간 양의 상관
0 ~ 0.3	약한 양의 상관
0	선형 관계 없음
-0.3 ~ 0	약한 음의 상관
-0.7 ~ -0.3	중간 음의 상관
-1 ~ -0.7	강한 음의 상관
-1	완전한 음의 선형

여기서 정말 중요한 시험 함정 — r = 0은 "선형 관계 없음"이지 "관계 없음"이 아닙니다. y = x² 같은 비선형 관계는 r이 0에 가까운데도 분명히 강한 종속 관계예요. 그래서 산점도를 먼저 그리는 거예요.

결정계수 R² — 설명력의 비율

$$R^2 = r^2$$

R²는 독립 변수가 종속 변수의 변동을 얼마나 설명하는지의 비율이에요.

r = 0.8 → R² = 0.64 → x가 y 변동의 64% 를 설명. 나머지 36%는 다른 요인.
r = 0.5 → R² = 0.25 → x는 y 변동의 25%만 설명.

여기서 시험 함정이 하나 있어요. r = 0.8이라고 80% 설명이 아닙니다. R² = r² = 0.64 → 64%. r과 R²를 헷갈리면 답이 어긋나요.

단순 선형 회귀 — 회귀선 찾기

회귀선의 방정식

$$\hat{y} = b_0 + b_1 x$$

ŷ: y의 예측값
b₀: y 절편 (x = 0일 때의 y)
b₁: 기울기 (x가 1 증가할 때 y의 변화)

최소제곱법 (Least Squares)

수많은 직선 중에 어떤 게 "최선의 회귀선"일까? 답은 잔차 제곱합을 최소화하는 선이에요.

$$\text{잔차} = e_i = y_i - \hat{y}_i$$

$$\text{SSR} = \sum (y_i - \hat{y}_i)^2 \rightarrow \text{최소화}$$

직관 한 줄. 각 점에서 회귀선까지의 수직 거리를 제곱해 모두 합한 값이 가장 작은 선이 최선이에요. 절댓값이 아니라 제곱을 쓰는 이유는 큰 오차에 더 강하게 페널티를 주기 위함.

기울기와 절편 공식

$$b_1 = r \cdot \frac{S_y}{S_x} = \frac{n\sum x_i y_i - (\sum x_i)(\sum y_i)}{n\sum x_i^2 - (\sum x_i)^2}$$

$$b_0 = \bar{y} - b_1 \bar{x}$$

손으로 풀어 보기

레모네이드 데이터로 회귀선을 구해 봅시다.

x	y	xy	x²
1	25	25	1
2	38	76	4
3	29	87	9
4	50	200	16
5	65	325	25

n = 5, Σx = 15, Σy = 207, Σxy = 713, Σx² = 55.

$$b_1 = \frac{5 \cdot 713 - 15 \cdot 207}{5 \cdot 55 - 15^2} = \frac{3565 - 3105}{275 - 225} = \frac{460}{50} = 9.2$$

$$\bar{x} = 3, \quad \bar{y} = 41.4$$

$$b_0 = 41.4 - 9.2 \cdot 3 = 41.4 - 27.6 = 13.8$$

→ 회귀선: ŷ = 13.8 + 9.2x

6번째 달 매출 예측: ŷ = 13.8 + 9.2 × 6 = 69천 원

회귀선 해석

b₁ = 9.2 → x가 1 단위 증가할 때 y가 9.2 단위 증가. 매월 매출이 9.2천 원씩 증가.
b₀ = 13.8 → x = 0(0번째 달)일 때 예측 y. 수학적 의미는 있지만 실제 의미는 맥락에 따라 달라요.

외삽의 위험 — 관측 범위 밖 예측

회귀선은 관측된 x 범위 안에서만 신뢰할 수 있습니다. 위 예시에서 x는 1~5월만 관측. 100번째 달 매출을 예측하려고 ŷ = 13.8 + 9.2 × 100 = 933천 원이라고 하면 위험해요. 100번째 달엔 시장 포화·계절·경쟁 요인 등이 모두 다를 수 있고, 선형 관계가 그렇게 멀리까지 유지된다는 보장이 없습니다.

여기서 시험 함정이 하나 있어요. 외삽(Extrapolation) — 관측 범위 밖 예측은 통계적으로 위험합니다. 시험에서 "회귀 모델로 X 예측이 안전한가?"를 물을 때 거의 항상 외삽 함정이에요.

잔차 분석 — 모델이 좋은지 검증

잔차 (Residual)

$$e_i = y_i - \hat{y}_i$$

실제 값과 예측값의 차이. 잔차의 패턴이 모델 품질을 알려줍니다.

잔차 도표 (Residual Plot)

x축에 x값, y축에 잔차를 찍은 그래프.

좋은 회귀 — 잔차가 0 주변에 무작위 분포. 패턴 없음.
문제 신호 — 잔차에 패턴(곡선·깔때기 모양 등)이 있음.

세 가지 흔한 문제 신호:

잔차 패턴	의미
곡선 모양	x와 y가 비선형 관계 — 선형 회귀로 부적합
깔때기 모양	등분산성 위반 (이분산성, Heteroscedasticity)
시간순 패턴	잔차가 독립이 아님 (시계열 자기상관)

이상치·레버리지·영향점

용어	정의
이상치 (Outlier)	잔차가 매우 큰 점
레버리지 (Leverage)	x값이 극단적인 점
영향점 (Influential Point)	회귀선 자체에 큰 영향을 주는 점

영향점 한 점이 회귀선의 기울기를 완전히 바꿀 수 있어요. 이상치를 발견하면 데이터를 다시 확인하고, 정당한 이유가 있을 때만 제거합니다.

회귀의 가정 네 가지

선형 회귀가 신뢰 가능하려면 다음 네 가지 가정이 충족돼야 합니다.

선형성 — x와 y의 관계가 선형
독립성 — 잔차들이 서로 독립
등분산성 — 모든 x에서 잔차의 분산 동일
정규성 — 잔차가 정규분포를 따름

이 네 가지를 합쳐 영문 이니셜 LINE (Linearity·Independence·Normality·Equal variance)으로 외우는 사람들도 있어요.

다중 회귀 — 여러 독립 변수

현실 데이터는 변수 하나만으로 설명되지 않아요. 여러 독립 변수를 함께 쓰는 게 다중 회귀.

$$\hat{y} = b_0 + b_1 x_1 + b_2 x_2 + \cdots + b_k x_k$$

부동산 가격 예측이 대표 예시:

$$\text{가격} = b_0 + b_1 \cdot \text{면적} + b_2 \cdot \text{방 수} + b_3 \cdot \text{건축연도}$$

조정된 R² (Adjusted R²)

다중 회귀에서 변수가 많아질수록 R²가 자동으로 증가하는 함정이 있어요. 의미 없는 변수를 추가해도 R²가 올라간다는 거죠. 이걸 보정한 게 조정된 R².

$$R^2_{adj} = 1 - \frac{(1-R^2)(n-1)}{n-k-1}$$

여기서 k는 독립 변수의 수. 변수를 추가했을 때 진짜로 설명력이 늘었으면 R²adj도 올라가지만, 아무 의미 없는 변수면 오히려 떨어집니다.

상관관계 vs 인과관계 — 통계학의 가장 큰 경고

핵심 원칙: 상관관계가 있다고 인과관계가 있는 건 아니다.

가장 유명한 예시 — 아이스크림 판매량과 익사 사고 수가 양의 상관관계. 그런데 아이스크림이 익사를 유발하지 않아요. 둘 다 더운 날씨라는 제3의 변수에 영향받을 뿐입니다. 이런 걸 허위 상관(Spurious Correlation) 또는 교란 변수(Confounding Variable) 라고 해요.

여기서 정말 중요한 시험 함정 — 데이터에서 강한 상관관계를 발견하면 즉시 "왜?"를 묻고 교란 변수를 의심해야 합니다. 예시:

신발 크기와 글쓰기 능력 상관관계 → 둘 다 나이에 영향
TV 시청 시간과 비만율 상관관계 → 활동량 등 여러 교란
헬리콥터 부모와 자녀 성공률 상관관계 → 사회경제적 지위 교란

인과관계를 증명하려면

무작위 통제 실험(RCT) — 무작위로 처치/통제 그룹 나눠 비교. 의약품 임상 시험이 표준.
자연 실험·도구 변수 — 관찰 데이터에서 무작위에 가까운 변동을 활용
차이의 차이(Diff-in-Diff) — 정책 영향 분석 시 표준

관찰 데이터(observational data)만으로는 엄밀한 인과 추론이 어려워요.

공분산 — 상관계수의 친척

$$\text{Cov}(X, Y) = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{n}$$

피어슨 r은 공분산을 표준화한 것:

$$r = \frac{\text{Cov}(X, Y)}{S_x \cdot S_y}$$

공분산은 단위가 있어서 해석이 어려워요(예: cm·kg). 상관계수는 단위 없는 -1~1 숫자라 직관적입니다. 그래서 실무에서 보통 r을 보고합니다.

회귀의 실용 응용

분야	적용
비즈니스	광고비 → 매출 예측
부동산	면적·위치 → 집값 예측
의학	나이·생활습관 → 혈압
경제학	GDP ↔ 실업률
머신러닝	선형 회귀 = ML 기본 모델

시험 직전 한 번 더 — 자주 헷갈리는 함정 모음

여기까지가 5편의 핵심입니다. 시험 직전 또는 실무에서 헷갈릴 때 다시 펼쳐 볼 수 있게 압축 노트로 마무리할게요.

산점도 먼저 — 비선형 관계·이상치 한눈에
양의 상관 = 우상향 / 음의 상관 = 우하향
피어슨 r ∈ [-1, 1] — 방향과 강도
|r| ≥ 0.7 강함 / 0.3~0.7 중간 / < 0.3 약함
r = 0은 선형 관계 없음, 비선형 관계는 가능 (y = x²이면 r ≈ 0)
R² = r² — 설명력 비율 (r = 0.8이면 R² = 0.64, 64% 설명)
회귀선 ŷ = b₀ + b₁x
최소제곱법 — 잔차 제곱합 최소
b₁ = r·(S_y / S_x), b₀ = ȳ - b₁·x̄
외삽 위험 — 관측 범위 밖 예측은 신뢰도 낮음
잔차 = y - ŷ — 좋은 회귀는 잔차가 무작위
잔차 곡선 패턴 = 비선형 / 깔때기 = 이분산성
회귀 가정 LINE — Linearity·Independence·Normality·Equal variance
이상치 vs 레버리지 vs 영향점 구분
다중 회귀 — 여러 x로 y 예측
조정된 R² — 변수 수 보정, 의미 없는 변수 추가 시 떨어짐
상관 ≠ 인과 — 가장 중요한 경고
교란 변수(Confounding Variable) — 제3의 변수
인과 증명 — 무작위 통제 실험(RCT)이 표준
공분산 = 단위 있음, 상관계수 = 표준화된 단위 없는 r
머신러닝의 가장 기본 모델 = 선형 회귀

시리즈 다른 편

같은 시리즈의 다른 글들도 같은 톤으로 묶어 정리되어 있어요. 5편까지 왔다면 마지막 6편은 한결 가볍습니다. 카이제곱·ANOVA·비모수 — 가설 검정을 다양한 데이터 형태로 확장하는 자리예요.

공식 문서: Khan Academy 회귀 강좌와 scikit-learn 선형 회귀 가이드에서 더 깊이 갈 수 있어요.

다음 글(6편)에서는 범주형 데이터를 다루는 카이제곱 검정과 세 그룹 이상의 평균 비교인 ANOVA, 그리고 정규성 가정 없이 쓰는 비모수 통계를 풀어 갑니다. 시리즈 마무리.

※ 이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.