"키가 크면 발도 크다", "공부 시간이 길수록 성적이 높다"

우리는 일상에서 두 가지 현상이 함께 움직이는 것을 자주 목격한다.

이처럼 두 변수 사이의 관계를 수치로 측정하고 분석하는 것이 바로 상관관계 분석이다.

 

* 이미지 출처 : NotebookLM 요약 생성

1. 상관관계 분석이란 무엇인가?

 

상관관계(Correlation)란 두 변수가 서로 어떤 방향으로, 얼마나 강하게 연관되어 움직이는지를 나타내는 통계적 개념이다.

 

예를 들어,

 

- 운동량이 늘어날수록 체지방률이 낮아진다면 → 부적(음) 상관관계

- 학습 시간이 늘어날수록 시험 점수도 높아진다면 → 정적(양) 상관관계

- 신발 사이즈와 지능지수 사이에 아무 관련이 없다면 → 무상관

 

이 관계를 수치 하나로 표현한 것이 상관계수(Correlation Coefficient)이다.

가장 널리 쓰이는 것은 피어슨 상관계수(Pearson's r)로, -1에서 +1 사이의 값을 가진다.

 

* 중요한 주의사항 : 상관관계는 인과관계(causation)가 아니다.

두 변수가 함께 움직인다고 해서 하나가 다른 하나를 '일으킨다'고 말할 수는 없다.

아이스크림 판매량과 익사 사고 건수는 여름에 함께 증가하지만, 아이스크림이 익사를 유발하는 것은 아니다.

두 변수 모두 '더위'라는 제3의 변수에 의해 영향을 받을 뿐이다.

 

 

 

2. 상관관계 분석의 기준은 어떻게 될까요?

 

강도 해석(Cohen, 1988 기준)

절댓값 범위 해석
0.00 ~ 0.19 매우 약한 상관
0.20 ~ 0.39 약한 상관
0.40 ~ 0.59 보통 상관
0.60 ~ 0.79 강한 상관
0.80 ~ 1.00 매우 강한 상관

 

예시로 r = -0.72라면 "강한 부적 상관관계가 있다"고 해석한다.

 

* 통계적 유의성(p-value) : 상관계수의 강도만큼이나 중요한 것이 통계적 유의성이다.

아무리 r값이 높아 보여도, p-value가 0.05보다 크다면 그 결과는 우연에 의한 것일 수 있다.

 

- p < 0.05 → 통계적으로 유의미함 (95% 신뢰 수준)

- p < 0.01 → 더욱 강력한 통계적 유의성

- p ≥ 0.05 → 유의미하지 않음, 해석에 주의 필요

 

* 어떤 상관계수를 쓸까?

데이터의 성격에 따라 적합한 상관계수가 다르다.

 

- 피어슨(Pearson's r): 두 변수 모두 연속형이고 정규분포를 따를 때

- 스피어만(Spearman's ρ): 서열 척도이거나 정규분포를 벗어날 때

- 켄달(Kendall's τ): 소표본이거나 동점이 많을 때

 

---

3. 상관관계 분석이 필요한 이유

* 가설 검증의 출발점 : 연구는 대부분 "A와 B는 관련이 있을 것이다"는 가설에서 시작한다.

상관관계 분석은 이 가설을 검증하는 가장 기초적이고 직관적인 방법이다.

회귀분석, 구조방정식 같은 복잡한 통계 모형을 적용하기 전에 변수들 간의 기초 관계를 먼저 파악하는 것이 연구의 올바른  순서이다.

 

* 변수 선택과 모형 설계 : 연구에서 분석할 변수를 선택할 때, 상관관계 분석은 중요한 판단 기준을 제공한다.

 

- 독립변수와 종속변수 사이에 충분한 상관이 없다면, 그 변수는 설명력이 없을 가능성이 높다.

- 독립변수들 사이의 상관이 너무 높다면(r > 0.8), 다중공선성 문제가 발생할 수 있어서 회귀분석 등의 결과를 왜곡시킬 수 있다.

 

* 실무와 정책에서의 활용 : 상관관계 분석은 학술 연구만의 도구가 아니다.

- 마케팅 : 광고 노출 횟수와 구매 전환율의 관계

- 의료 : 특정 생활습관과 질병 발생률의 관계

- 교육 : 수업 참여도와 학업 성취도의 관계

- 경제 : 금리 변동과 소비 지출의 관계

 

이처럼 두 현상 사이의 패턴을 파악함으로써, 개입하고 예측하고 정책을 설계하는 데 중요한 근거를 마련할 수 있다.

 

---

 

# 상관관계 분석은 복잡한 현실 세계의 관계를 하나의 숫자로 요약하는 강력한 도구이다.

그러나 그 숫자를 올바르게 읽기 위해서는 방향, 강도, 유의성, 그리고 인과관계와의 구분을 항상 염두에 두어야 한다.

 

 

* 참고: Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Lawrence Erlbaum Associates.