논문 통계분석, p-value와 t-value
어서와! 논문은 처음이지
처음 통계분석을 배우면 가장 많이 듣는 단어가 있다.
바로 p-value와 t-value다.
하지만 많은 학생들은 숫자만 외울 뿐, 실제 의미는 잘 이해하지 못하는 경우가 많다.
특히 논문을 처음 쓰는 학생들은 p값이 0.05보다 작으면 유의하다 정도로만 외우는 경우도 많다.
하지만 통계는 단순 계산이 아니라 결과를 얼마나 믿을 수 있는지를 설명하는 과정에 가깝다.
그래서 숫자의 의미를 이해하는 것이 중요하다.

1. p-value는 결과를 얼마나 믿을 수 있는지를 보여주는 숫자다.
쉽게 말하면 p값은 우연히 이런 결과가 나올 가능성이 얼마나 되는지를 의미(우연히 발생할 확률)한다.
예를 들어 어떤 학생이 새로운 공부법을 사용한 뒤 시험 점수가 크게 올랐다고 가정해보자.
이때 정말 공부법 효과 때문인지, 아니면 그냥 우연히 점수가 오른 것인지 확인해야 한다.
바로 이 가능성을 계산하는 것이 p-value다.
보통 논문에서는 아래 기준을 많이 사용한다.
- p < 0.05
→ 결과가 우연일 가능성이 5% 이하
→ 약 95% 정도 신뢰 가능 - p < 0.01
→ 결과가 우연일 가능성이 1% 이하
→ 약 99% 정도 신뢰 가능 - p < 0.001
→ 결과가 우연일 가능성이 0.1% 이하
→ 매우 강한 신뢰 수준
즉, p값이 작을수록 연구 결과를 더 신뢰할 가능성이 높아진다.
그래서 논문에서는 보통 p값이 0.05보다 작으면 통계적으로 유의하다라고 표현한다.
2. t-value는 차이가 얼마나 큰지를 보여주는 숫자다.
많은 학생들이 p값만 중요하다고 생각한다.
하지만 실제 통계에서는 t값도 매우 중요하다.
t-value는 두 집단 차이가 얼마나 큰지를 계산하는 값(흩어짐(분산)과 표본 크기)이다.
예를 들어 AI를 사용한 학생 그룹과 사용하지 않은 학생 그룹의 시험 점수를 비교한다고 생각해보자.
두 그룹 점수 차이가 크면 t값도 커질 가능성이 높다.
즉, t값은 결과 차이가 얼마나 뚜렷한지를 보여주는 숫자에 가깝다.
보통은 t값이 크고 p값이 작을수록 결과 신뢰성이 높아진다.
하지만 숫자가 크다고 무조건 좋은 연구는 아니다.
데이터 수집 과정과 연구 설계가 함께 중요하다.
3. 왜 통계 결과를 맹신하면 위험할까
많은 학생들이 p값만 보고 연구 결과를 판단하려고 한다.
하지만 실제 연구에서는 숫자만으로 모든 것을 설명할 수는 없다.
예를 들어 p값이 0.05보다 작더라도 표본 수가 너무 적거나 데이터 자체가 잘못되었다면 연구 결과 신뢰성은 낮아질 수 있다.
또 최근에는 AI를 이용해 통계 결과를 자동으로 분석하는 경우도 늘어나고 있다.
하지만 AI 역시 잘못된 데이터를 입력하면 잘못된 결과를 만들 수 있다.
그래서 연구자는 단순히 숫자만 보는 것이 아니라 왜 이런 결과가 나왔는지 함께 해석해야 한다.
결국 연구자는 통계 프로그램을 잘 다루는 사람만이 아니다.
숫자의 의미를 이해하고, 결과를 비판적으로 해석할 수 있는 사람이다.
통계는 단순 계산이 아니라 연구 결과를 얼마나 신뢰할 수 있는지를 설명하는 언어에 가깝기 때문이다.
* 내용 출처 : 어서와 논문은 처음이지_Alice의 단계별 고급통계분석(2023). 이채현, 이종섭, 김영대, 최정일. 도서출판 청람