4개

연구에서 왜도(Skewness)와 첨도(Kurtosis)는 무엇일까?
No Image
경로분석 결과에서 정(+)의 영향, 부(-)의 영향, 기각의 해석은 어떻게 할까?
No Image
양적 연구와 질적 연구란 무엇일까?
No Image
논문 통계분석, p-value와 t-value
No Image

연구에서 왜도(Skewness)와 첨도(Kurtosis)는 무엇일까?

연구에서 통계분석을 진행 할 때 기본적으로 진행하는 몇가지 분석들이 있다. 

그 중 하나는 왜도, 첨도 분석이다. 

 

1. 왜도(Skewness)란 무엇인가?

- 왜도(歪度)는 데이터 분포의 비대칭성(좌우로 치우친 정도)을 나타내는 지표입니다. 쉽게 말해 "정규분포(종 모양)에 비해 한쪽 꼬리가 얼마나 긴가?"를 보여준다.

 

* 왜도 = 0: 완벽한 좌우 대칭이다. (정규분포)

* 왜도 > 0 (양의 왜도 / 오른쪽으로 긴 꼬리): 데이터가 왼쪽에 몰려 있고, 오른쪽으로 길게 꼬리가 늘어진 형태이다. 평균이 중앙값보다 큰 경우가 많다. (예: 소득 분포, 대부분의 사람은 평범하지만 극소수의 고소득자가 오른쪽에 위치함)

* 왜도 < 0 (음의 왜도 / 왼쪽으로 긴 꼬리): 데이터가 오른쪽에 몰려 있고, 왼쪽으로 길게 꼬리가 늘어진 형태이다. (예: 난이도가 아주 쉬운 시험의 점수 분포, 대부분 고득점이지만 일부가 낮은 점수를 받음)

 

* 이미지 출처 : Genspark 요약 생성

 

2. 첨도(Kurtosis)란 무엇인?

- 첨도(尖度)는 데이터 분포의 뾰족한 정도(중심에 얼마나 몰려 있는가)와 꼬리의 두께를 나타내는 지표이다.

 

* 첨도 = 0 (또는 기준에 따라 3): 기준이 되는 정규분포의 뾰족함이다.

    (엑셀이나 SPSS 등 통계 프로그램에서는 정규분포를 0으로 맞추는 '초과 첨도'를 주로 사용한다.)

* 첨도 > 0 (정규분포보다 뾰족함): 중앙에 데이터가 아주 빽빽하게 모여 있어 정 정점 부위가 뾰족하고, 양쪽 꼬리가 두꺼운 형태이다. (극단적인 예외 값이 존재할 가능성이 높음)

* 첨도 < 0 (정규분포보다 완만함): 정점 부위가 뭉툭하고 평평한 형태를 띱니다. 데이터가 중심에 모이지 않고 넓게 퍼져 있음을 의미한다.

 

* 이미지 출처 : Genspark 요약 생성

 

 

3. 왜도와 첨도는 왜 연구에서 필요할까?

통계 분석을 활용하는 연구(특히 석·박사 학위논문이나 학술지 투고 논문)에서 왜도와 첨도를 반드시 확인해야 하는 이유

 

① '정규성 가정' 검정 (가장 중요한 이유)대부분의 계량적 연구에서 사용하는 주요 통계 분석 방법(t-test, ANOVA, 회귀분석 등)은 "수집된 데이터가 정규분포를 따른다"는 정규성 가정(Normality Assumption)을 전제로 한다.

 

- 데이터가 정규성을 만족해야만 분석 결과의 신뢰성을 보장할 수 있다. 학계에서 통용되는 일반적인 기준에 따르면, 왜도의 절대값이 2 미만, 첨도의 절대값이 4~7 미만(학자나 문헌에 따라 조금씩 기준은 다름)이면 정규성을 크게 벗어나지 않는 것으로 보고 모수 통계 분석을 진행할 수 있다.

 

② 데이터의 이상치(Outlier) 확인첨도가 지나치게 높다면, 이는 데이터 중심부에만 사람이 몰려 있는 게 아니라 양쪽 끝(꼬리)에 아주 극단적인 값(이상치)들이 존재한다는 강력한 신호이다. 이러한 이상치는 연구 전체의 평균을 왜곡할 수 있으므로, 왜도와 첨도를 통해 데이터 정제(Cleaning)가 필요한지 판단할 수 있다.

 

* 이미지 출처 : Genspark 요약 생성

경로분석 결과에서 정(+)의 영향, 부(-)의 영향, 기각의 해석은 어떻게 할까?

정(+)의 영향, 부(-)의 영향, 기각 결과를 어떻게 써야 할까?

 

논문에서 경로분석을 처음 해보면 헷갈리는 부분 중 하나가 바로 결과 해석이다.

SPSS, SmartPLS, R 등의 분석 도구를 통해서 회귀분석을 하면 결과표에 숫자와 유의확률이 나온다.

그런데 문제는 그 다음이다.

 

이 결과를 논문 문장으로 어떻게 써야 하는지 막막해진다.

특히 초보연구자들은 아래와 같은 고민을 많이 한다.

 

정(+)의 영향은 뭐라고 써야 하지?
부(-)의 영향은 나쁜 결과인가?
기각이면 연구가 실패한 건가?

 

하지만 너무 어렵게 생각할 필요는 없다.

경로분석은 결국 “A가 B에 어떤 방향으로 영향을 주는가”를 보는 과정이다.

쉽게 말하면 아래와 같다.

 

A가 커질수록 B도 커지는가?
A가 커질수록 B는 줄어드는가?
아니면 영향이 없는가?

 

이 세 가지를 확인하는 것이 핵심이다.

 

* 이미지 출처 : NotebookLM 요약 생성

 


1. 정(+)의 영향을 미치는 결과

A가 증가하면 B도 함께 증가하는 경우

정(+)의 영향은 가장 많이 나오는 결과다.

 

쉽게 말하면 하나가 높아질수록 다른 것도 같이 높아진다는 의미다.

예를 들어 설명해보자.

AI 활용 능력이 높아질수록 연구 만족도가 높아졌다.

이 경우 AI 활용 능력과 연구 만족도는 정(+)의 관계라고 볼 수 있다.

쉽게 말하면 AI를 잘 활용하는 사람일수록 연구 만족도도 높다는 뜻이다.


이해하는 쉬운 예시

공부 시간이 늘어날수록 시험 점수가 올라간다.

운동을 많이 할수록 체력이 좋아진다.

친절한 서비스가 많을수록 고객 만족도가 높아진다.

이런 구조가 모두 정(+)의 영향이다.


논문에서 실제로 쓰는 문장

① AI 활용 능력은 연구 만족도에 정(+)의 영향을 미치는 것으로 나타났다.

② AI 활용 수준이 높아질수록 연구 만족도도 함께 증가하는 것으로 확인되었다.

③ 분석 결과, AI 활용 능력은 연구 만족도를 향상시키는 요인으로 나타났다.


 

2. 부(-)의 영향을 미치는 결과

A가 증가하면 B는 감소하는 경우

부(-)의 영향이라고 해서 무조건 나쁜 결과는 아니다.

 

많은 초보연구자들이 부(-)라는 단어 때문에 실패했다고 오해한다.

하지만 부(-)는 단순히 방향이 반대라는 의미다.

예를 들어보자.

연구 스트레스가 높아질수록 연구 만족도는 낮아졌다.

이 경우 스트레스는 만족도를 감소시키는 방향으로 영향을 준 것이다.


이해하는 쉬운 예시

스마트폰 사용 시간이 많아질수록 집중력은 떨어진다.

피로가 많아질수록 운동 능력은 감소한다.

대기 시간이 길어질수록 고객 만족도는 낮아진다.

이런 구조가 부(-)의 영향이다.


논문에서 실제로 쓰는 문장

① 연구 스트레스는 연구 만족도에 부(-)의 영향을 미치는 것으로 나타났다.

② 스트레스 수준이 높아질수록 연구 만족도는 감소하는 것으로 확인되었다.

③ 분석 결과, 연구 스트레스는 만족도를 저해하는 요인으로 나타났다.


 

 

3. 기각의 결과

영향이 없는 경우

초보연구자들이 가장 당황하는 결과가 바로 기각이다.

하지만 기각이 나왔다고 해서 연구가 실패한 것은 아니다.

 

기각은 단순히 “예상했던 영향이 통계적으로 확인되지 않았다”는 의미다.

즉, 영향이 아예 없다고 단정하는 것이 아니라, 이번 연구에서는 유의한 결과가 확인되지 않았다는 뜻이다.


이해하는 쉬운 예시

예상하기로는 게임 시간이 많으면 성적이 떨어질 줄 알았다.

그런데 실제 분석해보니 큰 차이가 없었다.

이 경우 가설은 기각된다.


논문에서 실제로 쓰는 문장

① AI 활용 능력은 연구 몰입에 유의한 영향을 미치지 않는 것으로 나타났다.

② 분석 결과, 연구 스트레스와 연구 성과 간의 관계는 통계적으로 유의하지 않았다.

③ 해당 가설은 유의한 결과가 나타나지 않아 기각되었다.


기각이라고 해서 실패한 연구는 아니다.

오히려 기각 결과는 새로운 의미를 만들기도 한다.

왜 예상과 다른 결과가 나왔는지 해석하는 과정에서 연구의 가치가 생기기도 한다.

실제로 논문에서는 모든 가설이 채택되는 것보다 일부 기각이 있는 경우가 더 자연스럽게 보이기도 한다.

억지로 모든 결과를 맞추려고 하는 것이 오히려 더 위험할 수 있다.

 

단, 기각의 결과로 새로운 의미를 만들기는 하지만,

전체 채택과 기각의 비율을 구분하여 채택 70%, 기각 30% 정도 나온다면 아주 좋은 결과라 할 수 있다. 

양적 연구와 질적 연구란 무엇일까?

어서와! 학술지는 처음이지

처음 논문을 쓰기 시작하면 많이 보고 듣는 단어가 양적 연구와 질적 연구다.

하지만 처음 들으면 이름부터 어렵게 느껴진다.

사실 아주 쉽게 생각하면 된다.

 

양적 연구는 숫자로 결과를 설명하는 연구이고, 질적 연구는 사람의 생각과 경험을 깊게 이해하는 연구다.

 

 

* 이미지 출처 : ChatGPT 요약 생성


1. 양적 연구는 숫자로 결과를 분석하는 연구다.

양적 연구는 의견이나 행동을 숫자로 정리해서 분석하는 방법이다.

 

예를 들어 학생 100명에게 AI를 얼마나 사용하는지 설문조사를 했다고 생각해보자.

그리고 AI를 많이 사용하는 학생들이 시험 점수도 높은지 통계로 분석할 수 있다.

이렇게 숫자와 그래프를 사용해서 결과를 설명하는 방식이 양적 연구다.

 

그래서 양적연구에서는 설문조사와 통계분석을 많이 사용한다.

장점은 많은 사람 데이터를 한 번에 비교할 수 있다는 점이다.

 

하지만 왜 그런 생각을 했는지, 어떤 감정을 느꼈는지까지는 숫자만으로 자세히 알기 어려운 경우도 있다.


2. 질적 연구는 사람 생각과 경험을 이해하는 연구다.

질적 연구는 숫자보다 사람 이야기를 더 중요하게 생각하는 연구다.

 

예를 들어 학생들이 AI를 사용하면서 어떤 고민을 하는지 알고 싶다고 생각해보자.

이때는 설문조사보다 직접 인터뷰를 하는 것이 더 도움이 될 수 있다.

학생 한 명 한 명 이야기를 들으면서 어떤 경험을 했는지 깊게 이해하는 것이다.

이런 방식이 질적 연구다.

 

질적 연구는 사람 감정과 생각을 자세히 이해할 수 있다는 장점이 있다.

하지만 사람 수가 적을 수 있기 때문에 모든 사람에게 똑같이 적용하기는 어려운 경우도 있다.


3. 중요한 것은 어떤 연구가 더 좋은지가 아니다!

많은 학생들이 궁금해한다.

 

양적 연구가 더 좋은가요?
질적 연구가 더 좋은가요?

 

하지만 실제로는 어떤 방법이 더 뛰어난지가 중요한 것이 아니다.

 

더 중요한 것은 내가 알고 싶은 문제에 어떤 방법이 더 잘 맞는지다.

 

예를 들어 많은 학생들의 평균 의견을 알고 싶다면 양적 연구가 더 잘 맞을 수 있다.

반대로 학생들이 왜 그런 생각을 하는지 깊게 이해하고 싶다면 질적 연구가 더 잘 맞을 수 있다.

또 최근에는 두 방법을 함께 사용하는 경우도 많다.

 

예를 들어 먼저 설문조사를 하고, 이후 인터뷰를 추가로 진행하는 방식이다.

결국 좋은 연구자는 어려운 통계만 잘하는 사람이 아니다.

 

내 연구 질문에 가장 잘 맞는 방법을 선택할 수 있는 사람이다.

논문은 단순히 숫자를 계산하는 작업이 아니라, 문제를 가장 잘 설명할 수 있는 방법을 찾는 과정에 더 가깝다.

 

 

 

* 내용 출처 : 어서와 학술지는 처음이지_데이터를 활용한 학술논문(2025). 이채현, 허성일, 서재이, 피채희, 최정일. 도서출판 청람.

논문 통계분석, p-value와 t-value

어서와! 논문은 처음이지

처음 통계분석을 배우면 가장 많이 듣는 단어가 있다.

바로 p-value와 t-value다.

 

하지만 많은 학생들은 숫자만 외울 뿐, 실제 의미는 잘 이해하지 못하는 경우가 많다.

특히 논문을 처음 쓰는 학생들은 p값이 0.05보다 작으면 유의하다 정도로만 외우는 경우도 많다.

 

하지만 통계는 단순 계산이 아니라 결과를 얼마나 믿을 수 있는지를 설명하는 과정에 가깝다.

그래서 숫자의 의미를 이해하는 것이 중요하다.

 

 

* 이미지 출처 : ChatGPT 요약 생성


1. p-value는 결과를 얼마나 믿을 수 있는지를 보여주는 숫자다.

쉽게 말하면 p값은 우연히 이런 결과가 나올 가능성이 얼마나 되는지를 의미(우연히 발생할 확률)한다.

 

예를 들어 어떤 학생이 새로운 공부법을 사용한 뒤 시험 점수가 크게 올랐다고 가정해보자.

이때 정말 공부법 효과 때문인지, 아니면 그냥 우연히 점수가 오른 것인지 확인해야 한다.

바로 이 가능성을 계산하는 것이 p-value다.

 

보통 논문에서는 아래 기준을 많이 사용한다.

  • p < 0.05
    → 결과가 우연일 가능성이 5% 이하
    → 약 95% 정도 신뢰 가능
  • p < 0.01
    → 결과가 우연일 가능성이 1% 이하
    → 약 99% 정도 신뢰 가능
  • p < 0.001
    → 결과가 우연일 가능성이 0.1% 이하
    → 매우 강한 신뢰 수준

즉, p값이 작을수록 연구 결과를 더 신뢰할 가능성이 높아진다.

그래서 논문에서는 보통 p값이 0.05보다 작으면 통계적으로 유의하다라고 표현한다.


2. t-value는 차이가 얼마나 큰지를 보여주는 숫자다.

많은 학생들이 p값만 중요하다고 생각한다.

하지만 실제 통계에서는 t값도 매우 중요하다.

 

t-value는 두 집단 차이가 얼마나 큰지를 계산하는 값(흩어짐(분산)과 표본 크기)이다.

예를 들어 AI를 사용한 학생 그룹과 사용하지 않은 학생 그룹의 시험 점수를 비교한다고 생각해보자.

두 그룹 점수 차이가 크면 t값도 커질 가능성이 높다.

즉, t값은 결과 차이가 얼마나 뚜렷한지를 보여주는 숫자에 가깝다.

 

보통은 t값이 크고 p값이 작을수록 결과 신뢰성이 높아진다.

하지만 숫자가 크다고 무조건 좋은 연구는 아니다.

데이터 수집 과정과 연구 설계가 함께 중요하다.


3. 왜 통계 결과를 맹신하면 위험할까

많은 학생들이 p값만 보고 연구 결과를 판단하려고 한다.

 

하지만 실제 연구에서는 숫자만으로 모든 것을 설명할 수는 없다.

예를 들어 p값이 0.05보다 작더라도 표본 수가 너무 적거나 데이터 자체가 잘못되었다면 연구 결과 신뢰성은 낮아질 수 있다.

또 최근에는 AI를 이용해 통계 결과를 자동으로 분석하는 경우도 늘어나고 있다.

 

하지만 AI 역시 잘못된 데이터를 입력하면 잘못된 결과를 만들 수 있다.

그래서 연구자는 단순히 숫자만 보는 것이 아니라 왜 이런 결과가 나왔는지 함께 해석해야 한다.

결국 연구자는 통계 프로그램을 잘 다루는 사람만이 아니다.

 

숫자의 의미를 이해하고, 결과를 비판적으로 해석할 수 있는 사람이다.

통계는 단순 계산이 아니라 연구 결과를 얼마나 신뢰할 수 있는지를 설명하는 언어에 가깝기 때문이다.

 

 

 

* 내용 출처 : 어서와 논문은 처음이지_Alice의 단계별 고급통계분석(2023). 이채현, 이종섭, 김영대, 최정일. 도서출판 청람