실험 통계 기초
이번 포스팅에서는 통계에 익숙하지 않은 배경에서
실험에 어떤 통계적 방법을 이용할 수 있는지에 대해 개괄적으로 설명하고자 한다.
가장 흔하게 쓰이는 방법을 소개할 것이며,
이는 어디까지나 시작에 대한 한 가지 단순 접근법이기 때문에
통계학 수업을 들으면서 이론 및 실습에 대한 공부와 이해가 반드시 뒤따라야 한다.
1. 분포에 대한 이해
내가 수집한 데이터가 어떤 분포를 따르는지 먼저 검정해야 한다.
일반적으로는 정규분포를 따르는 경우가 많기 때문에,
데이터가 수집되었다면
1) 정규성 검정(shapiro test, Q-Q plot)
2) 등분산성 검정(Levene's test, residual plot)
3) 독립성 검정(Durbin - Watson test, residual plot)을 실시한다.
회귀 분석이나 분산 분석을 통한 그룹 비교는 같은 분포를 따르고, 같은 분산을 가지고 있으며, 서로 상관성이 없는 독립적인 데이터라는 가정을 충족시켜야 한다.
위 검정 방법은 오차항과 잔차를 통해 이를 검정하며
이들의 귀무가설(H0)은 각각
'정규분포를 따른다', '등분산이다', '독립적이다'이므로 검정 결과 p-value가 .05보다 커야 가정을 만족시킨다.
2. 그룹 비교 검정 방법
2-1) 정규성을 만족시키는 경우
각 그룹이 정규분포를 따른다는 가정을 만족하면 모수적(parametric) 검정 방법을 사용할 수 있다.
흔히 두 그룹은 t-test로, 세 그룹 이상은 F-test (분산분석, ANOVA)를 사용한다.
한 가지 변수에 대해 두 그룹을 비교하는 경우에는 독립 표본 t-test를 사용하고,
한 가지 변수에 대해 한 그룹의 전-후를 비교하는 경우에는 paired t-test를 사용한다.
세 그룹 이상을 비교할 때는 변수의 개수에 따라
일원분산분석 (one-way ANOVA), 혹은 이원분산분석 (two-way ANOVA)을 사용한다.
2-2) 정규성을 만족시키지 않는 경우
각 그룹이 정규분포를 따르지 않는다면 (즉, 정규성 결과 p-value가 .05보다 작다면)
비모수적(non-parametric) 검정 방법을 사용해야 한다.
한 가지 변수에 대해 두 그룹을 비교하는 경우에는 Wilcoxon Rank Sum test(= Mann-Whitney test)를 사용하고,
한 가지 변수에 대해 한 그룹의 전-후 비교를 할 때는 Wilcoxon Signed Rank Sum test를 사용한다.
세 그룹 이상을 비교할 때는 Kruskal-Wallis test를 사용한다.
3. 결과 해석
R이나 Python의 통계 라이브러리를 이용하면 쉽게 검정할 수 있다.
방법에 대한 구체적인 설명도 이미 온라인에 많으므로 찾아볼 수 있으며,
chatGPT나 Bing AI를 통해서도 검정 방법이나 해석 방법에 대해 알 수 있다.
가장 기본적인 해석은 p-value다.
각 통계 검정의 p-value가 .05보다 작으면 귀무가설 (H0: 모든 그룹이 같다)을 기각하고
대립가설 (H1: 두 그룹은 같지 않다. 차이가 있다. 차이가 나는 그룹이 하나 이상 있다 등)을 채택한다.
반대로 p-value가 .05보다 크면 귀무가설을 기각하지 못하므로 '그룹들은 차이가 없다'고 해석할 수 있다.
p-value의 한계 때문에 최근에는,
특히 연산 횟수가 매우 많은 유전자 등의 통계에서는 p-value를 엄격하게 사용하거나 (Bonferroni correction)
FDR (False Discovery Rate)을 사용하기도 한다.
이러한 경향에 대해서는 본인 분야의 논문을 따르는 것이 안전하다.
- 사후 분석
세 그룹의 이상의 경우, ANOVA는 '다른 분산을 가지는 그룹이 있다'만 검정 가능하다.
따라서 어떤 그룹이 다른지는 사후 분석(Post-hoc)을 통해 검정해야 한다.
사후 분석 방법으로는 튜키(Tukey) HSD, 본페로니(Bonferroni correction), 샤페(Scheffe) 등을 사용하며,
샤페가 가장 엄격하지만 2종 오류 가능성도 있으므로 다각도로 시행해 보는 것이 좋다.
4. 그 밖의 방법들
4-1) 반복측정 분산분석 (Repeated Measures ANOVA)
자극-반응-자극-반응-자극-반응 식으로 주기적으로 자극을 주고 그에 대한 반응을 얻는 데이터에서는
반복측정 ANOVA를 사용하여 변화 여부를 확인할 수 있다.
4-2) 카이제곱 검정 (X-squared Test)
카이제곱 검정은 연속형 변수가 아닌 범주형 변수에 대해 사용할 수 있다.
수식에서 확인할 수 있듯이 (관측값 - 기대값) 제곱을 기대값으로 나누어 합한 값이다.
여기서 보통 기대값은 산술 평균값이다.
즉, 관측 데이터가 평균에서 얼마나 떨어져 있는지를 확인하는 검정이라고 이해할 수 있다.
관측값과 평균에 대한 관계식이라는 점에서 카이제곱 검정도 상당히 활용처가 많다.
Goodness-of-fit: (예측) 모형이 실제 데이터와 얼마나 잘 맞아 떨어지는가
Homogeneity test: 두 집단의 분포가 동일한가
Independence Test: 각 데이터들은 서로 독립인가
카이제곱검정은 카이제곱 분포를 따른다는 가정으로 검정한다.
4-3) 상관분석 (correlation Anlaysis)
말 그대로 변수 간 상관관계가 있는지 확인하는 방법이다.
상관분석 역시 정규성 검정 후에 모수적 상관(선형성 가정) 방법인 피어슨 상관 계수(Pearson Correlation Coefficient)
를 사용하거나 비모수적 상관(비선형적) 방법인 스피어만(Spearman) 상관 계수나 켄달 타우(Kendall Tau)를 사용한다
일반적으로 |0.5|이상부터 상관성이 있다고 보며, 음의 값이면 부적 상관이 있다고 해석한다.
4-4) 회귀분석 (Regression Analysis)
회귀 분석은 하나의 종속변수에 대해 여러 독립 변수가 얼만큼의 영향력을 가지는지 분석하는 방법이라고 할 수 있다.
간단히 말하면, 산점도에서 모든 데이터 포인트에서 가장 가까운 추세선에 대한 방정식이라고 할 수 있다 (OLS).
예를 들어, y = b + a1x1 + a2x2 + e 라는 2개 변수에 대한 방정식을 찾았다면,
종속변수 y에 대해 x1 변수는 a1만큼, x2 변수는 a2 만큼 영향력을 가진다는 의미다.
영어 성적 = b + 3*재능 + 4*집안 경제력 + e라는 방정식이 세워졌다면,
다른 변수들이 고정되었을 때 재능은 3만큼의 영향력을, 집안 경제력은 4만큼의 영향력을 가진다고 볼 수 있다.
이러한 회귀 분석은 '예측'을 할 수 있게 해 준다는 점에서 광범위한 응용이 가능하다.