본문 바로가기
공부하기/경영학과 군사학

통계분석방법 기초 모음: 빈도분석, 평균분석, 변량분석, 상관분석, 회귀분석

by 리치캣 2020. 2. 17.
728x90
반응형

통계학 기초에 대한 자료 모음

=========================================

통계분석방법의 종류와 이해, 빈도분석, 평균분석, 변량분석, 상관분석, 회귀분석

확률과 통계 2018.12.22 20:42

과학은 어떠한 현상을 설명하는 가설을 세우고, 관찰과 실험을 통해 가설이 맞는지 틀리는지 검증(검정)한다. 가설이 참이라고 검증되면 하나의 이론이 된다. 참고로 가설과 이론의 사전적 의미는 다음과 같다

 

가설어떤 사실을 설명하거나 어떤 이론 체계를 연역하기 위하여 설정한 가정. [표준국어대사전]

이론사물의 이치나 지식 따위를 해명하기 위하여 논리적으로 정연하게 일반화한 명제의 체계. [표준국어대사전]

 

가설을 검증하는 단계에서 주로 통계분석방법을 활용한다. 통계분석방법에는 빈도분석, 평균분석, 변량분석, 상관분석, 회귀분석이 있다. 오늘은 5가지 분석방법은 각각 무엇이고, 어떤 상황에 어떤 분석방법을 써야하는지에 대해서 정리하려고 한다.

 

통계분석방법

1) 빈도분석 ( 검증, 카이자승 검증)

측정하여 얻은 데이터가 사람 수, 횟수 등의 빈도인 경우에 사용한다. 이 방법은 집단 간 빈도 차를 비교한다

 

예를 들어, ' 10시부터 12시 사이에 치킨, 피자, 떡볶이를 시켜먹는 사람 수는 차이가 있을 것이다'라는 가설을 검증하려면 빈도분석을 해야한다. 재미삼아 예를 들었지만, 통계적으로 유의미한 차이가 있을지 궁금하다. 누군가 연구해봐도 좋을 것 같다

 

2) 평균분석(t 검증)

측정하여 얻은 데이터가 점수 비교해야할 집단이 두 개만 존재할 때두 개 집단의 평균 등을 비교하여 가설을 검증한다

 

예를 들어, '수면교육을 받은 그룹과 받지 않은 그룹의 수면의 질(점수로 나타낼 수 있을 때)은 차이가 있을 것이다'라는 가설을 검증하려면 평균분석을 사용해야한다

 

3) 변량분석(F 검증)

측정하여 얻은 데이터가 점수3개 이상 집단을 비교할 때 사용한다. 가장 많이 사용되는 검증 방법으로써, 영어로 ANOVA(analysis of variance)로 표현된다

 

예를 들어, 'A 방식의 수면교육을 받은 그룹과 B 방식의 수면교육을 받은 그룹과 C 방식의 수면교육을 받은 그룹의 수면의 질은 차이가 있을 것이다'라는 가설을 검증하려면 변량분석을 선택해야한다. 집단이 3개 이상이기 때문이다

 

4) 상관분석

두 변수간 관계성이 얼마나 큰가 분석할 때 사용한다. 상관분석에서는 변수들 간 상관성 유무만 확인하고, 인과관계는 분석하지 않는다

 

상관분석의 핵심은 상관계수(r)를 구하는 것이다. 상관계수는 -1에서 1 사이의 값을 갖게 된다상관계수의 절대값이 1에 가까울 수록 두 변수는 큰 관계성을 갖고 있다. 상관계수의 절대값이 0에 가깝다면 관계성이 적다는 것이다

 

널리 사용되는 상관계수에는 Pearson 상관계수, Spearman 상관계수, Kendall 상관계수 등이 있다. Pearson 상관계수는 두 변수의 관계가 얼마나 선형적인지를 반영한다. 한 변수를 x다른 한 변수를 y축에 놓고 그래프를 그렸을 때, 직선에 가까운 분포를 띄면 두 변수는 선형관계를 갖고 있는 것이다. Pearson 상관계수의 절대값이 1에 가까울수록 두 변수는 강한 선형관계이다. Spearman 상관계수와 Kendall 상관계수는 두 변수의 관계가 얼마나 단조로운지를 반영한다. 한 변수가 커질 때 다른 한 변수도 커지고, 한 변수가 작아질 때 다른 한 변수도 작아진다면 단조성이 큰 것이다. Spearman 또는 Kendall 상관계수의 절대값이 1에 가까울수록 두 변수는 강한 단조관계이다.

 

5) 회귀분석

독립변수가 종속변수에 영향을 미치는지 분석할 때 사용한다. 회귀분석은 인과관계를 분석한다. 관측된 사건들을 정량화해서 여러 독립변수와 종속변수의 관계를 함수식으로 설명한다

 

예를 들어, 단 하나의 세트메뉴만 파는 햄버거 가게가 있다고 가정해보자. 주인은 햄버거의 맛, 감자튀김의 맛, 가격, 종업원 친절도, 가게 분위기라는 5가지 독립변수가 고객 만족도(여기서 종속변수)에 각각 얼마나 영향을 미치는지 알고 싶다. 그렇다면 회귀분석을 시행하면 된다.  

 

회귀분석의 핵심은 결정계수( )를 구하는 것이다. 독립변수와 종속변수로 구한 상관계수에 제곱한 값이다. 결정계수는 독립변수를 가지고 얼마만큼 의미 있게 종속변수를 예측할 수 있는지를 판별할 때 사용한다. 위의 예처럼 독립변수가 5개라면, 5개의 결정계수를 계산할 수 있다. 결정계수가 보통 0.65이상( )이면 해당 독립변수를 가지고 의미 있게 종속변수를 예측할 수 있다고 판단한다

 

이상의 내용을 표로 정리하면 다음과 같다

 

그림1. 통계분석방법 요점 정리표

 


통계분석은 이과생이나 문과생이나 논문을 쓰기 위해서는 꼭 거치게 되는 관문과도 같다. 완벽하게 모든 것을 알지는 못하더라도 본인이 써야하는 방법은 제대로 익혀두자

 

 

<참고 자료>

[1] 박규상 지음, "처음쓰는 논문 쓰기", 샌들코어(2014)

[2] 김의중 지음, "인공지능, 머신러닝, 딥러닝 입문", 위키북스(2016)

 

반응형

댓글