본문 바로가기
공부하기/경영학과 군사학

ANOVA(3) : Factorial design(Two-way ANOVA) R

by 리치캣 2017. 11. 5.
728x90
반응형

ANOVA(3) : Factorial design(Two-way ANOVA) R

실제 연구들에서는 흔히 하나의 종속변수를 설명함에 있어서 두 가지 이상의 요인을 상정한다. 이러한 실험 디자인의 경우 One-way ANOVA가 아닌 다른 방식을사용하여야 한다. 이 때 사용되는 것이 Factorial-design ANOVA이다. 여기서 Factorial은 요인을 뜻하는 영단어 factor에서 왔다. 이 요인들은 참가자내 요인(within-factor)일 수도 있고, 참가자간 요인(between-factor)일 수도 있다. 여기서 다루는 것은 기본적으로 참가자-간 설계(between-design)의 경우이다. 참가자-내 요인에 대한 통계적 검증을 하는 ANOVA에 대해서는 다음 포스팅에서 다루겠다. 참가자-간 설계라는 것은, 기본적으로 요인의 각각의 수준에 서로 다른 참가자들이 들어간다는 것을 의미한다(randon assignment를 한다는 소리다.) 만약 요인 A에 두 가지 수준이 있고, 요인 B에 세 가지 수준이 있다면 가능한 처치는 총 6가지가 되는데, 이 여섯 블록에 각기 다른 사람들이 참여한다는 소리다.

Factorial ANOVA
One-way ANOVA와 구분되는 가장 큰 특징 중 하나는 상호작용(interaction)의 존재이다. 이것은 한 요인이 종속변수에 미치는 영향이 다른 요인의 수준에 따라 달라진다는 것을 의미한다. 말이 어려우니 예를 들어보자. 이를테면 연구자는 흡연 여부와 성별에 따라 수명에 차이가 있는지를 검증하려 한다. 이러한 연구의 경우 요인은 흡연 여부x성별, 종속변수는 수명일 것이다. 그런데 만약 성별에 따라 흡연 여부가 수명에 끼치는 영향이 다르다고 해 보자. 이를테면 남성 집단이 여성 집단에 비해 흡연을 했을 경우 수명이 더 많이 단축된다고 해 보자. 이는 곧 성별이라는 요인의 수준(/)에 따라, 흡연이 수명에 미치는 영향력이 달라진다는 것을 의미한다. 바로 이런 것이 상호작용의 예이다
.

Factorial design
에서는 요인들이 종속변수의 변산성을 두 가지로 설명할 수 있는데, 하나는 주효과(main effect)이고 다른 하나는 방금 설명했던 상호작용(interaction effect)이다. 주효과는 다른 모든 요인들을 무시하고 단 하나의 요인이 종속변수에 끼치는 영향력을 검증하는 방식이다. 예를 들어 앞의 예에서 흡연의 주효과는, 성별에 관계없이 흡연이 수명에 끼치는 영향력으로 정의될 것이다. 반면에 성별의 주효과는, 흡연 여부에 관계없이 성별이 수명에 끼치는 영향력으로 정의될 것이다. 주효과가 유의미하다는 것은 흡연 여부 또는 성별의 단 하나의 요인에 따라 평균수명의 차이가 통계적으로 유의미하다는 것을 의미한다. 반면 상호작용효과가 유의미하다는 것은 앞에서 설명한 바와 같이 하나의 요인이 다른 요인의 수준에 따라 종속변수에 끼치는 영향력이 유의미하게 차이를 보인다는 것을 의미한다. Factorial ANOVA에서는 이 둘 모두 검증 가능하며, 어느 것이 유의미한지에 따라 실험결과의 해석을 달리해야 한다
.

분석을 위해 예제 데이터를 생성하기로 하자. 앞서 예를 들었던 성별/흡연/수명의 데이터를 만들어보도록 하겠다.


gender
0이 여성, 1이 남성이다. smoke 0이 비흡연, 1이 흡연이다. 이제 gender smoke를 요인으로 바꾼 후, 아노바를 돌려 보도록 하자. 우선 등분산가정 테스트부터.

요인이 두 개 이상이면 위와 같이 콜론(:)으로 요인들을 묶어주면 된다.p>.05,등분산 가정은 깨지지 않았다. 계속 분석을 이어가자.

result라는 변수에 분석 결과를 저장하였다. one-way인 경우와 비교했을 때 요인이 두 개로 늘었으며, 요인들 사이에 곱하기 표시(*)가 있는 것을 볼 수 있다. 두 요인을 * 로 붙여놓으면 상호작용까지 고려한 분석이 이루어진다. 만약 상호작용을 보기 싫으면 * 표시 대신 + 표시로 두 요인을 묶어 주면 되겠다. 결과를 보니 성별과 흡연의 주효과 모두 유의미한 것을 볼 수 있다. 하지만 상호작용은 유의미하지 않다(p>.05) . 이는 흡연이 수명에 미치는 영향이 성별에 따라 유의미하게 다르지 않았다는 소리다. 또는 수명의 성차가 흡연 여부에 의해 크게 달라지지 않았다는 소리다. (상호작용효과는 이러한 의미에서 '차이의 차이'라고도 할 수 있다)

이번에는 상호작용 항을 빼고 다시 돌려보자.

상호작용항이 제거되고, residual이 늘어난 것을 볼 수 있는데, 상호작용 항이 제거됨에 따라 이것이 설명되지 않는 변산성으로 들어가 버렸기 때문이다. 이와 같이 예측변수를 모형에 추가로 투입하면 설명되지 않는 변산성(Residual)이 줄어드는 효과가 있는데, 이는 나중에 공분산분석(ANCOVA)의 원리가 된다. 학부 수준에서 잘 다루지 않는 내용이므로 여기서는 설명하지 않겠다.

상호작용이 유의미하지 않았는데, 그래도 상호작용의 추이를 알아보는 그래프를 한 번 그려보자. 명령어는 interaction.plot(독립변수 1, 독립변수 2, 종속변수)이다. 다음의 화면을 보자.

명령어는 이렇게 입력하면 되고, 엔터를 치면 다음의 화면이 나온다.


위 그래프에서 0은 여성, 1은 남성이다. 그리고 실선은 흡연자, 점선은 비흡연자의 수명을 나타낸다. 상호작용은 이 두 선의 기울기가 다른 것으로 나타난다. 물론 위 그림에서 보다시피 두 선의 기울기는 같지는 않다. 하지만 이것으로는 모집단에서도 기울기가 차이가 날 것이라는 예측을 지지하기에 불충분하다(데이터 수가 워낙 적으니). 이번에는 다른 상호작용 플롯을 보자.

이번에는 가로축에 흡연 여부를 넣고 선의 구분 변수를 성별로 하였다. 비슷하게 큰 기울기 차이는 관찰되지 않았다. 이와 같이 상호작용이 유의미하다면 도표를 통해 그 구체적인 양상을 파악할 수 있다.

Multiway-ANOVA
에서도 효과 크기를 구할 수 있다. 이름은 오메가 스퀘어(ω-squered)이다. 또한 post hoc도 할 수 있는데, 그냥 One-way일 때처럼 하는 것이 아니라 LSMEANS라는 것을 이용하여 분석해야 한다. 학부 수준에서는 이것까지는 다루지 않으므로 패스하겠다. 나중에 기회가 있으면 다루도록 하자. 관심이 있는 독자들은 찾아보기 바란다
.

태그 : 통계, R, 프로그래밍

 

 

 

 

반응형

댓글