SPSS 오픈하우스: Missing Values를 이용한 결측자료 분석

2008. 11. 14. 13:12Studying Statistics/SPSS General





SPSS 15차 오픈하우스를 다녀와서

SPSS KOREA에서 주관하는 15차 오픈하우스에 다녀왔다. SPSS KOREA는 한국 내에서 SPSS 통계 패키지의 독점판매, 컨설팅, 소프트웨어 교육를 담당하고 있다. SPSS KOREA에서 주최하는 Open House는 새롭게 출시되거나 기존 기능이 개선된 통계 모듈이 발표될 때, 모듈의 이론적 배경과 실제 분석 방법에 대해 소개하고 설명하는 자리다. 이에 겸해서 자사의 통계 패키지 판매를 위한 상담도 병행한다. 말하자면 소비자와 공급자를 위한 윈윈전략인 셈이다. 통계 프로그램에 대한 교육이 필요한 이들과 상품을 판매해야 하는 회사 모두에게 이익이 되는 자리이기도 하며, 미래의 잠재 소비자에게 자사 제품의 장점을 홍보하고 제품 친숙도를 높이는 계기가 되기도 하니 말이다. 

벌써 15차에 들어선 오픈하우스를 알게된 건 얼마 되지 않았지만, 통계와 통계 프로그램에 대한 지식이 미흡한 나같은 사람들에겐 굉장히 유용한 행사라고 생각한다. 참석해본 건 단 두번 뿐이었지만, SPSS 프로그램의 전체적인 체계와 구체적인 통계 방법 적용에 대한 지식을 배울 수 있었다. 물론 강의의 모든 내용을 알아들을 수는 없었지만, 그것만으로도 많은 도움이 되고 있음을 현재 느끼고 있다. 

이번 오픈 하우스의 주제는 "'Missing Values'를 이용한 결측자료 분석"이었다. 결측자료의, 패턴, 메카니즘, 대체방법에 대한 내용들이 주를 이루었다. 핵심내용은 '우리는 그동안 결측자료를 이용할 때 전통적으로 Listwise deletion이나 Pairwise deletion 옵션을 사용함으로써 결측치를 가진 Case(개체)나 Variable(변수)을 분석에서 제외시키거나 Single Imputation으로 결측치를 대체한 후 분석에 임해 왔었다. 그러나 결측치를 가진 Case(개체)나 Variable(변수)을 분석에서 제외시키는 것은 표본의 편의를 유발할 수 있으며, Single Imputation 방법보다는 Multiple Imputation 방법이 통계적 추론의 정확성을 담보해줄 수 있다'는 것이었다.

강의 내용을 정리해 보았다.

결측자료란  데이터 행렬의 몇 몇 값이 관측되지 않은 자료를 말한다. 일반적으로 분석에 사용되는 자료는 사각행렬의 구조를 가지고 있으며, 통계분석 방법은 자료의 데이터 행렬 안의 모든 값이 전부 관측된 경우를 가정하고 있다. 결측자료는 표본조사나 임상시험에서 Case(개체, 행)와 Variable(변수, 열)로 이루어지는 사각행렬의 어떤 값들이 관측되지 않은 경우를 말한다.

이러한 결측자료를 분석하는 전형적인 방법으로 결측자료의 패턴을 분석하는 방법과 메카니즘을 분석하는 방법이 있다. 패턴이란 데이터 행렬에서 어떤 값이 관측되었는지 결측되었는지를 나타내는 모양이라고 할 수 있으며, 메카니즘이란 결측과 데이터 행렬 안의 변수와의 관계에 따라 결정된다. 결측자료는 패턴에 따라 Univariate(일변량), Monotone(단조), General(일반)로 나뉘며, 메카니즘에 따라 MCAR(완전임의결측), MAR(임의결측), MNAR(비임의결측)으로 나뉜다.

결측자료 분석시 전통적으로 우리는 Complete Case Analysis 또는 Available Case Analysis 방법을 사용해왔으나, 어떤 방법이건 결측을 가진 개체 또는 결측값을 분석에서 제외하는 방법은 표본의 편의를 유발할 수 있다는 점에서 권장되지 않는 방법이라 할 수 있다. 그러나 그동안 우리는 대개 결측자료에 대한 고려없이 데이터 입수 즉시 분석에 임해왔었다. Complete Case Analysis와 Available Case Analysis 방법은 SPSS 프로그램 상에서는 각각 Listwise deletion 과 Pairwise라는 분석 옵션으로 구체화되어 있다.

결측값을 분석에서 제외하기보다 추정된 값으로 대체하는 것은 경우에 따라 분석의 정확성을 좀 더 담보해 줄 수 있다. 결측값을 대체하는 방법으로는 Single Imputation과 Multiple Imputation으로 대별할 수 있다. Single Imputation은 각 결측치를 하나의 값으로 대체하여 완전한 데이터 행렬로 만들고 이 대체된 값들을 실제로 관측한 값으로 여기고 분석을 하는 것을 말한다. 이때 대체값은 결측값이 있는 변수의 다른 관측값들의 평균을 사용하기도 하며, 결측값을 가진 변수와 다른 변수를 회귀분석한 후 결측값의 예측값으로 대체값을 삼기도 한다. 또는 결측값을 회귀식의 예측값과 임의로 추출한 오차를 합하여 대체하기도 한다. 임상시험에서는 각 개체의 결측값을 마지막 관측값으로 대체하는 LOCF(Last Observation Carried Forward) 방법을 쓰기도 한다. 표본조사에서는 현재 조사에서 변수들이 비슷한 값을 가지는 다른 개체의 값으로 대체(Hot Deck Imputation)하거나 이전의 조사에서 얻은 자료나 다른 자료에서 비슷한 값을 대체값으로 사용(Cold Deck Imputation)하기도 한다. 그러나 Single Imputation 방법은 추정치(대체값)의 표준편차가 과소추정되는 문제점을 안고있다. 즉 결측값때문에 발생하는 불확실성을 고려하지 못하는 것이다.

이러한 불확실성을 고려하는 방법으로는 Maximum Likelihood Estimation(MLE)이나 Multiple Imputation 방법 등이 있다. Multiple Imputation은 Single Imputation의 확장이라고 할 수 있다. 즉 결측치를 가진 자료를 여러번 대체하여 여러개의 대체된 데이터셋을 만들고 대체된 데이터셋들을 같은 통계적 방법을 이용하여 각각 분석한다. 이렇게 해서 산출되는 분석결과들을 Rubin(다중대체방법의 제안자)이 제시한 결합방법을 이용해 마지막 결과를 얻는 방법이다.
MLE 방법의 핵심은 EM algorithm이다. EM algorithm은 두가지 단계를 무한반복한다. 즉 Expectation(E-step)과 Maximization(M-step)을 계속해서 반복하여 결측치를 대체할 값을 얻는다. 이 부분은 나도 잘 모르겠다.--" 

이상이 오픈하우스에서 이야기한 내용의 전반적인 줄거리다. 
정리하고 보니, 결측자료 분석에 대한 사전 지식이 없는 사람들은 이해하기가 어려울 듯 싶다. 아무튼 주된 내용은 결측치를 무시하는 것은 분석의 정확도를 떨어뜨리는 요인이 된다는 것. 결측치를 대체해야 하는 방법으로는 여러가지가 있으나 단순대체방법 보다는 다중대체방법이나 EM algorithm에 의한 MLE 방법이 결측값 때문에 발생하는 불확실성을 고려할 수 있어 유용하다는 것이다.    
 
그러나  그보다 우리는 그동안 결측치에 대한 고려가 얼마나 중요한지에 대해 관심을 두지 않고 있었다는 것을 깨달았다는 것이 나의 가장 큰 수확이라고 하겠다. 결측치를 결측치 그대로 내버려 두는 것이 정확한 분석의 기본 전제가 될 수 없음을 다시 한번 생각해보는 자리가 되었다.

오픈하우스 강의자료를 첨부한다.