데이터 확인 : Data Validation

2008. 11. 14. 13:11Studying Statistics/SPSS Data Handling



SPSS를 활용하여 데이터를 분석하기 전에 자료가 바르게 구성되어졌는지 확인하는 작업이 필요하다. 가령 올바르지 못한 코딩값이 매겨져 있는지 확인할 필요가 있는 것이다. 그런데 우리는 대개 코딩된 데이터에 대해 빈도분석 또는 기술통계를 수행한 후 개별 변수에 대한 결과를 살펴봄으로써 이상이 있는 사례(응답자)를 찾아내곤 했었다.

SPSS에서는 데이터 확인(Data Validation) 기능을 제공하고 있는데, 우리는 이 기능을 활용함으로써 보다 능률적으로 데이터를 점검할 수 있다. Data Validation은 데이터에 대한 규칙을 사전에 정의함으로써 의심스럽거나 가치가 없는 Case, Variable, Value 등을 판별해주는 기능이다. 예컨대 신용카드보유여부와 신용카드가 없는 이유 등 2가지 정보를 담고 있는 데이터가 있다고 할 때, 신용카드를 보유한 것으로 코딩된 케이스는 신용카드가 없는 이유에 대한 응답이 있을 수 없다. 즉 신용카드를 보유하고 있다고 응답한 사람들이 신용카드가 없는 이유에 대해서도 응답을 했다면, 그것은 논리적으로 맞지 않다는 것이다. Data Validation은 사전에 사용자가 올바르지 못한 정보에 대한 규칙(신용카드=있음 & 신용카드미보유이유=신용불양자가되어서)을 조건식으로 설정해주면, 이 규칙에 맞는 사례, 변수, 변수값 등을 찾아주는 기능을 말하는 것이다.

 

Data Validation 기능에 대한 설명 문서를 첨부한다.

 

 


* SPSS 안내문

SPSS
의 데이터 확인(Data Validation) 기능은 아래와 같이 세 가지 기능을 제공합니다.

■ 사전정의규칙 불러오기(Load Predefined Validation Rules) : SPSS로 실행되는 외부 데이터 파일로부터 미리 정의되어 저장된 사전정의규칙을 불러들여 바로 적용할 수 있습니다.

■ 규칙정의 (Define Validation Rules) : 단일변수 및 교차변수에 관한 데이터 확인 규칙을 생성 또는 확인할 수 있습니다.

■ 데이터 타당성 검사 (Validate Data) : 데이터 타당성 검사를 통해 활성 데이터셋으로부터 의심스럽거나 유효하지 않은 케이스, 변수, 그리고 데이터 값들을 구분하여 확인할 수 있습니다.