2014년 2월 22일 토요일

How to use Stata 1. 데이터를 살펴보자. [codebook, describe, summarize 명령어]

데이터 분석에서 가장 기본적인 것은 데이터를 자세하게 살펴보는 것이다. 데이터에 포함된 변수들이 어떠한 특성을 갖고 있는지? 미싱(missing)은 없는지? 변수가 어떻게 코딩이 되어 있는지? 

Stata에서 우리는 몇몇 명령어를 통해 이러한 일들을 손쉽게 수행할 수 있다. 

예제1. 데이터 살펴보기 [codebook 명령어]

codebook 명령어는 데이터 내의 변수 이름, 라벨(labels)을 체크하고, 코드북(codebook)을 생성해주는 역할을 한다. 
여기서 사용할 데이터는 educ3.dta이다 (http://www.stata-press.com/data/r12/educ3). 

우선, fips와 division 변수에 대해 codebook을 실행해보자. 
이 codebook 명령어는 두 변수에 대한 기본적인 특성들을 표시해준다. 예를 들면 fips변수의 경우, missing이 존재하지 않으며, 평균이 256495, 표준편차가 156998라는 것을 알 수 있다. 

만약, 모든 변수에 대한 개략적인 설명을 보고 싶으면, compact 옵션을 사용하면 된다. 

또한 데이터내의 어떠한 문제가 있는지 살펴보고 싶다면, problems 옵션을 실행시켜 살펴보자.
결과는 데이터내의 dc라는 변수가 상대적으로 많은 미싱(missing)을 갖고 있다는 것을 설명해주고 있다. 

예제 2. 데이터에 대한 간단한 요약(summary) 보여주기 [describe 명령어]

describe 명령어는 데이터에 대한 간략한 설명을 보여준다. 

예제 3. 기술 통계 보여주기 [summarize 명령어]

summarize 명령어를 사용하면, 손쉽게 기술통계(descriptive statistics)를 보여줄 수 있다. 
여기에서는 auto.dta 데이터(http://www.stata-press.com/data/r12/auto)를 사용한다. 
summarize 명령어를 통해 mpg라는 변수의 관측치(observation), 평균(mean), 표준편차(Std. Dev.), 최소값(Min)과 최대값(Max)을 알 수 있다. 

만약 더 자세한 통계치를 보고 싶다면, detail 옵션을 사용하면 된다.

codebook, describe, summarize 명령어를 통해 우리는 데이터와 데이터내의 변수들의 기본적인 특성들을 손쉽게 파악할 수 있다. 













댓글 없음:

댓글 쓰기