2014년 2월 26일 수요일

How to use Stata 5. Regression Analysis [회귀분석]: Specification analysis part 1 [residual-versus-fitted plot; added-variable plot]

Regression model 추정 후에는, 추정된 모델이 OLS (Ordinary Least Squares)의 가정들에 위배되는지 아닌지를 체크하여야 한다.

1. RVF(Residual-versus-fitted) plot

이 그래프는 Regression estimation에 의해 추정된 예측치와 잔차(Residuals)간의 관계를 보여준다.

[data: auto.dta (use http://www.stata-press.com/data/r12/auto) | Stata version 12.1]

우선, Regression model을 추정해보자.


















다음은, RVF plot을 그려보자. [그리는 방법: regression model 추정후, rvfplot 명령어를 사용한다. 여기에서 yline(0)는 y축 값이 0인 지점에서 reference line을 그리라는 의미임.]






















이 그래프에서 어떠한 패턴이 나타난다면, 동분산(Homoscedasticity) 가정(assumption)에 위배된다고 볼 수 있다. 다시 말해, 잘 추정된 모델에서는 어떠한 패턴도 나타나지 않는다고 말할 수 있다.


2. Added-variable plots (or partial-regression leverage plot)

보통 regression은 2개 이상의 독립변수를 갖고 있다. 만약 독립변수가 1개라면, 우리는 쉽게 독립변수와 종속변수사이의 관계를 그릴 수 있다. 그러나 대부분의 경우는 그렇지 않다. 따라서, 우리는 added-variable plot을 그려야 한다. 예를 들어, 위의 Regression에서, mpg 변수에 대해 added-variable plot을 그려보자. avplot 명령어를 사용하면 added-variable plots을 그릴 수 있다.





















위의 그래프에서 왼쪽 상단의 2개의 포인트와 오른쪽 상단의 1개의 포인트, 즉 다시 말해 outlier을 발견할 수 있다. 이 3개의 포인트는 mpg와 price의 관계에 무관한 포인트라고 말할 수 있다. 이에 대해 added-variable plot을 다시 그려보자. 이번에는 mlabel(make)옵션을 사용해보자.
























다시 말해, 3개의 자동차 maker(Linc. Versailles; Cad. Eldorado; Cad. Seville)의 차량은 mileage가 자동차 가격의 영향을 미치지 않는다는 의미이다. (물론, 위에서 추정된 Regression에 근거하여) Added-variable plots을 사용하여, 우리는 outlier를 발견할 수 있다.

또한, 모든 독립변수에 대한 added-variable plots을 그리고 싶다면 avplots 명령어만 입력하면 된다.































댓글 없음:

댓글 쓰기