1. Leverage
회귀식을 추정한 후에, Outlier를 체크하는 것은 매우 중요한 과정이다. Outlier를 체크하여 어떤 관측치가 추정된 회귀식에 가장 벗어나 있는지를 파악하여, 이것의 원인이 무엇인지 파악하여야 한다. 아마도, 그것은 데이터 입력과정에서의 실수 때문일 수도 있다. 이러한 통계치들의 대표적인 것이 leverage (diagonal element of the projection matrix)이다. Leverage 값은 Stata에서 predict 명령어와 hat 옵션을 사용하면 계산할 수 있다.이 중, 상위 5% 는 0.10이상의 leverage값을 갖고 있다. 이렇게 높은 leverage값을 갖고 있는 관측치를 확인해보자.
2. Leverage-versus-residual-squared plot
이 그래프는 정규화된 잔차의 제곱 값과 앞에서 계산된 leverage을 2차원 그래프로 보여준다.이 그래프에서 우리는 높은 leverage값과 높은 잔차(residual)값을 갖는 관측치를 찾아낼 수 있다. 좀 더 자세히 파악하기 위해, mlabel 옵션을 사용하여 다시 그려보자.
그래프에서 보는 것처럼, VW Diesel이 문제를 일으킬 수 있다는 것을 보여준다. 실제로 VW Diesel은 데이터에서 유일한 디젤(Diesel)차량이기도 하다.
3. Standardized and Studentized residual
이 두개의 잔차는 잔차의 표준 오차에 대해서 조정된 값이다. Stata에서는 다음과 같이 계산할 수 있다.4. DFITS, Cook's Distance, and Welsch Distance
DFITS, Cook's Distance, and Welsch Distance는 leverage versus residual-squared plot을 하나의 통계치로 보여주는 값이다. Outlier를 판단하기 위한 cut-off 값은 다음과 같다.- DFITS: higher values greater than 2 square root of k/n (Belsley, Kuh, and Welsch 1980, p.28)
- Cook's distance: greater than 4/n (Bollen and Jackman 1990, p.265-66)
- Welsch distance: 3 sqaure root of k (Chatterjee & Hadi 1988, p.124) [n: number of observations | k: number of independent variables (including the constant)]
DFITS의 계산은 predict 명령어에 dfits 옵션을 사용하면 된다.
위의 표는 DFITS 컷오프(cut-off) 값 이상을 갖고 있는 관측치의 리스트이다.
다음은 Cook's Distance를 계산하고 cut-off값 이상을 갖고 있는 관측치의 리스트를 보여준다.
마지막으로, Welsch distance 값을 계산하고 cut-off 값 이상을 갖고 있는 관측치의 리스트를 살펴보자.
References
- Belsley, D. A., E. Kuh, and R. E. Welsch (1980) Regression Diagnostics: Identifying Influential Data and Sources of Collinearity, New York: Wiley
- Bollen, K. A., and R. W. Jackman (1990) Regression diagnostics: An expository of outliers and influential cases. In Modern Methods of Data Analysis, ed. J. Fox and J. S. Long, 257-291. Newbury Park, CA: Sage
- Chatterjee, S. and A. S. Hadi (1988) Sensitivity Analysis in Linear Regression. New York: Wiley
댓글 없음:
댓글 쓰기