한 변수에 대해 변수 내에 여러가지 값들에 대한 경우의 수를 bar plot으로 표현할 수 있다. 이는 앞의 블로그에서 설명했던 경우와 다른 방식이다.
예를 들어서, 우리가 diamonds라는 데이터를 갖고 있는데, 이 데이터에는 cut이라는 변수가 있다. 이 cut이라는 변수는 5개의 카테고리(Fair, Good, Very Good, Premium, Ideal)를 갖고 있다.
library(ggplot2)
diamonds
<dbl>
|
<ord>
|
<ord>
|
<ord>
|
<dbl>
|
<dbl>
|
<int>
|
<dbl>
|
<dbl>
|
<dbl>
|
---|---|---|---|---|---|---|---|---|---|
0.23 | Ideal | E | SI2 | 61.5 | 55.0 | 326 | 3.95 | 3.98 | 2.43 |
0.21 | Premium | E | SI1 | 59.8 | 61.0 | 326 | 3.89 | 3.84 | 2.31 |
0.23 | Good | E | VS1 | 56.9 | 65.0 | 327 | 4.05 | 4.07 | 2.31 |
0.29 | Premium | I | VS2 | 62.4 | 58.0 | 334 | 4.20 | 4.23 | 2.63 |
0.31 | Good | J | SI2 | 63.3 | 58.0 | 335 | 4.34 | 4.35 | 2.75 |
0.24 | Very Good | J | VVS2 | 62.8 | 57.0 | 336 | 3.94 | 3.96 | 2.48 |
0.24 | Very Good | I | VVS1 | 62.3 | 57.0 | 336 | 3.95 | 3.98 | 2.47 |
0.26 | Very Good | H | SI1 | 61.9 | 55.0 | 337 | 4.07 | 4.11 | 2.53 |
0.22 | Fair | E | VS2 | 65.1 | 61.0 | 337 | 3.87 | 3.78 | 2.49 |
0.23 | Very Good | H | VS1 | 59.4 | 61.0 | 338 | 4.00 | 4.05 | 2.39 |
에를 들어 table()이라는 함수를 이용하여 cut이라는 변수에 대해 상태를 체크해보자.
table(diamonds$cut)
Fair Good Very Good Premium Ideal
1610 4906 12082 13791 21551
지난 블로그에서 설명한 사례는 이 두개의 행(row)가 별개의 변수 (2개의 변수)로 입력되어 있는 경우였지만, 이번 블로그에서 설명하는 경우는 이 diamonds라는 데이터의 경우이다. 이 경우에는 간단히 ggplot() 함수에, geom_bar() 옵션을 사용하면 된다.
ggplot(diamonds, aes(x=cut)) + geom_bar()
이 예제에서, x축의 변수가 discrete라는 것이다. 만약 우리가 continuous 변수를 사용한다면, 우리는 histogram을 얻을 것이다. 여기에서는 carat이라는 변수를 사용해보자.
ggplot(diamonds, aes(x=carat)) + geom_bar()
다음 블로그에서는 bar graph에서 bar의 색상을 조절하는 방법에 대해 논의해 보겠다.
댓글 없음:
댓글 쓰기