2017년 8월 25일 금요일

R-Studio로 Bar Graph 작성하기 (3): 개별 사건의 경우에 대한 Bar Graph 만들기

한 변수에 대해 변수 내에 여러가지 값들에 대한 경우의 수를 bar plot으로 표현할 수 있다. 이는 앞의 블로그에서 설명했던 경우와 다른 방식이다.
예를 들어서, 우리가 diamonds라는 데이터를 갖고 있는데, 이 데이터에는 cut이라는 변수가 있다. 이 cut이라는 변수는 5개의 카테고리(Fair, Good, Very Good, Premium, Ideal)를 갖고 있다.

library(ggplot2)
diamonds
carat
<dbl>
cut
<ord>
color
<ord>
clarity
<ord>
depth
<dbl>
table
<dbl>
price
<int>
x
<dbl>
y
<dbl>
z
<dbl>
0.23IdealESI261.555.03263.953.982.43
0.21PremiumESI159.861.03263.893.842.31
0.23GoodEVS156.965.03274.054.072.31
0.29PremiumIVS262.458.03344.204.232.63
0.31GoodJSI263.358.03354.344.352.75
0.24Very GoodJVVS262.857.03363.943.962.48
0.24Very GoodIVVS162.357.03363.953.982.47
0.26Very GoodHSI161.955.03374.074.112.53
0.22FairEVS265.161.03373.873.782.49
0.23Very GoodHVS159.461.03384.004.052.39
에를 들어 table()이라는 함수를 이용하여 cut이라는 변수에 대해 상태를 체크해보자.
table(diamonds$cut)

     Fair      Good Very Good   Premium     Ideal 
     1610      4906     12082     13791     21551 

지난 블로그에서 설명한 사례는 이 두개의 행(row)가 별개의 변수 (2개의 변수)로 입력되어 있는 경우였지만, 이번 블로그에서 설명하는 경우는 이 diamonds라는 데이터의 경우이다. 이 경우에는 간단히 ggplot() 함수에, geom_bar() 옵션을 사용하면 된다.

ggplot(diamonds, aes(x=cut)) + geom_bar()

이 예제에서, x축의 변수가 discrete라는 것이다. 만약 우리가 continuous 변수를 사용한다면, 우리는 histogram을 얻을 것이다. 여기에서는 carat이라는 변수를 사용해보자.  

ggplot(diamonds, aes(x=carat)) + geom_bar()


다음 블로그에서는 bar graph에서 bar의 색상을 조절하는 방법에 대해 논의해 보겠다.
이 블로그에 실린 내용은 “Winston Chang (2013) R Graphics Cookbook”에 실린 내용을 기반으로 작성하였다.

댓글 없음:

댓글 쓰기