티스토리 뷰

반응형

doBy 패키지 



doBy 패키지그룹 연산을 위한 패키지 입니다.



summary(data) : 데이터의 요약 통계 확인(내장 함수)

# 1st=25%째 데이터, Median=50%째 데이터, 3rd =75%째 데이터를 의미

> summary(iris)

  Sepal.Length    Sepal.Width     Petal.Length      Petal.Width          Species  

 Min.   :4.300     Min.   :2.000     Min.   :1.000     Min.   :0.100       setosa    :50  

 1st Qu.:5.100    1st Qu.:2.800     1st Qu.:1.600    1st Qu.:0.300      versicolor:50  

 Median :5.800   Median :3.000   Median :4.350   Median :1.300     virginica :50  

 Mean   :5.843   Mean   :3.057    Mean   :3.758   Mean   :1.199                  

 3rd Qu.:6.400    3rd Qu.:3.300    3rd Qu.:5.100   3rd Qu.:1.800                  

 Max.   :7.900     Max.   :4.400     Max.   :6.900    Max.   :2.500  



quantile(data) : 데이터의 분위수 확인 

# 0%=min, 100%=max

> quantile(iris$Sepal.Length)  # 컬럼의 분위수 확인

  0%  25%  50%  75% 100% 

 4.3   5.1    5.8    6.4    7.9 

> quantile(iris$Sepal.Length, seq(0, 1, by=0.1))

  0%  10%  20%  30%  40%  50%  60%  70%  80%  90% 100% 

  4.30 4.80 5.00   5.27  5.60  5.80  6.10  6.30   6.52  6.90  7.90 

> quantile(iris$Petal.Length, seq(0, 1, by=0.3))

  0%  30%  60%  90% 

 1.00  1.70  4.64  5.80 



summaryBy(formula, data) : 원하는 컬럼의 그룹별 통계적 요약(평균 연산만 가능해서 많이 사용되지 않음)

# 포뮬러: + or ~ 로 표현 // ~ 앞은 나열, ~ 뒤는 group by column

# install.packages("doBy")

> library(doBy)

> summaryBy(Sepal.Width + Sepal.Length ~ Species, iris)

     Species   Sepal.Width.mean   Sepal.Length.mean

1     setosa            3.428             5.006

2 versicolor            2.770             5.936

3   virginica            2.974             6.588


반응형
댓글
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday