티스토리 뷰
doBy 패키지
doBy 패키지는 그룹 연산을 위한 패키지 입니다.
summary(data) : 데이터의 요약 통계 확인(내장 함수)
# 1st=25%째 데이터, Median=50%째 데이터, 3rd =75%째 데이터를 의미
> summary(iris)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100 setosa :50
1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300 versicolor:50
Median :5.800 Median :3.000 Median :4.350 Median :1.300 virginica :50
Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199
3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800
Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500
quantile(data) : 데이터의 분위수 확인
# 0%=min, 100%=max
> quantile(iris$Sepal.Length) # 컬럼의 분위수 확인
0% 25% 50% 75% 100%
4.3 5.1 5.8 6.4 7.9
> quantile(iris$Sepal.Length, seq(0, 1, by=0.1))
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
4.30 4.80 5.00 5.27 5.60 5.80 6.10 6.30 6.52 6.90 7.90
> quantile(iris$Petal.Length, seq(0, 1, by=0.3))
0% 30% 60% 90%
1.00 1.70 4.64 5.80
summaryBy(formula, data) : 원하는 컬럼의 그룹별 통계적 요약(평균 연산만 가능해서 많이 사용되지 않음)
# 포뮬러: + or ~ 로 표현 // ~ 앞은 나열, ~ 뒤는 group by column
# install.packages("doBy")
> library(doBy)
> summaryBy(Sepal.Width + Sepal.Length ~ Species, iris)
Species Sepal.Width.mean Sepal.Length.mean
1 setosa 3.428 5.006
2 versicolor 2.770 5.936
3 virginica 2.974 6.588
'R > Process' 카테고리의 다른 글
[R] 데이터 구조 변경 - stack, unstack (0) | 2019.01.07 |
---|---|
[R] 데이터 정렬 - order(), sort(), orderBy() (0) | 2019.01.07 |
[R] apply 계열 함수 - 적용 함수(원소별 연산, 그룹별 연산) (0) | 2019.01.07 |
[R] 데이터 포맷 변경 함수 - sprintf(), gettextf() 함수 (0) | 2019.01.04 |
[R] 함수의 정의 (0) | 2019.01.02 |