[R] 데이터 요약 통계, 분위수 확인 - summary(), quantile(), summartBy()

티스토리 뷰

R/Process

[R] 데이터 요약 통계, 분위수 확인 - summary(), quantile(), summartBy()

Aaron 2019. 1. 7. 17:55

doBy 패키지

doBy 패키지는 그룹 연산을 위한 패키지 입니다.

summary(data) : 데이터의 요약 통계 확인(내장 함수)

# 1st=25%째 데이터, Median=50%째 데이터, 3rd =75%째 데이터를 의미

> summary(iris)

Sepal.Length Sepal.Width Petal.Length Petal.Width Species

Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100 setosa :50

1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300 versicolor:50

Median :5.800 Median :3.000 Median :4.350 Median :1.300 virginica :50

Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199

3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800

Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500

quantile(data) : 데이터의 분위수 확인

# 0%=min, 100%=max

> quantile(iris$Sepal.Length) # 컬럼의 분위수 확인

0% 25% 50% 75% 100%

4.3 5.1 5.8 6.4 7.9

> quantile(iris$Sepal.Length, seq(0, 1, by=0.1))

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

4.30 4.80 5.00 5.27 5.60 5.80 6.10 6.30 6.52 6.90 7.90

> quantile(iris$Petal.Length, seq(0, 1, by=0.3))

0% 30% 60% 90%

1.00 1.70 4.64 5.80

summaryBy(formula, data) : 원하는 컬럼의 그룹별 통계적 요약(평균 연산만 가능해서 많이 사용되지 않음)

# 포뮬러: + or ~ 로 표현 // ~ 앞은 나열, ~ 뒤는 group by column

# install.packages("doBy")

> library(doBy)

> summaryBy(Sepal.Width + Sepal.Length ~ Species, iris)

Species Sepal.Width.mean Sepal.Length.mean

1 setosa 3.428 5.006

2 versicolor 2.770 5.936

3 virginica 2.974 6.588

저작자표시 (새창열림)

'R > Process' 카테고리의 다른 글

[R] 데이터 구조 변경 - stack, unstack (0)	2019.01.07
[R] 데이터 정렬 - order(), sort(), orderBy() (0)	2019.01.07
[R] apply 계열 함수 - 적용 함수(원소별 연산, 그룹별 연산) (0)	2019.01.07
[R] 데이터 포맷 변경 함수 - sprintf(), gettextf() 함수 (0)	2019.01.04
[R] 함수의 정의 (0)	2019.01.02

최근에 올라온 글

최근에 달린 댓글

링크

Total

Today

Yesterday

TAG more

Data Makes Our Future

티스토리 뷰

[R] 데이터 요약 통계, 분위수 확인 - summary(), quantile(), summartBy()

'R > Process' 카테고리의 다른 글

티스토리툴바