Data Table(데이터 테이블) 데이터 테이블은 성능과 관련해서 중요한 개념입니다. Table 구조의 데이터의 특정 컬럼별 주소값을 갖는 index를 생성하여 key를 통한 연산 및 검색을 빠르게 수행 데이터 색인 혹은 연산 시 인덱스를 설정한 테이블과 설정하지 않은 테이블의 성능 차이가 데이터가 방대해질 수록 커지기 때문에 대용량의 데이터 처리를 위해 인덱스는 필수! 입니다. 데이터 테이블(data table) : 인덱스(목차) 설정이 가능한 데이터 프레임 Key별로 가지고 있는 주소값을 통해 저장공간을 효율적으로 색인(인덱싱)할 수 있습니다. 데이터 테이블은 찾고자 하는 정보 기반으로 주소를 저장하기 때문에, 조건 연산 수행 시 가장 빠른 특징이 있습니다.특히, key를 통한 조건 검색(색인), ..
plyr 패키지 plyr 패키지는 데이터 분할, 적용, 조합 세 단계로 데이터를 처리하는 함수를 제공해줍니다. 배열(a), 데이터 프레임(d), 리스트(l)에 적용 가능 > install.packages("plyr") > library(plyr) 1. adply() 함수 : 그룹 연산 adply() 함수는 apply()함수와 동일하지만 apply()는 벡터로 리턴, adply()는 데이터 프레임으로 리턴이 가능합니다. apply(데이터 셋, 적용방향, 적용(그룹)함수) # 적용방향 = 1:같은 행별, 2:같은 열별, c(1,2): 원소별 [R] apply 계열 함수 - 적용 함수(원소별 연산, 그룹별 연산) plyr :: adply( .데이터, # 행렬, 배열, 데이터 프레임 .margins, # 적용방..
그룹 연산 1. tapply() 함수 tapply(vector, index, function) # 벡터만 가능그룹 연산 tapply() 함수 참고[R] apply 계열 함수 - 적용 함수(원소별 연산, 그룹별 연산) 2. aggregate() 함수 aggregate() 함수는 tapply() 함수와 유사하게 그룹 연산을 수행합니다. ## method for class 'data.frame' aggregate(x, # 연산 대상, date frame 가능 by, # group by 컬럼, list로 전달, 여러 컬럼 전달 가능 FUN) # 함수 # student data에서 학년별 키와 몸무게의 평균 > std aggregate(std[,c('HEIGHT','WEIGHT')], + by = list(std..