[R 분석] Random Forest 알고리즘 참고글 : [데이터 분석] Random Forest 알고리즘 [R 분석] Random Forest 매개변수 튜닝 randomForest(x, y = NULL, # x, y 분리해서 적용 가능, 보통 formula를 많이 사용 xtest = NULL, ytest = NULL, # test 데이터셋을 같이 적용시키면 동시에 테스트를 수행(보통 같이 적용하지 않음) ntree = 500, # 트리의 개수 mtry = n, # 각 노드 설정 시 설명변수 후보 개수(후보군) replace = TRUE) # random forest는 default로 복원추출을 허용 > install.packages('randomForest')> library(randomForest) ..
지도학습을 위한 데이터 샘플링 지도학습과 비지도학습(이동) 1. Train data set, Test data set 으로 분리Train Data = 모델의 훈련을 위한 훈련용 데이터Test Data = 모델을 평가하기 위해 정답(결과)을 이미 알고있는 테스트용 데이터 *) caret::createDataPartition() 함수를 사용한 샘플링 가장 좋은 샘플링 방법 !!!# sampleBy 도 균등 샘플링이 가능하지만, 나머지 30%의 test data를 저장하기 위해 train data의 행 번호를 추출해야하는 번거로움이 있습니다. createDataPartition 함수는 이 모든 것을 한 번에 해결해준답니다.. Goood> library(caret)> rn train test table(trai..
Decision Tree in R (분류분석) Decision Tree(의사결정 나무) 알고리즘이란?(이동)지도학습을 위한 데이터 샘플링(이동)조건부 추론 나무 알고리즘(이동) > install.packages('rpart') > library(rpart) # Decision Tree 분석 및 시각화를 위한 패키지 ### 1. data sampling : train data set, test data set 분리> library(doBy) > train f1 rn test m m # 각 컬럼마다의 불순도 연산이 수행되므로 데이터가 커질수록 시간이 길어질 수 있음 n= 110 node), split, n, loss, yval, (yprob) * denotes terminal node 1) root 110 ..