Random Forest 매개변수 튜닝 참고글 : [데이터 분석] Random Forest 알고리즘 [R 분석] Random Forest 알고리즘 > cancer table(cancer$diagnosis) Benign Malignant # 현재 cancer data는 class별 데이터가 불균등한 상태입니다. 357 212 ### 1. train set과 test set 분리(upsampling 수행)> library(caret)> data table(data$Class) Benign Malignant # class별로 데이터가 균등하게 분배 357 357 > library(doBy)> train_up table(train_up$Class) # train data set의 선택된 row number를 추..
원본데이터 내에 종속변수의 그룹 별 데이터 수가 균등할 경우 바로 sampleBy를 사용하여 바로 샘플링해줄 수 있지만ex) 종속변수 Group 컬럼의 A 그룹 데이터 = 100개 B 그룹 데이터 = 100개 원본데이터 내에 종속변수의 그룹 별 데이터 수가 균등하지 않다면 모델의 예측력이 떨어질 가능성이 높습니다.ex) 종속변수 Group 컬럼의 A 그룹 데이터 = 235개 B 그룹 데이터 = 100개 해결 방법으로 1. 데이터가 더 많은 그룹(A)의 데이터를 줄이거나, 2. 데이터가 더 적은 그룹(B)의 데이터를 반복(중복 사용)하여 데이터 개수를 균등하게 맞춰주어야 할 필요성이 있습니다. 보통 종속변수의 그룹(class) 별로 균등하게 분리된 데이터가 좋은 결과를 도출해준답니다 !!! #. 종속변수의..