Random Forest 매개변수 튜닝 참고글 : [데이터 분석] Random Forest 알고리즘 [R 분석] Random Forest 알고리즘 > cancer table(cancer$diagnosis) Benign Malignant # 현재 cancer data는 class별 데이터가 불균등한 상태입니다. 357 212 ### 1. train set과 test set 분리(upsampling 수행)> library(caret)> data table(data$Class) Benign Malignant # class별로 데이터가 균등하게 분배 357 357 > library(doBy)> train_up table(train_up$Class) # train data set의 선택된 row number를 추..
Decision Tree 매개변수 튜닝 참고글 : [데이터 분석] Decision Tree(의사결정 나무) 알고리즘 [R 분석] Decision Tree(의사결정 나무) 알고리즘 - rpart # 1. train data set과 test data set 분리 원본 데이터가 각 class별로 균등하지 않는 경우는 sampling 한 데이터도 균등하지 않기 때문에 균등하게 맞춰주는 것이 좋습니다.=> upsampling, downsampling을 통해 각 class별 데이터를 균등하게 만들어 놓고, train set과 test set으로 분리 필요 > sn train test library(party)> ctree_m ctree_m # 모델 확인 Conditional inference tree with 4..
분석의 단계 1. 목적 - 분석을 하려는 목적 - 얻고싶은 정보 2. 데이터 수집 - 종속변수가 포함된 데이터가 필요(지도학습일 경우) - 종속변수에 영향을 미칠만한 발생 가능한 모든 데이터의 수집(생각지도 못했던 종속변수가 중요한 변수일 경우가 있음) 3. 기본적인 데이터 전처리 - NA, NULL의 처리 (삭제 or 치환) - 일부 필요 데이터의 추출 및 치환 - 불필요 데이터 삭제 - 구간 분할 : 연속형 변수의 Factor화 ex) 성적을 상,중,하 그룹으로 분류해서 모델에 적용 - upsampling or downsampling > library(caret) (참고)> cancer library(randomForest) (참고)> forest_m forest_m$importance 5. 모델 선..