K-NN 알고리즘 적용 및 매개변수 튜닝 참고글 : KNN 알고리즘(이동) K-NN(K-Nearest Neighbors) 알고리즘은 새로운 관측치와 기존 데이터와의 거리 연산를 통한 분류가 목적이므로 train data / test data가 동시에 들어가는게 특징입니다. 또한, 알고리즘 자체에 predict() 기능을 보유하고 있어서 예측 및 평가에 predict 함수를 사용하지 않아도 자체적으로 수행해줍니다. install.packages("class")library(class)knn(train, # 모델 평가용 데이터 중 예측 변수 test, # 예측용 데이터 (예측을 훈련과 동시에 가능) cl, # 분류(class) 변수 k=n, # k 설정 (근접한 k개의 데이터까지 확인) prob=TRUE) ..
중요도가 높은 핵심 변수 선택하기 모델의 예측률을 높이기 위해, 중요도가 높은 설명변수만 모델에 적용시켜주는 것이 중요합니다. # 데이터 준비> library(caret)> rn train test table(train$Species) setosa versicolor virginica 35 35 35 > table(test$Species) setosa versicolor virginica 15 15 15 # 중요도가 높은 핵심 변수 선택하기 # 방법 1) randomForest 모델을 활용한 방법 > library(randomForest)> forest_m forest_m$importance MeanDecreaseGiniSepal.Length 6.270904Sepal.Width 2.207310Petal...
Random Forest 매개변수 튜닝 참고글 : [데이터 분석] Random Forest 알고리즘 [R 분석] Random Forest 알고리즘 > cancer table(cancer$diagnosis) Benign Malignant # 현재 cancer data는 class별 데이터가 불균등한 상태입니다. 357 212 ### 1. train set과 test set 분리(upsampling 수행)> library(caret)> data table(data$Class) Benign Malignant # class별로 데이터가 균등하게 분배 357 357 > library(doBy)> train_up table(train_up$Class) # train data set의 선택된 row number를 추..
[R 분석] Random Forest 알고리즘 참고글 : [데이터 분석] Random Forest 알고리즘 [R 분석] Random Forest 매개변수 튜닝 randomForest(x, y = NULL, # x, y 분리해서 적용 가능, 보통 formula를 많이 사용 xtest = NULL, ytest = NULL, # test 데이터셋을 같이 적용시키면 동시에 테스트를 수행(보통 같이 적용하지 않음) ntree = 500, # 트리의 개수 mtry = n, # 각 노드 설정 시 설명변수 후보 개수(후보군) replace = TRUE) # random forest는 default로 복원추출을 허용 > install.packages('randomForest')> library(randomForest) ..