원본데이터 내에 종속변수의 그룹 별 데이터 수가 균등할 경우 바로 sampleBy를 사용하여 바로 샘플링해줄 수 있지만ex) 종속변수 Group 컬럼의 A 그룹 데이터 = 100개 B 그룹 데이터 = 100개 원본데이터 내에 종속변수의 그룹 별 데이터 수가 균등하지 않다면 모델의 예측력이 떨어질 가능성이 높습니다.ex) 종속변수 Group 컬럼의 A 그룹 데이터 = 235개 B 그룹 데이터 = 100개 해결 방법으로 1. 데이터가 더 많은 그룹(A)의 데이터를 줄이거나, 2. 데이터가 더 적은 그룹(B)의 데이터를 반복(중복 사용)하여 데이터 개수를 균등하게 맞춰주어야 할 필요성이 있습니다. 보통 종속변수의 그룹(class) 별로 균등하게 분리된 데이터가 좋은 결과를 도출해준답니다 !!! #. 종속변수의..
지도학습을 위한 데이터 샘플링 지도학습과 비지도학습(이동) 1. Train data set, Test data set 으로 분리Train Data = 모델의 훈련을 위한 훈련용 데이터Test Data = 모델을 평가하기 위해 정답(결과)을 이미 알고있는 테스트용 데이터 *) caret::createDataPartition() 함수를 사용한 샘플링 가장 좋은 샘플링 방법 !!!# sampleBy 도 균등 샘플링이 가능하지만, 나머지 30%의 test data를 저장하기 위해 train data의 행 번호를 추출해야하는 번거로움이 있습니다. createDataPartition 함수는 이 모든 것을 한 번에 해결해준답니다.. Goood> library(caret)> rn train test table(trai..