티스토리 뷰

반응형

분석의 단계


1. 목적

  - 분석을 하려는 목적

  - 얻고싶은 정보



2. 데이터 수집

  - 종속변수가 포함된 데이터가 필요(지도학습일 경우)

  - 종속변수에 영향을 미칠만한 발생 가능한 모든 데이터의 수집(생각지도 못했던 종속변수가 중요한 변수일 경우가 있음)



3. 기본적인 데이터 전처리

  - NA, NULL의 처리 (삭제 or 치환)

  - 일부 필요 데이터의 추출 및 치환

  - 불필요 데이터 삭제

  - 구간 분할 : 연속형 변수의 Factor화 

      ex) 성적을 상,중,하 그룹으로 분류해서 모델에 적용

  - upsampling  or downsampling 

> library(caret)  (참고)

> cancer <- upSample(cancer[,-c(1,2)], cancer$diagnosis, yname = 'diagnosis')



4. feature selection(변수의 선택) 중요 !!!

  - 경험적 선택 방법(데이터를 잘 알고있는 전문가의 견해)

  - 모델을 통한 선택 방법

     1) feature selection model

     2) decision tree, random forest, regressor 처럼 모델을 학습하는 과정에서 발견된 feature importance를 활용한 선택

     3) 대부분의 딥러닝 모델은 내부에서 자동 변수 선택 과정을 거침 

> library(randomForest)  (참고)

> forest_m <- randomForest(train$Species ~ ., data=train)

> forest_m$importance



5. 모델 선택 및 학습을 통한 생성

  - 70%의 train data set으로 모델 학습

  - 30%의 test data set으로 모델 평가

> library(caret)  (참고)

> rn <- createDataPartition(y = iris$Species, p = 0.7, list = F)  

> train <- iris[rn,]           

> test <- iris[-rn,] 



6. 모델 튜닝 및 평가 (필요 시 3번부터 재조정)

  - 목적 : 정확도 개선, 일반화(overfit 해소)

  - 각 모델마다 매개변수 값을 조정하면서 모델에 대한 튜닝이 이루어 짐

  - 매개변수의 선택은 정확도를 개선하는 측면도 있지만, 모델의 일반화를 위해 사용되는게 일반적



7. 해석 및 활용

  - 모델 결과 해석
  - 높은 정확도(score)를 갖는 모델을 활용




반응형
댓글
최근에 올라온 글
최근에 달린 댓글
링크
Total
Today
Yesterday