티스토리 뷰

반응형

지도학습의 분석 절차

 


1. 분석의 목적을 기반한 데이터 수집

   - 요인(설명변수=x), 결과(종속변수=y)

   - Feature Selection : 설명변수 선택, y에 어떠한 변수들이 영향을 많이 미칠지 고민하는 과정 (Y ~ x1, x2, x3 ....)

 

2. 알고리즘 선택
  -
회귀(연속형 데이터) or 분류(펙터형 데이터) => 데이터의 특성, 목적에 따라 선택

 

3. 알고리즘 적용
  -
선택된 설명변수들(x)과 종속변수(y) 간 패턴 발견이 목적

  - 결과(종속변수=y) 있는 전체 100% 데이터를
    70%
의 학습 데이터(training data), 30%의 검증 데이터(test data)로 랜덤 추출 (보통 70:30 비율로 분리)

 

4. 학습 데이터 기반 모델 생성

  - 70%의 학습 데이터(training data)를 알고리즘에 적용 및 학습

  - 발견된 X, Y의 인과관계와 패턴이 적용된 모델 생성

 

5. 검정 데이터 기반 모델 평가

  - 생성된 모델을 30%의 검증 데이터(test data)로 평가

  - 인과관계와 패턴이 적용된 모델의 예측 정확도 평가

  - 예측 정확도가 우수할 경우 모델이 선택되지만, 예측 정확도가 좋지 않으면, 데이터 수집부터 재조정 하거나 모델 튜닝이 필요

(* 전체 데이터를 학습시키고, 학습시킨 데이터로 검증하게 되면 이미 동일한 데이터가 학습되어있기 때문에 평가 시 당연히 더 높은 예측 정확도가 나오게 됩니다이러한 결과는 긍정적인 해석의 결과라고 불립니다. 

이 경우, 만일 새로운 데이터를 적용 시 평가 때 나온 예측 정확도보다 확연히 떨어진 예측 결과가 나오게 됩니다.

결론은, 지도학습 모델 생성 시 학습 데이터와 검증 데이터를 꼭 분리하여 검증하는 것이 포인트!)




참고: KIC 캠퍼스 머신러닝기반의 빅데이터분석 양성과정

반응형
댓글
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday