[데이터 분석] 지도학습의 분석 절차

티스토리 뷰

Data/Analysis

Aaron 2019. 1. 15. 17:00

지도학습의 분석 절차

1. 분석의 목적을 기반한 데이터 수집

- 요인(설명변수=x), 결과(종속변수=y)

- Feature Selection : 설명변수 선택, y에 어떠한 변수들이 영향을 많이 미칠지 고민하는 과정 (Y ~ x1, x2, x3 ....)

2. 알고리즘 선택
- 회귀(연속형 데이터) or 분류(펙터형 데이터) => 데이터의 특성, 목적에 따라 선택

3. 알고리즘 적용
- 선택된 설명변수들(x)과 종속변수(y) 간 패턴 발견이 목적

- 결과(종속변수=y)가 있는 전체 100% 데이터를,
70%의 학습 데이터(training data), 30%의 검증 데이터(test data)로 랜덤 추출 (보통 70:30 비율로 분리)

4. 학습 데이터 기반 모델 생성

- 70%의 학습 데이터(training data)를 알고리즘에 적용 및 학습

- 발견된 X, Y의 인과관계와 패턴이 적용된 모델 생성

5. 검정 데이터 기반 모델 평가

- 생성된 모델을 30%의 검증 데이터(test data)로 평가

- 인과관계와 패턴이 적용된 모델의 예측 정확도 평가

- 예측 정확도가 우수할 경우 모델이 선택되지만, 예측 정확도가 좋지 않으면, 데이터 수집부터 재조정 하거나 모델 튜닝이 필요

(* 전체 데이터를 학습시키고, 학습시킨 데이터로 검증하게 되면 이미 동일한 데이터가 학습되어있기 때문에 평가 시 당연히 더 높은 예측 정확도가 나오게 됩니다. 이러한 결과는 긍정적인 해석의 결과라고 불립니다.

이 경우, 만일 새로운 데이터를 적용 시 평가 때 나온 예측 정확도보다 확연히 떨어진 예측 결과가 나오게 됩니다.

결론은, 지도학습 모델 생성 시 학습 데이터와 검증 데이터를 꼭 분리하여 검증하는 것이 포인트!)

참고: KIC 캠퍼스 머신러닝기반의 빅데이터분석 양성과정

[데이터 분석] K-NN 알고리즘 (3)	2019.01.21
[데이터 분석] Random Forest 알고리즘 (0)	2019.01.17
[데이터 분석] 분석의 단계 (0)	2019.01.17
[데이터 분석] Decision Tree(의사결정 나무) 알고리즘 (0)	2019.01.15
[데이터 분석] 지도학습과 비지도학습 (0)	2019.01.15

최근에 올라온 글

최근에 달린 댓글

링크

TAG more