티스토리 뷰
지도학습의 분석 절차
1. 분석의 목적을 기반한 데이터 수집
- 요인(설명변수=x), 결과(종속변수=y)
- Feature Selection : 설명변수 선택, y에 어떠한 변수들이 영향을 많이 미칠지 고민하는 과정 (Y ~ x1, x2, x3 ....)
2. 알고리즘 선택
- 회귀(연속형
데이터) or 분류(펙터형 데이터) => 데이터의 특성, 목적에 따라 선택
3. 알고리즘 적용
- 선택된 설명변수들(x)과 종속변수(y) 간 패턴 발견이 목적
- 결과(종속변수=y)가 있는 전체 100% 데이터를,
70%의 학습 데이터(training
data), 30%의 검증 데이터(test data)로
랜덤 추출 (보통 70:30 비율로 분리)
4. 학습 데이터 기반 모델 생성
- 70%의 학습 데이터(training data)를 알고리즘에 적용 및 학습
- 발견된 X, Y의 인과관계와 패턴이 적용된 모델 생성
5. 검정 데이터 기반 모델 평가
- 생성된 모델을 30%의 검증 데이터(test data)로 평가
- 인과관계와 패턴이 적용된 모델의 예측 정확도 평가
- 예측 정확도가 우수할 경우 모델이 선택되지만, 예측 정확도가 좋지 않으면, 데이터 수집부터 재조정 하거나 모델 튜닝이 필요
(* 전체 데이터를 학습시키고, 학습시킨 데이터로 검증하게 되면 이미 동일한 데이터가 학습되어있기 때문에 평가 시 당연히 더 높은 예측 정확도가 나오게 됩니다. 이러한 결과는 긍정적인 해석의 결과라고 불립니다.
이 경우, 만일 새로운 데이터를 적용 시 평가 때 나온 예측 정확도보다 확연히 떨어진 예측 결과가 나오게 됩니다.
결론은, 지도학습 모델 생성 시 학습 데이터와 검증 데이터를 꼭 분리하여 검증하는 것이 포인트!)
참고: KIC 캠퍼스 머신러닝기반의 빅데이터분석 양성과정
'Data > Analysis ' 카테고리의 다른 글
[데이터 분석] K-NN 알고리즘 (3) | 2019.01.21 |
---|---|
[데이터 분석] Random Forest 알고리즘 (0) | 2019.01.17 |
[데이터 분석] 분석의 단계 (0) | 2019.01.17 |
[데이터 분석] Decision Tree(의사결정 나무) 알고리즘 (0) | 2019.01.15 |
[데이터 분석] 지도학습과 비지도학습 (0) | 2019.01.15 |