티스토리 뷰
기계 학습의 분류 - 지도학습과 비지도학습
1. 지도학습
지도 학습 : 정답(예측하고자 하는 대상(y)의 데이터)이 있는 데이터셋을 학습
(ex.
게임이탈 원인 분석 : 요인(x) = 게임
시간, 게임 머니, 아이템 개수, 레벨 등
결과(y) = 게임 이탈 or 유지
- 설명변수(정답에 영향을 미칠만한 요소 = 요인(x)) 와 종속변수(정답 = 결과(y)) 존재
- 정답에 영향을 미칠 것 같은 변수, 모델을 인간이 직접 선택하므로 인간 개입에 의한 분석이라고 불림
- 관측치끼리의 관계, 연관성을 통해 결과를 예측하려는 목적
- 확률과 통계 기반의 모델
<지도학습의 큰 분류>
회귀분석 : 설명변수(X)를 토대로 종속변수(Y)를 예측 + 설명변수(X)와 종속변수(Y)의 정확한 인과관계 파악
- Y가 연속형인 경우 사용(ex. 키의 유전 유무, 집값 변동 요소)
- 통계적 가설의 의한 모델 -> R-square, p-value 등 모델을 평가하는 통계량 제시 -> 해석이 필요
- 회귀계수를 통한 X-Y의 인과관계 파악 가능
Y = a1X1 + a2X2 + ... + anXn + b (n개의 설명변수) # 설명변수마다 y에 미치는 영향. 고유의 기울기 추정
- 다중공선성 발생 가능
(설명변수(x)들의 관계가 강해서, 설명변수(x)들 끼리 정보를 공유하면서 종속변수(y)가 제대로 해석되지 못 하는 현상)
분류분석 : 분류 기준으로 예측
- Y가 범주형(Factor형)인 경우 사용(ex. 고객 이탈 or 유지, 상황 or 비상환)
- 통계적 가설이 필요없는 모델 -> 통계적 모델 평가 기법 불가 -> 검정데이터를 사용하여 모델을 평가
- 이미 분류된 각 집단들의 특징(~을 할 것인지, 안 할 것인지)을 알고 있으므로 정답(y)을 분류(예측)
- 트리기반 모델을 제외하고는 대부분 black box 모델 -> 모델 내부를 확인할 수 없으므로 인과관계가 아닌 오직 예측에 집중
- 비모수적 검정 모델
(통계적인 가정이 필요 없음, 통계적으로 모델을 평가하는 기준이 없으므로, 테스트 데이터, 검증용 데이터로 모델을 검증해야 함)
- Model : K-NN(K-Nearest Neighbors), NB(Naive Bayes), DT(Decision Tree), RF(Random Forest), SVM(Support Vector Machine)
2. 비지도학습
비지도 학습 : 정답(예측하고자 하는 대상(y)의 데이터)이 없는 데이터셋을 학습
- 특정한 정답이 없으므로 데이터에 대한 지식이 많이 필요, 주로 현업 업무
- 지도학습과 다르게 종속변수(정답 = 결과(y))가 없음
- 컴퓨터의 기계학습에 의한 분석
- 공통적인 데이터들끼리 묶어서 패턴을 분석하려는 목적
- 데이터를 세분화하거나 연관성 파악
<비지도학습의 큰 분류>
군집분석 : 집단을 세분화시키고, 집단에 따른 분류
- 세분화된 집단에 대한 연구를 수행
- 나뉘어진 집단들의 기준, 특징을 찾아가는 과정
- 그룹화를 통한 예측(그룹 간 특성의 차이 발견)
연관성분석 : 'A를 하면 B도 하더라' 라는 연관성 발견
- ex. 장바구니 분석(A를 사면 B도 사더라)
- 상품 구매 규칙을 통한 구매 패턴 예측
참고: KIC 캠퍼스 머신러닝기반의 빅데이터분석 양성과정
'Data > Analysis ' 카테고리의 다른 글
[데이터 분석] K-NN 알고리즘 (3) | 2019.01.21 |
---|---|
[데이터 분석] Random Forest 알고리즘 (0) | 2019.01.17 |
[데이터 분석] 분석의 단계 (0) | 2019.01.17 |
[데이터 분석] Decision Tree(의사결정 나무) 알고리즘 (0) | 2019.01.15 |
[데이터 분석] 지도학습의 분석 절차 (0) | 2019.01.15 |