티스토리 뷰

반응형

기계 학습의 분류 - 지도학습과 비지도학습



1. 지도학습 

 

지도 학습 : 정답(예측하고자 하는 대상(y)의 데이터)이 있는 데이터셋을 학습

  (ex. 게임이탈 원인 분석 : 요인(x) = 게임 시간, 게임 머니, 아이템 개수, 레벨 등
                                   
결과(y) = 게임 이탈 or 유지

  - 설명변수(정답에 영향을 미칠만한 요소 = 요인(x)) 와 종속변수(정답 = 결과(y)) 존재

  - 정답에 영향을 미칠 것 같은 변수, 모델을 인간이 직접 선택하므로 인간 개입에 의한 분석이라고 불림

  - 관측치끼리의 관계, 연관성을 통해 결과를 예측하려는 목적

  - 확률과 통계 기반의 모델

 

 <지도학습의 큰 분류>

회귀분석 : 설명변수(X)를 토대로 종속변수(Y)예측 + 설명변수(X)와 종속변수(Y)의 정확한 인과관계 파악

  - Y가 연속형인 경우 사용(ex. 키의 유전 유무, 집값 변동 요소)

  - 통계적 가설의 의한 모델 -> R-square, p-value 등 모델을 평가하는 통계량 제시 -> 해석이 필요

  - 회귀계수를 통한 X-Y의 인과관계 파악 가능

    Y = a1X1 + a2X2 + ... + anXn + b (n개의 설명변수)  # 설명변수마다 y에 미치는 영향. 고유의 기울기 추정 

  - 다중공선성 발생 가능

     (설명변수(x)들의 관계가 강해서, 설명변수(x)들 끼리 정보를 공유하면서 종속변수(y)가 제대로 해석되지 못 하는 현상)

 

분류분석 : 분류 기준으로 예측

  - Y가 범주형(Factor형)인 경우 사용(ex. 고객 이탈 or 유지, 상황 or 비상환)

  - 통계적 가설이 필요없는 모델 -> 통계적 모델 평가 기법 불가 -> 검정데이터를 사용하여 모델을 평가

  - 이미 분류된 각 집단들의 특징(~을 할 것인지, 안 할 것인지)을 알고 있으므로 정답(y)을 분류(예측)

  - 트리기반 모델을 제외하고는 대부분 black box 모델 -> 모델 내부를 확인할 수 없으므로 인과관계가 아닌 오직 예측에 집중

  - 비모수적 검정 모델 

     (통계적인 가정이 필요 없음, 통계적으로 모델을 평가하는 기준이 없으므로, 테스트 데이터, 검증용 데이터로 모델을 검증해야 함)

  - Model : K-NN(K-Nearest Neighbors), NB(Naive Bayes), DT(Decision Tree), RF(Random Forest), SVM(Support Vector Machine)



2. 비지도학습 

 

비지도 학습 : 정답(예측하고자 하는 대상(y)의 데이터)이 없는 데이터셋을 학습

  - 특정한 정답이 없으므로 데이터에 대한 지식이 많이 필요, 주로 현업 업무

  - 지도학습과 다르게 종속변수(정답 = 결과(y))가 없음

  - 컴퓨터의 기계학습에 의한 분석

  - 공통적인 데이터들끼리 묶어서 패턴을 분석하려는 목적

  데이터를 세분화하거나 연관성 파악

 

 <비지도학습의 큰 분류>

군집분석 : 집단을 세분화시키고, 집단에 따른 분류

  - 세분화된 집단에 대한 연구를 수행

  - 나뉘어진 집단들의 기준, 특징을 찾아가는 과정

  - 그룹화를 통한 예측(그룹 간 특성의 차이 발견)

 

연관성분석 : 'A를 하면 B도 하더라' 라는 연관성 발견

 - ex. 장바구니 분석(A를 사면 B도 사더라)

 - 상품 구매 규칙을 통한 구매 패턴 예측 




참고: KIC 캠퍼스 머신러닝기반의 빅데이터분석 양성과정

반응형
댓글
최근에 올라온 글
최근에 달린 댓글
링크
Total
Today
Yesterday