[데이터 분석] 지도학습과 비지도학습

티스토리 뷰

Data/Analysis

[데이터 분석] 지도학습과 비지도학습

Aaron 2019. 1. 15. 16:50

기계 학습의 분류 - 지도학습과 비지도학습

1. 지도학습

지도 학습 : 정답(예측하고자 하는 대상(y)의 데이터)이 있는 데이터셋을 학습

(ex. 게임이탈 원인 분석 : 요인(x) = 게임 시간, 게임 머니, 아이템 개수, 레벨 등
결과(y) = 게임 이탈 or 유지

- 설명변수(정답에 영향을 미칠만한 요소 = 요인(x)) 와 종속변수(정답 = 결과(y)) 존재

- 정답에 영향을 미칠 것 같은 변수, 모델을 인간이 직접 선택하므로 인간 개입에 의한 분석이라고 불림

- 관측치끼리의 관계, 연관성을 통해 결과를 예측하려는 목적

- 확률과 통계 기반의 모델

<지도학습의 큰 분류>

회귀분석 : 설명변수(X)를 토대로 종속변수(Y)를 예측 + 설명변수(X)와 종속변수(Y)의 정확한 인과관계 파악

- Y가 연속형인 경우 사용(ex. 키의 유전 유무, 집값 변동 요소)

- 통계적 가설의 의한 모델 -> R-square, p-value 등 모델을 평가하는 통계량 제시 -> 해석이 필요

- 회귀계수를 통한 X-Y의 인과관계 파악 가능

Y = a1X1 + a2X2 + ... + anXn + b (n개의 설명변수) # 설명변수마다 y에 미치는 영향. 고유의 기울기 추정

- 다중공선성 발생 가능

(설명변수(x)들의 관계가 강해서, 설명변수(x)들 끼리 정보를 공유하면서 종속변수(y)가 제대로 해석되지 못 하는 현상)

분류분석 : 분류 기준으로 예측

- Y가 범주형(Factor형)인 경우 사용(ex. 고객 이탈 or 유지, 상황 or 비상환)

- 통계적 가설이 필요없는 모델 -> 통계적 모델 평가 기법 불가 -> 검정데이터를 사용하여 모델을 평가

- 이미 분류된 각 집단들의 특징(~을 할 것인지, 안 할 것인지)을 알고 있으므로 정답(y)을 분류(예측)

- 트리기반 모델을 제외하고는 대부분 black box 모델 -> 모델 내부를 확인할 수 없으므로 인과관계가 아닌 오직 예측에 집중

- 비모수적 검정 모델

(통계적인 가정이 필요 없음, 통계적으로 모델을 평가하는 기준이 없으므로, 테스트 데이터, 검증용 데이터로 모델을 검증해야 함)

- Model : K-NN(K-Nearest Neighbors), NB(Naive Bayes), DT(Decision Tree), RF(Random Forest), SVM(Support Vector Machine)

2. 비지도학습

비지도 학습 : 정답(예측하고자 하는 대상(y)의 데이터)이 없는 데이터셋을 학습

- 특정한 정답이 없으므로 데이터에 대한 지식이 많이 필요, 주로 현업 업무

- 지도학습과 다르게 종속변수(정답 = 결과(y))가 없음

- 컴퓨터의 기계학습에 의한 분석

- 공통적인 데이터들끼리 묶어서 패턴을 분석하려는 목적

- 데이터를 세분화하거나 연관성 파악

<비지도학습의 큰 분류>

군집분석 : 집단을 세분화시키고, 집단에 따른 분류

- 세분화된 집단에 대한 연구를 수행

- 나뉘어진 집단들의 기준, 특징을 찾아가는 과정

- 그룹화를 통한 예측(그룹 간 특성의 차이 발견)

연관성분석 : 'A를 하면 B도 하더라' 라는 연관성 발견

- ex. 장바구니 분석(A를 사면 B도 사더라)

- 상품 구매 규칙을 통한 구매 패턴 예측

참고: KIC 캠퍼스 머신러닝기반의 빅데이터분석 양성과정

저작자표시 (새창열림)

'Data > Analysis ' 카테고리의 다른 글

[데이터 분석] K-NN 알고리즘 (3)	2019.01.21
[데이터 분석] Random Forest 알고리즘 (0)	2019.01.17
[데이터 분석] 분석의 단계 (0)	2019.01.17
[데이터 분석] Decision Tree(의사결정 나무) 알고리즘 (0)	2019.01.15
[데이터 분석] 지도학습의 분석 절차 (0)	2019.01.15

최근에 올라온 글

최근에 달린 댓글

링크

Total

Today

Yesterday

TAG more

Data Makes Our Future

티스토리 뷰

[데이터 분석] 지도학습과 비지도학습

'Data > Analysis ' 카테고리의 다른 글

티스토리툴바