지도학습의 분석 절차 1. 분석의 목적을 기반한 데이터 수집 - 요인(설명변수=x), 결과(종속변수=y) - Feature Selection : 설명변수 선택, y에 어떠한 변수들이 영향을 많이 미칠지 고민하는 과정 (Y ~ x1, x2, x3 ....) 2. 알고리즘 선택 - 회귀(연속형 데이터) or 분류(펙터형 데이터) => 데이터의 특성, 목적에 따라 선택 3. 알고리즘 적용 - 선택된 설명변수들(x)과 종속변수(y) 간 패턴 발견이 목적 - 결과(종속변수=y)가 있는 전체 100% 데이터를, 70%의 학습 데이터(training data), 30%의 검증 데이터(test data)로 랜덤 추출 (보통 70:30 비율로 분리) 4. 학습 데이터 기반 모델 생성 - 70%의 학습 데이터(traini..
기계 학습의 분류 - 지도학습과 비지도학습 1. 지도학습 지도 학습 : 정답(예측하고자 하는 대상(y)의 데이터)이 있는 데이터셋을 학습 (ex. 게임이탈 원인 분석 : 요인(x) = 게임 시간, 게임 머니, 아이템 개수, 레벨 등 결과(y) = 게임 이탈 or 유지 - 설명변수(정답에 영향을 미칠만한 요소 = 요인(x)) 와 종속변수(정답 = 결과(y)) 존재 - 정답에 영향을 미칠 것 같은 변수, 모델을 인간이 직접 선택하므로 인간 개입에 의한 분석이라고 불림 - 관측치끼리의 관계, 연관성을 통해 결과를 예측하려는 목적 - 확률과 통계 기반의 모델 회귀분석 : 설명변수(X)를 토대로 종속변수(Y)를 예측 + 설명변수(X)와 종속변수(Y)의 정확한 인과관계 파악 - Y가 연속형인 경우 사용(ex. 키의..