KNN (K-Nearest Neighbors) 알고리즘 참고글 : [R 분석] K-NN 알고리즘 적용 및 매개변수 튜닝 KNN 알고리즘은 거리기반 분류분석 모델입니다.'기존 데이터와 특성이 비슷하면 새로운 데이터도 저들과 비슷하지 않을까?' 라는 고안으로 나온 알고리즘이라고 합니다. 예측을 하고자하는 새로운 관측치(데이터)와 이미 정답이 있는 기존 관측치(데이터) 사이의 거리를 계산하여,가장 가까운 K개 관측치들의 Class(범주, 그룹)를 확인하여 예측하게 됩니다. 여기서 기존 관측치의 Y값(Class)이 존재한다면 KNN 알고리즘으로, 기존 관측치의 Y값(Class)이 존재하지 않는다면 군집분석 Clustering 알고리즘으로 구분됩니다. 위 그림을 예로 들면, 중앙에 새..
기계 학습의 분류 - 지도학습과 비지도학습 1. 지도학습 지도 학습 : 정답(예측하고자 하는 대상(y)의 데이터)이 있는 데이터셋을 학습 (ex. 게임이탈 원인 분석 : 요인(x) = 게임 시간, 게임 머니, 아이템 개수, 레벨 등 결과(y) = 게임 이탈 or 유지 - 설명변수(정답에 영향을 미칠만한 요소 = 요인(x)) 와 종속변수(정답 = 결과(y)) 존재 - 정답에 영향을 미칠 것 같은 변수, 모델을 인간이 직접 선택하므로 인간 개입에 의한 분석이라고 불림 - 관측치끼리의 관계, 연관성을 통해 결과를 예측하려는 목적 - 확률과 통계 기반의 모델 회귀분석 : 설명변수(X)를 토대로 종속변수(Y)를 예측 + 설명변수(X)와 종속변수(Y)의 정확한 인과관계 파악 - Y가 연속형인 경우 사용(ex. 키의..