#. 분석 방법 * 지도학습 - Y(정답)를 이미 알 경우 - 이미 알려진 사례를 바탕으로 일반화된 모델을 생성 - 입력이 주어지면 기대되는 출력을 제공 - 적용 : 고객 이탈, 양성유무, 우편번호 숫자 판별, 부정 거래 감지 * 비지도학습 - Y(정답)를 모를 경우 - 입력은 주어지지만 출력은 제공되지 않음 - 적용 : 글의 주제 구분, 취향이 비슷한 고객 그룹, 비정상적 접근 탐지 #. 모델 평가- 모델을 만들었다면 새 데이터를 적용시켜 예측 전 모델을 평가해야 함- 모델 생성 시 사용한 데이터는 이미 학습되어 있으므로 모델 평가 목적으로 재사용 불가- 75%의 훈련 데이터와 25%의 테스트 데이터 필요 #. K-NN 알고리즘- 지도학습- 게으른 학습으로 보완 수정이 없음- 결측치, 이상치에 민감하므..
계층적 군집 분석(hierarchical clustering) 참고글 : [R 분석] 계층 군집 분석(hierarchical clustering) [데이터 분석] K-NN 알고리즘 군집 분석은 기존 관측치의 Y값(Class)이 없는 데이터의 Clustering 알고리즘입니다. KNN 알고리즘과 동일한 거리 기반 모델로, 거리가 가까운 관측치들은 비슷한 특징을 가질 것이라는 전체하에 클러스터링을 수행하는 기법입니다. 차이점이라면, 설명변수를 통한 예측 목적이 아닌 데이터 축소 목적을 가지고 있습니다. 군집 분석에는 계층적인 방법(hierarchical clustering)과 비계층적인 방법(k-means)이 있는데, 순차적으로 그룹을 할당하는지의 여부에 따라 나뉩니다.계층적인 방법은 가까운 대상끼리 순차적..
KNN (K-Nearest Neighbors) 알고리즘 참고글 : [R 분석] K-NN 알고리즘 적용 및 매개변수 튜닝 KNN 알고리즘은 거리기반 분류분석 모델입니다.'기존 데이터와 특성이 비슷하면 새로운 데이터도 저들과 비슷하지 않을까?' 라는 고안으로 나온 알고리즘이라고 합니다. 예측을 하고자하는 새로운 관측치(데이터)와 이미 정답이 있는 기존 관측치(데이터) 사이의 거리를 계산하여,가장 가까운 K개 관측치들의 Class(범주, 그룹)를 확인하여 예측하게 됩니다. 여기서 기존 관측치의 Y값(Class)이 존재한다면 KNN 알고리즘으로, 기존 관측치의 Y값(Class)이 존재하지 않는다면 군집분석 Clustering 알고리즘으로 구분됩니다. 위 그림을 예로 들면, 중앙에 새..
Random Forest 알고리즘 참고글 : [R 분석] Random Forest 알고리즘 [R 분석] Random Forest 매개변수 튜닝 출처 : https://medium.com/@williamkoehrsen/random-forest-simple-explanation-377895a60d2d Random Forest 는 굉장히 중요한 !!! 알고리즘입니다. 먼저 Random Forest 알고리즘은 Decision Tree의 분류보다 정확도를 개선시키기 위해, 여러개의 나무를 생성하여 각각 나무의 예측을 총 조합하여 결론을 내리는 구조입니다. 현업에서도 현재까지 가장 많이 사용하고 있고, 분류 분석에서 이 알고리즘만 사용해도 될 정도로 쉽고, 성능이 매우 우수한 알고리즘이기 때문이죠 !!! Rando..
분석의 단계 1. 목적 - 분석을 하려는 목적 - 얻고싶은 정보 2. 데이터 수집 - 종속변수가 포함된 데이터가 필요(지도학습일 경우) - 종속변수에 영향을 미칠만한 발생 가능한 모든 데이터의 수집(생각지도 못했던 종속변수가 중요한 변수일 경우가 있음) 3. 기본적인 데이터 전처리 - NA, NULL의 처리 (삭제 or 치환) - 일부 필요 데이터의 추출 및 치환 - 불필요 데이터 삭제 - 구간 분할 : 연속형 변수의 Factor화 ex) 성적을 상,중,하 그룹으로 분류해서 모델에 적용 - upsampling or downsampling > library(caret) (참고)> cancer library(randomForest) (참고)> forest_m forest_m$importance 5. 모델 선..
Decision Tree 알고리즘 참고글 : [R] Decision Tree(의사결정 나무) 알고리즘 - rpart [R 분석] Decision Tree 매개변수 튜닝 1. Decision Tree (출처 : 위키백과) Decision tree(의사결정나무)는 분류 모델 중 tree기반 모델의 기본이 되는 모델입니다. - 모델 학습 시 각 설명변수마다 feature importance(중요도)를 계산 => 불순도 측정 => 단순한 트리를 생성하기 위해 불순도가 가장 낮은(feature importance가 가장 높은) 설명변수를 상위 노드에 고정 (만약 비슷한 불순도를 갖는 설명변수가 있다면 더 많은 level(자식 노드)을 갖는 변수가 우선순위를 갖는 특징) -> Why? 자식 노드가 많을 수록 불순도..
지도학습의 분석 절차 1. 분석의 목적을 기반한 데이터 수집 - 요인(설명변수=x), 결과(종속변수=y) - Feature Selection : 설명변수 선택, y에 어떠한 변수들이 영향을 많이 미칠지 고민하는 과정 (Y ~ x1, x2, x3 ....) 2. 알고리즘 선택 - 회귀(연속형 데이터) or 분류(펙터형 데이터) => 데이터의 특성, 목적에 따라 선택 3. 알고리즘 적용 - 선택된 설명변수들(x)과 종속변수(y) 간 패턴 발견이 목적 - 결과(종속변수=y)가 있는 전체 100% 데이터를, 70%의 학습 데이터(training data), 30%의 검증 데이터(test data)로 랜덤 추출 (보통 70:30 비율로 분리) 4. 학습 데이터 기반 모델 생성 - 70%의 학습 데이터(traini..
기계 학습의 분류 - 지도학습과 비지도학습 1. 지도학습 지도 학습 : 정답(예측하고자 하는 대상(y)의 데이터)이 있는 데이터셋을 학습 (ex. 게임이탈 원인 분석 : 요인(x) = 게임 시간, 게임 머니, 아이템 개수, 레벨 등 결과(y) = 게임 이탈 or 유지 - 설명변수(정답에 영향을 미칠만한 요소 = 요인(x)) 와 종속변수(정답 = 결과(y)) 존재 - 정답에 영향을 미칠 것 같은 변수, 모델을 인간이 직접 선택하므로 인간 개입에 의한 분석이라고 불림 - 관측치끼리의 관계, 연관성을 통해 결과를 예측하려는 목적 - 확률과 통계 기반의 모델 회귀분석 : 설명변수(X)를 토대로 종속변수(Y)를 예측 + 설명변수(X)와 종속변수(Y)의 정확한 인과관계 파악 - Y가 연속형인 경우 사용(ex. 키의..