K-NN 알고리즘 적용 및 매개변수 튜닝 참고글 : KNN 알고리즘(이동) K-NN(K-Nearest Neighbors) 알고리즘은 새로운 관측치와 기존 데이터와의 거리 연산를 통한 분류가 목적이므로 train data / test data가 동시에 들어가는게 특징입니다. 또한, 알고리즘 자체에 predict() 기능을 보유하고 있어서 예측 및 평가에 predict 함수를 사용하지 않아도 자체적으로 수행해줍니다. install.packages("class")library(class)knn(train, # 모델 평가용 데이터 중 예측 변수 test, # 예측용 데이터 (예측을 훈련과 동시에 가능) cl, # 분류(class) 변수 k=n, # k 설정 (근접한 k개의 데이터까지 확인) prob=TRUE) ..
데이터 프레임(date frame) 중요!!! 데이터 프레임은 엑셀 시트와 유사한 표 형태를 가진 데이터 구조입니다. 데이터 프레임은 행, 열 구조로, 각 열은 서로 다른 데이터 타입을 가질 수 있습니다. data.frame(data, stringsAsFactors = T) 데이터 프레임 형성 시 stringsAsFactors 옵션이 default값 TRUE로 설정됩니다.stringsAsFactor 생략 시 문자열은 무조건 팩터로 저장되는데, 그렇게되면 row(행)를 추가할 수 없게됩니다.만일 데이터 프레임을 생성한 후 행을 더 추가할 필요가 있다면 stringsAsFactor 옵션을 FALSE로 해주어야겠죠? 데이터 프레임는 행렬(Matrix)과 출력 결과가 다를 뿐, Key-Value를 갖고 리스트와..
작업 디렉토리 지정 setwd("작업 디렉토리") # 작업 디렉토리의 위치 지정 getwd() # 작업 디렉토리의 위치 확인 작업 디렉토리를 지정해도 R 프로그램을 껏다 키면 기존 디렉토리 경로로 재설정됩니다. 현업에서는 주로 서버 컴퓨터에있는 R 프로그램을 공유 자원으로 사용하기 때문에, 작업 디렉토리를 변경해서 사용하는 방법보다 기존 디렉토리에 파일을 넣고 하는 습관을 들이는게 좋다고 합니다. 변수 1) 변수 생성 변수는 주로 알파벳, 숫자, _(언더스코어) 로만 이루어진 규칙을 사용하는게 좋습니다. .(마침표)도 가능하지만 파이썬이나 다른 언어의 변수에서 사용할 수 없는 경우가 있기 때문에 가능하면 공통적인 변수 규칙을 사용하는게 좋겠죠? 또한 이미 R이 사용하고있는 함수와 같은 문법적 규칙은 변수..