지도학습의 분석 절차 1. 분석의 목적을 기반한 데이터 수집 - 요인(설명변수=x), 결과(종속변수=y) - Feature Selection : 설명변수 선택, y에 어떠한 변수들이 영향을 많이 미칠지 고민하는 과정 (Y ~ x1, x2, x3 ....) 2. 알고리즘 선택 - 회귀(연속형 데이터) or 분류(펙터형 데이터) => 데이터의 특성, 목적에 따라 선택 3. 알고리즘 적용 - 선택된 설명변수들(x)과 종속변수(y) 간 패턴 발견이 목적 - 결과(종속변수=y)가 있는 전체 100% 데이터를, 70%의 학습 데이터(training data), 30%의 검증 데이터(test data)로 랜덤 추출 (보통 70:30 비율로 분리) 4. 학습 데이터 기반 모델 생성 - 70%의 학습 데이터(traini..
기계 학습의 분류 - 지도학습과 비지도학습 1. 지도학습 지도 학습 : 정답(예측하고자 하는 대상(y)의 데이터)이 있는 데이터셋을 학습 (ex. 게임이탈 원인 분석 : 요인(x) = 게임 시간, 게임 머니, 아이템 개수, 레벨 등 결과(y) = 게임 이탈 or 유지 - 설명변수(정답에 영향을 미칠만한 요소 = 요인(x)) 와 종속변수(정답 = 결과(y)) 존재 - 정답에 영향을 미칠 것 같은 변수, 모델을 인간이 직접 선택하므로 인간 개입에 의한 분석이라고 불림 - 관측치끼리의 관계, 연관성을 통해 결과를 예측하려는 목적 - 확률과 통계 기반의 모델 회귀분석 : 설명변수(X)를 토대로 종속변수(Y)를 예측 + 설명변수(X)와 종속변수(Y)의 정확한 인과관계 파악 - Y가 연속형인 경우 사용(ex. 키의..
Data Table(데이터 테이블) 데이터 테이블은 성능과 관련해서 중요한 개념입니다. Table 구조의 데이터의 특정 컬럼별 주소값을 갖는 index를 생성하여 key를 통한 연산 및 검색을 빠르게 수행 데이터 색인 혹은 연산 시 인덱스를 설정한 테이블과 설정하지 않은 테이블의 성능 차이가 데이터가 방대해질 수록 커지기 때문에 대용량의 데이터 처리를 위해 인덱스는 필수! 입니다. 데이터 테이블(data table) : 인덱스(목차) 설정이 가능한 데이터 프레임 Key별로 가지고 있는 주소값을 통해 저장공간을 효율적으로 색인(인덱싱)할 수 있습니다. 데이터 테이블은 찾고자 하는 정보 기반으로 주소를 저장하기 때문에, 조건 연산 수행 시 가장 빠른 특징이 있습니다.특히, key를 통한 조건 검색(색인), ..
데이터 가공을 위한 주요 함수 정리 #. 데이터 색인 1. 벡터 c(요소1, 요소2, ...) - 정수 색인 : vec[5] - 이름 색인 : vec['b'] - 벡터 색인 : vec[c(1,3,5)] - 슬라이스 색인 : vec[1:5] - 조건 색인 : vec[vec$'PAY'>500] 2. 리스트 list (key1 = value1, key2 = value2, .. ) - 정수(키) 색인 : list[[1]][1] - 이름 색인 : list$name[1] or list[['name']][1] 3. 행렬 matrix(1:20, nrow=4, byrow = F(세로 채우기), T(가로 채우기)) - 정수 색인 : m[2,3] # 2행,3열 - 이름 색인 : m[2,c('b','e')] - 벡터 색인 :..
rank : 벡터 값들의 순위 출력 rank(x, # 벡터 na.last = TRUE, # na는 마지막에 출력 ties.method = # 동률 순위에 대한 계산 방법 ( defualt = average) c("average", # 각 순위의 평균으로 통일 "first", # 처음 오는 순서대로 1순위 (처음으로 발견된 데이터 우선) "last", # 마지막 데이터에 1순위 (마지막에 발견된 데이터 우선) "random", # 순서 상관없이 랜덤 "max", # 동률 순위 중 가장 높은 값 출력 "min")) # 동률 순위 중 가장 낮은 값 출력(대부분의 rank 구현 방법 ) > disease library(doBy) > disease$rank orderBy(~ 콜레라, disease) 월별 콜레라 ..
요약 order() : 정렬된 쉘의 위치 값 리턴, 색인으로 데이터 정렬 / 전체 데이터 정렬 가능sort() : 정렬된 데이터 바로 리턴 / 전체 데이터 정렬 불가능orderBy() : 정렬된 데이터 바로 리턴 / 전체 데이터 정렬 가능 데이터 정렬 R에서 데이터를 정렬하는 함수는 order(), sort)(), doBy::orderby() 함수가 있습니다.주로 order(), sort() 함수가 많이 사용됩니다. # 데이터 준비> v1 v2 order(v1) # 2번째 값이 가장 큰 것을 확인[1] 1 3 5 4 2> v1[order(v1)] # 색인을 통해 정렬된 값 출력 [1] 1 2 3 5 10> v2[order(v2)] # NA를 맨 끝으로 배치(default)[1] 1 2 3 5 10 NA>..
데이터 타입 변환 함수 as.factor() # 팩터로 변환 (이 경우 factor의 levels 순서는 자동) as.numeric() # 숫자를 저장한 벡터로 변환 as.character() # 문자열을 저장한 벡터로 변환 as.Date() # 문자열을 날짜로 변환 as.matrix() # 행렬로 변환 as.array() # 배열로 변환 as.data.frame() # 데이터 프레임으로 변환 Q. > m1 m1 # 행렬 생성 no name price qty [1,] "1" "apple" "500" "5" [2,] "2" "banana" "200" "2" [3,] "3" "peach" "200" "7" [4,] "4" "berry" "50" "9" > as.data.frame(m1) # 행렬을 데이터 프..
안녕하세요! 첫 게시물이네요.. 오늘부터 열심히 써볼 예정입니다! 그럼 본론으로 오라클 다운로드 및 설치 완벽 정리를 들어가겠습니다. 1. 오라클 다운로드 먼저 https://www.oracle.com/downloads/ 에 접속해줍니다 ! 그 다음 Database를 설치할것이므로 Database를 클릭! 12c는 새로 나온 버전인데 새로 나온 버전인만큼 아직 불안정하기때문에 11g Enterprise/Standard Editions 를 설치해줍니다. (현 시점 18.12.13) 그리고! Oracle Database 11g Release 2 를 설치. 저는 이번에 SQL을 배우면서 현업에서 DBA Edition으로 주로 사용한다고하는 Orange 라는 프로그램을 사용할건데요, 이 프로그램은 oracle ..