제 1장. SQL 기본 ㅇ SQL 문장들의 종류 - As-Is : 비절차적 데이터 조작어(DML)는 사용자가 무슨(What) 데이터를 원하는 지만 명세- To-Be : 비절차적 데이터 조작어(DML)는 사용자가 무슨(What) 데이터를 원하는 지만을 명세하지만, 절차적 데이터 조작어(PL/SQL(오라클), T-SQL 등)는 어떻게(How) 데이터를 접근해야 하는지 명세ㅇ WHERE- FROM 절 다음에 위치- 비교 연산자- 문자, 숫자, 표현식- 비교 칼럼명 (JOIN 사용 시) ㅇ 연산자 ㅇ 연산자 우선순위1. 괄호로 묶은 연산2. 부정 연산자(NOT)3. 비교 연산자(=, >, >=, 다중행 함수 : 집계 함수, 그룹 함수, 윈도우 함수- 사용자 정의 함수 ㅇ DUAL 테이블 특성- 사용자 SYS가 ..
제 1장. 데이터 모델링의 이해 ㅇ 엔티티- 유무형 1. 유형 : 물리적 형태 (사원, 물품)2. 사건 : 업무 수행에 따라 발생 (주문, 창구)3. 개념 : 관리해야할 개념적 정보 (조직, 장소)- 발생 시점1. 기본/키 : 원래 존재하는 정보 (사원, 부서)2. 중심 : 업무에 있어 중요한 역할 (접수, 계약)3. 행위 : 두 개 이상의 부모 엔티티로부터 발생 (주문내역, 계약진행) ㅇ 엔티티 특징- 필요로 해야하는 정보- 유일한 식별자에 의해 식별 가능- 인스턴스의 집합 (두 개 이상)- 업무 프로세스에 의해 이용되어야 함- 속성이 있어야 함 (두 개 이상) -> 한 개의 속성은 한 개의 속성값- 다른 엔티티와 최소 한 개 이상의 관계 ㅇ 엔티티 이름 부여- 협업 용어- 약어 사용 X- 단수명사- ..
1. 데이터 이해기출“A마트의 다른 상품들도 B마트보다 쌀 것이라고 판단”지혜데이터 사이언티스트가 갖춰야 할 역량은 빅데이터의 처리 및 분석에 필요한 이론적 지식과 기술적 숙련에 관련된 능력인 (ㄱ) skill과 데이터 속에 숨겨진 가치를 발견하고 새로운 발전 기회를 만들어 내기 위한 능력인 (ㄴ) skill로 나누어진다.(ㄱ) Hard (ㄴ) Soft(ㄱ)는 데이터의 가공 및 상관관계 간 이해를 통해 패턴을 인식하고 그 의미를 부여한 것이며, 지식을 도출하기 위한 재료(ㄱ) 정보기업의 의사결정 과정을 지원하기 위한 주제 중심적으로 통합적이며 시간성을 가지는 비휘발성 데이터의 집합을 (ㄱ)라고 한다.(ㄱ) 데이터 웨어하우스지난 몇 년간 여러 사일로 대신 하나의 데이터 소스를 추구하는 경향이 생겼다. 전사..
.Setting1234567891011import pandas as pd import numpy as np from pandas import Series, DataFrame from numpy import nan as NA import matplotlib.pyplot as plt %matplotlib qtcs-- .시계열 데이터12345from datetime import datetime # datetime 모듈 안에 datetime 함수 now = datetime.now() # sysdate in oracle, Sysdate in R now.year, now.month, now.dayColored by Color Scriptercs-- .날짜 생성1datetime(2019,2,20) - datetime..
import pandas as pdimport numpy as npfrom pandas import Series, DataFrame # 데이터 병합(Join) - pandas.mergedf1.merge?df1.merge(right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), copy=True, indicator=False, validate=None) # 주요 옵션# how : join 방법 (default는 inner join), - Outer Join은 'outer' / Inner Join은 'inner' / Left Join은..
계층적 군집 분석(hierarchical clustering) 참고글 : [R 분석] 계층 군집 분석(hierarchical clustering) [데이터 분석] K-NN 알고리즘 군집 분석은 기존 관측치의 Y값(Class)이 없는 데이터의 Clustering 알고리즘입니다. KNN 알고리즘과 동일한 거리 기반 모델로, 거리가 가까운 관측치들은 비슷한 특징을 가질 것이라는 전체하에 클러스터링을 수행하는 기법입니다. 차이점이라면, 설명변수를 통한 예측 목적이 아닌 데이터 축소 목적을 가지고 있습니다. 군집 분석에는 계층적인 방법(hierarchical clustering)과 비계층적인 방법(k-means)이 있는데, 순차적으로 그룹을 할당하는지의 여부에 따라 나뉩니다.계층적인 방법은 가까운 대상끼리 순차적..
분석의 단계 1. 목적 - 분석을 하려는 목적 - 얻고싶은 정보 2. 데이터 수집 - 종속변수가 포함된 데이터가 필요(지도학습일 경우) - 종속변수에 영향을 미칠만한 발생 가능한 모든 데이터의 수집(생각지도 못했던 종속변수가 중요한 변수일 경우가 있음) 3. 기본적인 데이터 전처리 - NA, NULL의 처리 (삭제 or 치환) - 일부 필요 데이터의 추출 및 치환 - 불필요 데이터 삭제 - 구간 분할 : 연속형 변수의 Factor화 ex) 성적을 상,중,하 그룹으로 분류해서 모델에 적용 - upsampling or downsampling > library(caret) (참고)> cancer library(randomForest) (참고)> forest_m forest_m$importance 5. 모델 선..
Decision Tree 알고리즘 참고글 : [R] Decision Tree(의사결정 나무) 알고리즘 - rpart [R 분석] Decision Tree 매개변수 튜닝 1. Decision Tree (출처 : 위키백과) Decision tree(의사결정나무)는 분류 모델 중 tree기반 모델의 기본이 되는 모델입니다. - 모델 학습 시 각 설명변수마다 feature importance(중요도)를 계산 => 불순도 측정 => 단순한 트리를 생성하기 위해 불순도가 가장 낮은(feature importance가 가장 높은) 설명변수를 상위 노드에 고정 (만약 비슷한 불순도를 갖는 설명변수가 있다면 더 많은 level(자식 노드)을 갖는 변수가 우선순위를 갖는 특징) -> Why? 자식 노드가 많을 수록 불순도..