공분산 : 두 변수 사이의 상관관계 정도 - 공분산의 값이 클수록 두 변수의 관계가 높다고 설명- Cov(X, Y) = E(X편차 x Y편차) ㄴ cov(X, Y) > 0 : 높은 양의 관계 ㄴ cov(X, Y) < 0 : 높은 음의 관계 ㄴ cov(X, Y) = 0 : 관계 없음 상관계수 : 두 변수(X, Y)의 공분산을 각 변수의 표준편차의 곱으로 나눈 값 - 공분산의 크기와 상관관계의 정도의 관계를 정하기 위해 표준화 작업을 수행 (-1 ~ 1 사이의 분포) ㄴ 공분산의 절대값이 1에 가까우면 두 변수 사이의 상관관계가 크고, 0에 가까우면 상관관계가 작다고 설명 ㄴ 변수들의 상관관계 파악을 위해 공분산의 부호는 중요하지 않음. 공분산의 부호는 분석 결과 해석에 중요 ㄴ 두 변수로부터 추출한 표본의..
지도학습의 분석 절차 1. 분석의 목적을 기반한 데이터 수집 - 요인(설명변수=x), 결과(종속변수=y) - Feature Selection : 설명변수 선택, y에 어떠한 변수들이 영향을 많이 미칠지 고민하는 과정 (Y ~ x1, x2, x3 ....) 2. 알고리즘 선택 - 회귀(연속형 데이터) or 분류(펙터형 데이터) => 데이터의 특성, 목적에 따라 선택 3. 알고리즘 적용 - 선택된 설명변수들(x)과 종속변수(y) 간 패턴 발견이 목적 - 결과(종속변수=y)가 있는 전체 100% 데이터를, 70%의 학습 데이터(training data), 30%의 검증 데이터(test data)로 랜덤 추출 (보통 70:30 비율로 분리) 4. 학습 데이터 기반 모델 생성 - 70%의 학습 데이터(traini..