#. 분석 방법 * 지도학습 - Y(정답)를 이미 알 경우 - 이미 알려진 사례를 바탕으로 일반화된 모델을 생성 - 입력이 주어지면 기대되는 출력을 제공 - 적용 : 고객 이탈, 양성유무, 우편번호 숫자 판별, 부정 거래 감지 * 비지도학습 - Y(정답)를 모를 경우 - 입력은 주어지지만 출력은 제공되지 않음 - 적용 : 글의 주제 구분, 취향이 비슷한 고객 그룹, 비정상적 접근 탐지 #. 모델 평가- 모델을 만들었다면 새 데이터를 적용시켜 예측 전 모델을 평가해야 함- 모델 생성 시 사용한 데이터는 이미 학습되어 있으므로 모델 평가 목적으로 재사용 불가- 75%의 훈련 데이터와 25%의 테스트 데이터 필요 #. K-NN 알고리즘- 지도학습- 게으른 학습으로 보완 수정이 없음- 결측치, 이상치에 민감하므..
공분산 : 두 변수 사이의 상관관계 정도 - 공분산의 값이 클수록 두 변수의 관계가 높다고 설명- Cov(X, Y) = E(X편차 x Y편차) ㄴ cov(X, Y) > 0 : 높은 양의 관계 ㄴ cov(X, Y) < 0 : 높은 음의 관계 ㄴ cov(X, Y) = 0 : 관계 없음 상관계수 : 두 변수(X, Y)의 공분산을 각 변수의 표준편차의 곱으로 나눈 값 - 공분산의 크기와 상관관계의 정도의 관계를 정하기 위해 표준화 작업을 수행 (-1 ~ 1 사이의 분포) ㄴ 공분산의 절대값이 1에 가까우면 두 변수 사이의 상관관계가 크고, 0에 가까우면 상관관계가 작다고 설명 ㄴ 변수들의 상관관계 파악을 위해 공분산의 부호는 중요하지 않음. 공분산의 부호는 분석 결과 해석에 중요 ㄴ 두 변수로부터 추출한 표본의..
참고글 : [Statistics] 가설 검정 및 추정[Statistics] p-value 란?[Statistics/R] 모집단 추론, 추정[Statistics] 모집단과 표본 #. 가설검정 - 표본평균으로부터 모수(모집단의 특성을 나타내는 통계량)의 상태에 대한 여러 가설들 중 어떤 가설을 사실로 받아들일지 결정하는 과정 - 표본으로부터 얻은 정보로 모집단 모수의 참 or 거짓 검증 #. 가설검정의 단계1) 가설 수립2) 통계량 계산 (표본으로부터 검정)3) 가설 선택의 기준 수립4) 판정 1) 가설 수립#. 가설의 종류 1) 영가설(귀무가설, H0) : 기존에 알려진 것과 차이가 없음 (α = 0) - 기각되길 희망하는 가설 2) 대안가설(대립가설, H1) : 기존에 알려진 것과 차이가 있음 (α !=..
참고글 :[Statistics/R] 모집단 추론, 추정[Statistics] 가설 검정 및 추정 p-value p-value 는 모집단 추론의 가설 검정에서 기각 혹은 채택을 결정할 수 있는 확률을 의미합니다. 95%의 신뢰구간(표준정규분포의 값이 [-1.96 ~ 1.96]인 구간)이 -> 채택 혹은 기각을 결정하는데 -> 여기서 결정할 수 있는 확률(가설을 뒷받침해줄 수 있는 크기)이 p-value입니다. 먼저, 대부분의 분석 모델에서는 가설이 부정 의미로 사용되어, p-value가 작을수록 결과가 의미있다고 해석할 수 있습니다.자세한 내용은 뒤에 설명드리겠습니다 !! p-value를 예를들어 설명하자면 평균 키를 구하고자 할 때,신뢰구간이 175 ~ 182 이고, 가설은 184라고 가정해보자.여기서 ..
참고글 :[Statistics] 표준 정규 분포[Statistics/R] 중심극한정리(표본과 모집단)[Statistics] 모집단과 표본 모집단 추론 추론 : 표본으로부터 모집단의 특성을 예측하는 과정 (가설검정) 예를 들어 대한민국 전체 국민의 소득 평균을 구한다고 해봅시다.모집단(전체 국민의 소득)을 모두 알기 힘들뿐더러, 안다고 하더라도 전수조사 할 수 없으므로 샘플링을 수행하여 전체 평균을 가설하게 됩니다. 샘플링을 통해 가설된 전체 평균을, 구간 추정(추정)으로 가설 검정(추론)을 수행합니다. # 모평균의 추정추정 : 표본으로부터 모집단의 특성에 대하여 가설을 세우고, 오차의 한계를 제시하는 과정 (고정된 특정 모수) 1. 점 추정 - Xbar ≈ mu 라는 사실을 이용하여, "한 번 추출된 표..
참고글 : [Statistics] 모집단과 표본[Statistics] 중심극한정리(표본과 모집단) #. 표본과 모집단의 관계- 모평균이 μ(mu), 모표준편차가 σ(sigma)인 정규분포(N(평균, 분산))에서, 모집단으로부터 샘플링된 표본평균들의 분포는 정규분포에 근사 Xbar ~ N(μ, (σ/sqrt(n))^2) * n : 표본의 크기, N(모평균, 표본분산) 1) 표본평균의 평균 ≈ "모평균" (sample size가 커질수록) : Xbar ≈ M(μ) 2) 표본표준편차 ≈ "모분산(σ) / √n" : s ≈ σ / √n3) 표준화된 표본평균들의 분포는 정규분포와 근사 : Z(Xbar) ≈ N(0,1) X ~ N(μ, σ2) 인 정규분포를 표준화 하면, * 정규분포 N(평균, 분산)X ~ N(0,..
참고글 : [Statistics] 모집단과 표본[Statistics] 표본 정규 분포 #. 표본과 모집단의 관계- 모평균이 μ(mu), 모표준편차가 σ(sigma)인 정규분포(N(평균, 분산))에서, 모집단으로부터 샘플링된 표본평균들의 분포는 정규분포에 근사 Xbar ~ N(μ, (σ/sqrt(n))^2) * n : 표본의 크기, N(모평균, 표본분산) 1) 표본평균의 평균 ≈ "모평균" (sample size가 커질수록) : E(Xbar) ≈ M(μ) 2) 표본표준편차 ≈ "모분산(σ) / √n" : s ≈ σ / √n3) 표준화된 확률변수(표본평균들)의 분포는 정규분포와 근사 : Z(Xbar) ≈ N(0,1) 1. 모집단이 정규분포를 따르는 경우 정규분포와의 근사성 확인# 1-1) 표본평균의 분포 확..