공분산 : 두 변수 사이의 상관관계 정도 - 공분산의 값이 클수록 두 변수의 관계가 높다고 설명- Cov(X, Y) = E(X편차 x Y편차) ㄴ cov(X, Y) > 0 : 높은 양의 관계 ㄴ cov(X, Y) < 0 : 높은 음의 관계 ㄴ cov(X, Y) = 0 : 관계 없음 상관계수 : 두 변수(X, Y)의 공분산을 각 변수의 표준편차의 곱으로 나눈 값 - 공분산의 크기와 상관관계의 정도의 관계를 정하기 위해 표준화 작업을 수행 (-1 ~ 1 사이의 분포) ㄴ 공분산의 절대값이 1에 가까우면 두 변수 사이의 상관관계가 크고, 0에 가까우면 상관관계가 작다고 설명 ㄴ 변수들의 상관관계 파악을 위해 공분산의 부호는 중요하지 않음. 공분산의 부호는 분석 결과 해석에 중요 ㄴ 두 변수로부터 추출한 표본의..
참고글 : [Statistics] 가설 검정 및 추정[Statistics] p-value 란?[Statistics/R] 모집단 추론, 추정[Statistics] 모집단과 표본 #. 가설검정 - 표본평균으로부터 모수(모집단의 특성을 나타내는 통계량)의 상태에 대한 여러 가설들 중 어떤 가설을 사실로 받아들일지 결정하는 과정 - 표본으로부터 얻은 정보로 모집단 모수의 참 or 거짓 검증 #. 가설검정의 단계1) 가설 수립2) 통계량 계산 (표본으로부터 검정)3) 가설 선택의 기준 수립4) 판정 1) 가설 수립#. 가설의 종류 1) 영가설(귀무가설, H0) : 기존에 알려진 것과 차이가 없음 (α = 0) - 기각되길 희망하는 가설 2) 대안가설(대립가설, H1) : 기존에 알려진 것과 차이가 있음 (α !=..
참고글 :[Statistics/R] 모집단 추론, 추정[Statistics] 가설 검정 및 추정 p-value p-value 는 모집단 추론의 가설 검정에서 기각 혹은 채택을 결정할 수 있는 확률을 의미합니다. 95%의 신뢰구간(표준정규분포의 값이 [-1.96 ~ 1.96]인 구간)이 -> 채택 혹은 기각을 결정하는데 -> 여기서 결정할 수 있는 확률(가설을 뒷받침해줄 수 있는 크기)이 p-value입니다. 먼저, 대부분의 분석 모델에서는 가설이 부정 의미로 사용되어, p-value가 작을수록 결과가 의미있다고 해석할 수 있습니다.자세한 내용은 뒤에 설명드리겠습니다 !! p-value를 예를들어 설명하자면 평균 키를 구하고자 할 때,신뢰구간이 175 ~ 182 이고, 가설은 184라고 가정해보자.여기서 ..
참고글 :[Statistics] 표준 정규 분포[Statistics/R] 중심극한정리(표본과 모집단)[Statistics] 모집단과 표본 모집단 추론 추론 : 표본으로부터 모집단의 특성을 예측하는 과정 (가설검정) 예를 들어 대한민국 전체 국민의 소득 평균을 구한다고 해봅시다.모집단(전체 국민의 소득)을 모두 알기 힘들뿐더러, 안다고 하더라도 전수조사 할 수 없으므로 샘플링을 수행하여 전체 평균을 가설하게 됩니다. 샘플링을 통해 가설된 전체 평균을, 구간 추정(추정)으로 가설 검정(추론)을 수행합니다. # 모평균의 추정추정 : 표본으로부터 모집단의 특성에 대하여 가설을 세우고, 오차의 한계를 제시하는 과정 (고정된 특정 모수) 1. 점 추정 - Xbar ≈ mu 라는 사실을 이용하여, "한 번 추출된 표..
참고글 : [Statistics] 모집단과 표본[Statistics] 중심극한정리(표본과 모집단) #. 표본과 모집단의 관계- 모평균이 μ(mu), 모표준편차가 σ(sigma)인 정규분포(N(평균, 분산))에서, 모집단으로부터 샘플링된 표본평균들의 분포는 정규분포에 근사 Xbar ~ N(μ, (σ/sqrt(n))^2) * n : 표본의 크기, N(모평균, 표본분산) 1) 표본평균의 평균 ≈ "모평균" (sample size가 커질수록) : Xbar ≈ M(μ) 2) 표본표준편차 ≈ "모분산(σ) / √n" : s ≈ σ / √n3) 표준화된 표본평균들의 분포는 정규분포와 근사 : Z(Xbar) ≈ N(0,1) X ~ N(μ, σ2) 인 정규분포를 표준화 하면, * 정규분포 N(평균, 분산)X ~ N(0,..
참고글 : [Statistics] 모집단과 표본[Statistics] 표본 정규 분포 #. 표본과 모집단의 관계- 모평균이 μ(mu), 모표준편차가 σ(sigma)인 정규분포(N(평균, 분산))에서, 모집단으로부터 샘플링된 표본평균들의 분포는 정규분포에 근사 Xbar ~ N(μ, (σ/sqrt(n))^2) * n : 표본의 크기, N(모평균, 표본분산) 1) 표본평균의 평균 ≈ "모평균" (sample size가 커질수록) : E(Xbar) ≈ M(μ) 2) 표본표준편차 ≈ "모분산(σ) / √n" : s ≈ σ / √n3) 표준화된 확률변수(표본평균들)의 분포는 정규분포와 근사 : Z(Xbar) ≈ N(0,1) 1. 모집단이 정규분포를 따르는 경우 정규분포와의 근사성 확인# 1-1) 표본평균의 분포 확..
참고글 :[Statistics] 중심극한정리(표본과 모집단)[Statistics] 표본 정규 분포 모집단 : 통계적인 관찰의 대상이 되는 집단 전체 (출처 : 두산백과)모수 : 모집단의 특성을 나타내는 정보 - 모평균(μ:mu): 모집단의 평균 - 모분산(σ2) : 모집단의 분산 - 모표준편차(σ:sigma): 모집단의 표준편차 = s x √n (n=sample size) 표본 : 모집단에서 선택된 모집단 구성단위의 일부 (출처 : 두산백과) - 모집단 전체를 모두 조사할 수 없으므로, 모집단으로부터 random sampling 된 하위 집단통계량 : 표본의 특성통계치 : 통계량에 표본으로부터 관찰된 정보를 대입하여 구한 실측값 - 표본평균(X-bar) : 표본의 평균 - 표본분산(s2) : 표본의 분산..