티스토리 뷰
#. 표본과 모집단의 관계
- 모평균이 μ(mu), 모표준편차가 σ(sigma)인 정규분포(N(평균, 분산))에서,
모집단으로부터 샘플링된 표본평균들의 분포는 정규분포에 근사
Xbar ~ N(μ, (σ/sqrt(n))^2) * n : 표본의 크기, N(모평균, 표본분산)
1) 표본평균의 평균 ≈ "모평균" (sample size가 커질수록)
: Xbar ≈ M(μ)
2) 표본표준편차 ≈ "모분산(σ) / √n"
: s ≈ σ / √n
3) 표준화된 표본평균들의 분포는 정규분포와 근사
: Z(Xbar) ≈ N(0,1)
X ~ N(μ, σ2) 인 정규분포를 표준화 하면, * 정규분포 N(평균, 분산)
X ~ N(0,1) 의 분포를 가지며, 이 분포를 "표준정규분포"라고 부름
# 표준화된 확률변수(표본평균들)의 분포 ≈ 표준정규분포
표준화된 확률변수(표본평균들)의 분포는 정규분포와 근사한다는 사실을 통해, 역으로 Z(확률변수)의 값을 구할 수 있음
표준화 : ( 확률변수(X) - 모평균(μ) ) / 표본표준편차(s)
Z(xbar) ≈ N(0,1)
Z = Xbar-Mu / sigma/sqrt(n))
# 표준화 예시
> height <- c(178,190,168,174,177,182,185) # 확률변수(X) = 표본평균들의 모임
> m <- mean(height) # 표본평균(xbar) ≈ 모평균(μ:M)
[1] 179.1429
> s <- sd(height) # 표본표준편차(s = sigma/sqrt(n))
[1] 7.267016
> z <- (height-m)/s # 표준화된 값
[1] -0.1572664 1.4940304 -1.5333470 -0.7076986 -0.2948744 0.3931659 0.8059901
# 표준정규분포 곡선 예시
> x1 <- seq(-3,3,0.01)
> y1 <- dnorm(x1, mean = 0, sd = 1)
> plot(x1, y1, type = 'l', xlab = '표준화 분포',ylab = '확률')
#표준정규분포의 특징
1. 확률변수(평균)가 0보다 작거나 같을 or 크거나 같을 확률은 50%
- P(X <= 0) = 0.5
- P(X >= 0) = 0.5
2. 95%의 신뢰 수준은 [-1.96, 1.96] 구간을 가짐
- P(-1.96 <= X <= 1.96) = 0.95
- P(x <= -1.96) = 0.025
- P(x >= 1.96) = 0.025
'Data > Statistics' 카테고리의 다른 글
[Statistics] p-value 란? (5) | 2019.02.01 |
---|---|
[Statistics/R] 모집단 추론, 추정 (0) | 2019.01.31 |
[Statistics/R] 중심극한정리(표본과 모집단) (0) | 2019.01.30 |
[Statistics] 모집단과 표본 (0) | 2019.01.25 |
[Statistics/R] 확률분포(이항분포, 정규분포) 그리기, 확률분포 함수(d,p,q) (0) | 2019.01.24 |