티스토리 뷰
#. 표본과 모집단의 관계
- 모평균이 μ(mu), 모표준편차가 σ(sigma)인 정규분포(N(평균, 분산))에서,
모집단으로부터 샘플링된 표본평균들의 분포는 정규분포에 근사
Xbar ~ N(μ, (σ/sqrt(n))^2) * n : 표본의 크기, N(모평균, 표본분산)
1) 표본평균의 평균 ≈ "모평균" (sample size가 커질수록)
: E(Xbar) ≈ M(μ)
2) 표본표준편차 ≈ "모분산(σ) / √n"
: s ≈ σ / √n
3) 표준화된 확률변수(표본평균들)의 분포는 정규분포와 근사
: Z(Xbar) ≈ N(0,1)
1. 모집단이 정규분포를 따르는 경우 정규분포와의 근사성 확인
# 1-1) 표본평균의 분포 확인(히스토그램)
> s1 <- c()
> s2 <- c()
> for (i in 1:1000) { # 1000개의 표본 평균 분포
s1[i] <- mean(rnorm(100,4,2)) # (표본의 크기, 모집단의 평균, 표준편차)
s2[i] <- mean(rnorm(100,10,1))
}
> hist(s1, ylim = c(0,250), xlab = '확률변수(X)', ylab = '빈도수')
> hist(s2, ylim = c(0,250), xlab = '확률변수(X)', ylab = '빈도수')
# 1-2) 정규분포와의 근사성 확인
> x1 <- seq(min(s1), max(s1), 0.01)
> y1 <- dnorm(x1, mean = 4, sd = 2/sqrt(100)) # x축 범위만큼의 정규분포 곡선을 나타내는 함수 식(dnorm)
> hist(s1, prob = T, ylim = c(0,2.5), xlab = '확률변수(X)', ylab = 'X의 발생확률 ')
> lines(x1, y1, lty = 2, col = 'red') # 모평균
> x2 <- seq(min(s2), max(s2), 0.01)
> y2 <- dnorm(x2, mean = 10, sd = 1/sqrt(100))
> hist(s2, prob = T, ylim = c(0,5), xlab = '확률변수(X)', ylab = 'X의 발생확률 ')
> lines(x2, y2, lty = 2, col = 'red')
2. 모집단이 이항분포를 따르는 경우 정규분포와의 근사성 확인
X ~ B(n,p)일 경우 X의 모평균은 np, X의 모분산은 npq로,
반복횟수(n)와 성공확률(p)를 알면 집단의 평균과 분산을 알 수 있음
모평균(μ) = np, 모분산(σ2) = npq * n : 반복횟수, p : 성공확률, q : 실패확률, (p+q=1)
# 2-1) 표본평균의 분포 확인(히스토그램)
> s1 <- c()
> s2 <- c()
> s3 <- c()
> for (i in 1:1000) {
s1[i] <- mean(rbinom(4, size = 100, prob = 0.5)) # (표본개수, 반복횟수, 성공확률)
s2[i] <- mean(rbinom(10, size = 100, prob = 0.5))
s3[i] <- mean(rbinom(100, size = 100, prob = 0.5))
}
> hist(s1)
> hist(s2)
> hist(s3)
# 2-2) 정규분포와의 근사성 확인
- 모평균(μ) = np = 100 x 0.5 *총 시행회수 x 성공확률
- 모분산(σ2) = npq = 100 x 0.5 x 0.5 *총 시행회수 x 성공확률 x 실패확률
- 모표준편차(σ) = sqrt(npq)
- 표본표준편차(sd) = σ / √n
x1 <-seq(min(s1), max(s1), 0.01)
y1 <- dnorm(x1, mean = 100 * 0.5, sd = sqrt(100 * 0.5 * 0.5)/sqrt(4)) # dnorm(확률변수, 평균, 표준편차)
hist(s1, prob = T)
lines(x1, y1, lty = 2, col = 'red') # 정규분포
x2 <-seq(min(s2), max(s2), 0.01)
y2 <- dnorm(x2, mean = 100 * 0.5, sd = sqrt(100 * 0.5 * 0.5)/sqrt(10))
hist(s2, prob = T)
lines(x2, y2, lty = 2, col = 'red')
x3 <-seq(min(s3), max(s3), 0.01)
y3 <- dnorm(x3, mean = 100 * 0.5, sd = sqrt(100 * 0.5 * 0.5)/sqrt(100))
hist(s3, prob = T, ylim = c(0, 0.9))
lines(x3, y3, lty = 2, col = 'red')
#. 중심극한정리
Xbar~ N(Mu, (sigma/sqrt(n))^2)
위 결과를 통해 모집단이 어떤 분포를 갖던, 반복 추출된 표본의 평균들은
1) 표본의 크기(n)가 커질수록 모집단의 평균 근처에 밀집 (분산이 감소)
2) 표본평균(Xbar)들의 분포는 정규분포에 근사
'Data > Statistics' 카테고리의 다른 글
[Statistics/R] 모집단 추론, 추정 (0) | 2019.01.31 |
---|---|
[Statistics] 표준 정규 분포 (0) | 2019.01.31 |
[Statistics] 모집단과 표본 (0) | 2019.01.25 |
[Statistics/R] 확률분포(이항분포, 정규분포) 그리기, 확률분포 함수(d,p,q) (0) | 2019.01.24 |
[Statistics] 확률 기초 용어 정리(확률분포, 이항분포, 정규분포) (2) | 2019.01.24 |