티스토리 뷰

반응형




#. 표본과 모집단의 관계

- 모평균이 μ(mu), 모표준편차가 σ(sigma)인 정규분포(N(평균, 분산))에서, 

     모집단으로부터 샘플링된 표본평균들의 분포는 정규분포에 근사

     Xbar ~ N(μ, (σ/sqrt(n))^2)         * n : 표본의 크기, N(모평균, 표본분산)


1) 표본평균의 평균  "모평균" (sample size가 커질수록)

    : E(Xbar)  M(μ) 

2) 표본표준편차  "모분산(σ)√n

    : s ≈ σ / √n

3) 표준화된 확률변수(표본평균들)의 분포는 정규분포와 근사

   : Z(Xbar)  N(0,1) 



1. 모집단이 정규분포를 따르는 경우 정규분포와의 근사성 확인

# 1-1) 표본평균의 분포 확인(히스토그램)

> s1 <- c()

> s2 <- c()

> for (i in 1:1000) {         # 1000개의 표본 평균 분포 

     s1[i] <- mean(rnorm(100,4,2))       # (표본의 크기, 모집단의 평균, 표준편차)

     s2[i] <- mean(rnorm(100,10,1)) 

   }


> hist(s1, ylim = c(0,250), xlab = '확률변수(X)', ylab = '빈도수')

> hist(s2, ylim = c(0,250), xlab = '확률변수(X)', ylab = '빈도수')


# 1-2) 정규분포와의 근사성 확인  

> x1 <- seq(min(s1), max(s1), 0.01)     

> y1 <- dnorm(x1, mean = 4, sd = 2/sqrt(100))     # x축 범위만큼의 정규분포 곡선을 나타내는 함수 식(dnorm)

> hist(s1, prob = T, ylim = c(0,2.5), xlab = '확률변수(X)', ylab = 'X의 발생확률 ')

> lines(x1, y1, lty = 2, col = 'red')          # 모평균


> x2 <- seq(min(s2), max(s2), 0.01)

> y2 <- dnorm(x2, mean = 10, sd = 1/sqrt(100))

> hist(s2, prob = T, ylim = c(0,5), xlab = '확률변수(X)', ylab = 'X의 발생확률 ')

> lines(x2, y2, lty = 2, col = 'red')




2. 모집단이 이항분포를 따르는 경우 정규분포와의 근사성 확인

 X ~ B(n,p)일 경우 X의 모평균은 np, X의 모분산은 npq로,

반복횟수(n)와 성공확률(p)를 알면 집단의 평균과 분산을 알 수 있음


모평균(μ) = np, 분산(σ2) = npq        * n : 반복횟수, p : 성공확률, q : 실패확률, (p+q=1)


# 2-1) 표본평균의 분포 확인(히스토그램)

> s1 <- c()

s2 <- c()

s3 <- c()

for (i in 1:1000) {

     s1[i] <- mean(rbinom(4, size = 100, prob = 0.5))    # (표본개수, 반복횟수, 성공확률) 

     s2[i] <- mean(rbinom(10, size = 100, prob = 0.5)) 

     s3[i] <- mean(rbinom(100, size = 100, prob = 0.5)) 

   }

hist(s1)

hist(s2)

hist(s3)


# 2-2) 정규분포와의 근사성 확인

모평균(μ) = np = 100 x 0.5    *총 시행회수 x 성공확률

- 모분산(σ2) = npq = 100 x 0.5 x 0.5    *총 시행회수 x 성공확률 x 실패확률

- 모표준편차(σ) = sqrt(npq) 

- 표본표준편차(sd) = σ / √n  


x1 <-seq(min(s1), max(s1), 0.01)

y1 <- dnorm(x1, mean = 100 * 0.5, sd = sqrt(100 * 0.5 * 0.5)/sqrt(4))   # dnorm(확률변수, 평균, 표준편차)

hist(s1, prob = T)  

lines(x1, y1, lty = 2, col = 'red')    # 정규분포


x2 <-seq(min(s2), max(s2), 0.01)

y2 <- dnorm(x2, mean = 100 * 0.5, sd = sqrt(100 * 0.5 * 0.5)/sqrt(10))

hist(s2, prob = T)

lines(x2, y2, lty = 2, col = 'red')


x3 <-seq(min(s3), max(s3), 0.01)

y3 <- dnorm(x3, mean = 100 * 0.5, sd = sqrt(100 * 0.5 * 0.5)/sqrt(100))

hist(s3, prob = T, ylim = c(0, 0.9))

lines(x3, y3, lty = 2, col = 'red')



#. 중심극한정리

Xbar~ N(Mu, (sigma/sqrt(n))^2)


위 결과를 통해 모집단이 어떤 분포를 갖던, 반복 추출된 표본의 평균들은

  1) 표본의 크기(n)가 커질수록 모집단의 평균 근처에 밀집 (분산이 감소)

  2) 표본평균(Xbar)들의 분포는 정규분포에 근사 




반응형
댓글
최근에 올라온 글
최근에 달린 댓글
링크
Total
Today
Yesterday