[Statistics/R] 중심극한정리(표본과 모집단)

티스토리 뷰

Data/Statistics

[Statistics/R] 중심극한정리(표본과 모집단)

Aaron 2019. 1. 30. 22:19

참고글 :

[Statistics] 모집단과 표본

[Statistics] 표본 정규 분포

#. 표본과 모집단의 관계

- 모평균이 μ(mu), 모표준편차가 σ(sigma)인 정규분포(N(평균, 분산))에서,

모집단으로부터 샘플링된 표본평균들의 분포는 정규분포에 근사

Xbar ~ N(μ, (σ/sqrt(n))^2) * n : 표본의 크기, N(모평균, 표본분산)

1) 표본평균의 평균 ≈ "모평균" (sample size가 커질수록)

: E(Xbar) ≈ M(μ)

2) 표본표준편차 ≈ "모분산(σ) / √n"

: s ≈ σ / √n

3) 표준화된 확률변수(표본평균들)의 분포는 정규분포와 근사

: Z(Xbar) ≈ N(0,1)

1. 모집단이 정규분포를 따르는 경우 정규분포와의 근사성 확인

# 1-1) 표본평균의 분포 확인(히스토그램)

> s1 <- c()

> s2 <- c()

> for (i in 1:1000) { # 1000개의 표본 평균 분포

s1[i] <- mean(rnorm(100,4,2)) # (표본의 크기, 모집단의 평균, 표준편차)

s2[i] <- mean(rnorm(100,10,1))

}

> hist(s1, ylim = c(0,250), xlab = '확률변수(X)', ylab = '빈도수')

> hist(s2, ylim = c(0,250), xlab = '확률변수(X)', ylab = '빈도수')

# 1-2) 정규분포와의 근사성 확인

> x1 <- seq(min(s1), max(s1), 0.01)

> y1 <- dnorm(x1, mean = 4, sd = 2/sqrt(100)) # x축 범위만큼의 정규분포 곡선을 나타내는 함수 식(dnorm)

> hist(s1, prob = T, ylim = c(0,2.5), xlab = '확률변수(X)', ylab = 'X의 발생확률 ')

> lines(x1, y1, lty = 2, col = 'red') # 모평균

> x2 <- seq(min(s2), max(s2), 0.01)

> y2 <- dnorm(x2, mean = 10, sd = 1/sqrt(100))

> hist(s2, prob = T, ylim = c(0,5), xlab = '확률변수(X)', ylab = 'X의 발생확률 ')

> lines(x2, y2, lty = 2, col = 'red')

2. 모집단이 이항분포를 따르는 경우 정규분포와의 근사성 확인

X ~ B(n,p)일 경우 X의 모평균은 np, X의 모분산은 npq로,

반복횟수(n)와 성공확률(p)를 알면 집단의 평균과 분산을 알 수 있음

모평균(μ) = np, 모분산(σ²) = npq * n : 반복횟수, p : 성공확률, q : 실패확률, (p+q=1)

# 2-1) 표본평균의 분포 확인(히스토그램)

> s1 <- c()

> s2 <- c()

> s3 <- c()

> for (i in 1:1000) {

s1[i] <- mean(rbinom(4, size = 100, prob = 0.5)) # (표본개수, 반복횟수, 성공확률)

s2[i] <- mean(rbinom(10, size = 100, prob = 0.5))

s3[i] <- mean(rbinom(100, size = 100, prob = 0.5))

}

> hist(s1)

> hist(s2)

> hist(s3)

# 2-2) 정규분포와의 근사성 확인

- 모평균(μ) = np = 100 x 0.5 *총 시행회수 x 성공확률

- 모분산(σ²) = npq = 100 x 0.5 x 0.5 *총 시행회수 x 성공확률 x 실패확률

- 모표준편차(σ) = sqrt(npq)

- 표본표준편차(sd) = σ / √n

x1 <-seq(min(s1), max(s1), 0.01)

y1 <- dnorm(x1, mean = 100 * 0.5, sd = sqrt(100 * 0.5 * 0.5)/sqrt(4)) # dnorm(확률변수, 평균, 표준편차)

hist(s1, prob = T)

lines(x1, y1, lty = 2, col = 'red') # 정규분포

x2 <-seq(min(s2), max(s2), 0.01)

y2 <- dnorm(x2, mean = 100 * 0.5, sd = sqrt(100 * 0.5 * 0.5)/sqrt(10))

hist(s2, prob = T)

lines(x2, y2, lty = 2, col = 'red')

x3 <-seq(min(s3), max(s3), 0.01)

y3 <- dnorm(x3, mean = 100 * 0.5, sd = sqrt(100 * 0.5 * 0.5)/sqrt(100))

hist(s3, prob = T, ylim = c(0, 0.9))

lines(x3, y3, lty = 2, col = 'red')

#. 중심극한정리

Xbar~ N(Mu, (sigma/sqrt(n))^2)

위 결과를 통해 모집단이 어떤 분포를 갖던, 반복 추출된 표본의 평균들은

1) 표본의 크기(n)가 커질수록 모집단의 평균 근처에 밀집 (분산이 감소)

2) 표본평균(Xbar)들의 분포는 정규분포에 근사

저작자표시 (새창열림)

'Data > Statistics' 카테고리의 다른 글

[Statistics/R] 모집단 추론, 추정 (0)	2019.01.31
[Statistics] 표준 정규 분포 (0)	2019.01.31
[Statistics] 모집단과 표본 (0)	2019.01.25
[Statistics/R] 확률분포(이항분포, 정규분포) 그리기, 확률분포 함수(d,p,q) (0)	2019.01.24
[Statistics] 확률 기초 용어 정리(확률분포, 이항분포, 정규분포) (2)	2019.01.24

최근에 올라온 글

최근에 달린 댓글

링크

Total

Today

Yesterday

TAG more

Data Makes Our Future

티스토리 뷰

[Statistics/R] 중심극한정리(표본과 모집단)

'Data > Statistics' 카테고리의 다른 글

티스토리툴바