티스토리 뷰
모집단 추론
추론 : 표본으로부터 모집단의 특성을 예측하는 과정 (가설검정)
예를 들어 대한민국 전체 국민의 소득 평균을 구한다고 해봅시다.
모집단(전체 국민의 소득)을 모두 알기 힘들뿐더러, 안다고 하더라도 전수조사 할 수 없으므로 샘플링을 수행하여 전체 평균을 가설하게 됩니다.
샘플링을 통해 가설된 전체 평균을, 구간 추정(추정)으로 가설 검정(추론)을 수행합니다.
# 모평균의 추정
추정 : 표본으로부터 모집단의 특성에 대하여 가설을 세우고, 오차의 한계를 제시하는 과정 (고정된 특정 모수)
1. 점 추정
- Xbar ≈ mu 라는 사실을 이용하여, "한 번 추출된 표본평균이 모평균과 같을 것"이라는 추정 (추정치가 하나의 값)
- 샘플링 때마다 계속 평균의 기준이 달라지므로 오차가 큼
- ex) 한 번 추출된 표본평균 키가 178이 나왔으니, 평균 키는 178이다 !
2. 구간 추정
- 확률변수(표본평균들)의 분포를 활용하여 신뢰수준(보통 95%)하에 구간을 만들고, "모평균이 표본평균 구간 안에 포함될 확률 = 신뢰확률"라는 추정 (추정치가 구간)
- 표본평균 구간은 표준정규분포의 값이 [-1.96 ~ 1.96]인 구간으로 추정
- ex) 평균 키는 [175 ~ 182] 구간에 포함될 확률이 95% 이다 !
ㄴ 1) 만일 평균 키는 178 이라는 가설이 있다면 이 신뢰구간을 통해 가설을 검정
ㄴ 2) 178 이라는 값이 신뢰구간에 포함되어있으므로 가설 채택 ! 포함되어있지 않다면 가설 기각
# Q1
# 다음 확률변수의 예상 분포와 상대적 위치를 파악
### 1. 2018 대학 수능 시험 성적의 평균은 280, 분산은 2000이다. 내 수능점수가 400일때(n=1) 상위 몇 %인지 그래프에 표현
- 모평균(280)과 분산(2000)으로 확률변수(=특정 관측치(400))의 위치를 파악
* Z(표준화된 확률변수)가 정규분포를 따른다는 증명이 되었으므로, 표준정규분포를 사용하여 확률변수를 그래프에 표시해볼 수 있음
> x1 <- seq(-5,5,0.01) # 표준정규분포 x범위는 보통 [-3,3] 의 범위를 갖음 (더 넓은 분포까지 확인하기 위해 [-5,5]로 설정)
> y1 <- dnorm(x1, mean = 0, sd = 1) # 표준정규분포
> plot(x1,y1,type = 'l')
> Z = (400 - 280) / sqrt(2000) # 표준화된 확률변수 ( n이 1 이므로 sqrt(1) = 1 )
> abline(v=Z, col = 'red')
# pnorm 함수를 사용하여 표준화된 확률변수의 위치(백분율) 출력
> pnorm(Z, mean = 0, sd = 1) * 100 # 상위 1% (표준화된 결과)
[1] 99.63548
> pnorm(400, mean = 280, sd = sqrt(2000)) * 100 # 상위 1% (표준화되지 않은 결과)
[1] 99.63548
# Q2
### 2. 우리나라 2세 영아의 머리 둘레는 작년기준 평균 240mm, 분산이 500으로 확인되었다. 올해도 작년과 동일한 분포를 가질것이라고 가정하고, 한 번 추출한 샘플의 평균이 250일때(n=10) 이것의 상대적 위치를 그래프에 표현
- 표본평균 250을 반복추정하다보면 모평균에 근사
250 ~ N(240, 500/10) # 평균, 표본분산 ( sqrt(500) / sqrt(10) )^2 = 500/10
s = sigma / sqrt(n) # 표본표준편차
s^2 = sigma^2 / n # 표본분산
* Z(표준화된 확률변수)가 정규분포를 따른다는 증명이 되었으므로, 표준정규분포를 사용하여 확률변수를 그래프에 표시해볼 수 있음
> x1 <- seq(-5,5,0.01) # 표준정규분포 x범위
> y1 <- dnorm(x1, mean = 0, sd = 1) # 표준정규분포
> plot(x1,y1,type = 'l')
> Z = (250 - 240) / (sqrt(500)/sqrt(10))
> abline(v=Z, col = 'red')
# 2-1) 올 해 추정되는 2세 영아의 머리 둘레는?
1. 점 추정에 의한 결과 => 250mm
2. 구간 추정에 의한 결과 => [236.1, 263.9] # 표준정규분포의 -1.96 ~ 1.96 사이에 있을 확률이 95%
=> 머리 둘레는 작년(240mm)과 비슷할 것이라는 가설을 검증한 결과 채택
# P(-1.96 <= Z <= 1.96) = 0.95(95%)
# P(-? <= X <= ?) = 0.95(95%)
# xl = xbar - 1.96 * sigma/sqrt(n) # 하한
> xl = 250 - 1.96 * (sqrt(500)/sqrt(10))
[1] 236.1407
# xu = xbar + 1.96 * sigma/sqrt(n) # 상한
> xu = 250 + 1.96 * (sqrt(500)/sqrt(10))
[1] 263.8593
# Q3
### 3. A사 K모델 자동차의 연비는 평균 12.5(km/l), 표준편차 0.5(km/l)로 알려져 있는데, 새로 개발된 엔진을 장착한 40대의 자동차 연비를 측정한 결과 표본평균이 12.64(km/l)로 나왔다. 새로 개발된 엔진의 연비의 95% 신뢰수준(5%(0.05)의 유의수준) 하 신뢰구간을 구해보자.
=> 모집단(Mu)를 알아내는 것이 목적
> alpha = 0.05 # p(X <= alpha) = 0.025 + p(X >= alpha) = 0.025
> a = abs(qnorm(alpha/2, mean = 0, sd = 1)) # 1.96
> Xbar = 12.64
> sigma = 0.5
> n = 40
> xl = Xbar - a * (sigma / sqrt(n)) # 하한구간 : xl = 12.64 - 1.96 * 0.5/sqrt(40)
> xu = Xbar + a * (sigma / sqrt(n)) # 상한구간 : xu = 12.64 + 1.96 * 0.5/sqrt(40)
> c(xl, xu)
[1] 12.48505 12.79495 # 95% 신뢰수준 하에 새로 개발도니 엔진의 연비는 평균 12.4p(km/l) ~ 12.79(km/l) 사이에 있을 것이라는 결론을 내릴 수 있음
# 3-2) 99% 신뢰수준 하 신뢰구간을 구한다면
> alpha = 0.01
> a = abs(qnorm(alpha/2, mean = 0, sd = 1)) # 2.58
> Xbar = 12.64
> sigma = 0.5
> n = 40
> xl = Xbar - a * (sigma / sqrt(n))
> xu = Xbar + a * (sigma / sqrt(n))
> c(xl, xu) # 이 구간을 벗어날 확률은 1%
[1] 12.43636 12.84364
# Q4
# 4. 랜덤하게 샘플링한 초콜릿 16개 무게의 표본평균이 199.5(g), 표본분산이 25.0이었을 때, 모평균에 대한 95% 신뢰구간을 구하시오.
> alpha = 0.05
> a = abs(qnorm(alpha/2, mean = 0, sd = 1)) # 1.96
> Xbar = 199.5
> sigma = 5
# 모집단의 분산을 모를 경우, 확률변수 Xbar가 정규분포를 따른다는 가정이 성립되지 않음 => 일단 표본분산을 모집분산으로 사용
> n = 16
> xl = Xbar - a * (sigma / sqrt(n)) # 하한구간 : xl = 199.5 - 1.96 * (sqrt(25)/sqrt(16))
> xu = Xbar + a * (sigma / sqrt(n)) # 상한구간 : xu = 199.5 + 1.96 * (sqrt(25)/sqrt(16))
> c(xl, xu)
[1] 197.05 201.95 # 95%의 신뢰수준 하에 모평균은 197.05 ~ 201.95 사이에 있을 것이라는 결론을 내릴 수 있음
# Q.
# 만 7세 어린이 중 10명을 표본으로 추출하여 머리 둘레를 측정, 이 자료로부터 모평균에 대한 95% 신뢰구간을 구하라.
x <- c(520,498,481,512,515,542,520,518,527,526)
n <- length(x)
xbar <- mean(x) # 표본평균
s <- sd(x) # 표본표준편차 => sqrt(sum((x - xbar)^2) / (n-1))
alpha = 0.05
weight <-
# 모집단을 모르므로, t-분포를 이용
weight <- abs(qt(df = n-1, alpha/2)) # 2.262157
xl = xbar - weight * (s/sqrt(n)) # 503.98
xu = xbar + weight * (s/sqrt(n)) # 527.82
'Data > Statistics' 카테고리의 다른 글
[Statistics] 가설 검정 및 추정 (0) | 2019.02.07 |
---|---|
[Statistics] p-value 란? (5) | 2019.02.01 |
[Statistics] 표준 정규 분포 (0) | 2019.01.31 |
[Statistics/R] 중심극한정리(표본과 모집단) (0) | 2019.01.30 |
[Statistics] 모집단과 표본 (0) | 2019.01.25 |