티스토리 뷰

반응형



모집단 추론


추론 : 표본으로부터 모집단의 특성을 예측하는 과정 (가설검정)


 예를 들어 대한민국 전체 국민의 소득 평균을 구한다고 해봅시다.

모집단(전체 국민의 소득)을 모두 알기 힘들뿐더러, 안다고 하더라도 전수조사 할 수 없으므로 샘플링을 수행하여 전체 평균을 가설하게 됩니다. 

 샘플링을 통해 가설된 전체 평균을, 구간 추정(추정)으로 가설 검정(추론)을 수행합니다. 



# 모평균의 추정

추정 : 표본으로부터 모집단의 특성에 대하여 가설을 세우고, 오차의 한계를 제시하는 과정 (고정된 특정 모수)


1. 점 추정

 - Xbar ≈ mu 라는 사실을 이용하여, "한 번 추출된 표본평균이 모평균과 같을 것"이라는 추정 (추정치가 하나의 값)

 - 샘플링 때마다 계속 평균의 기준이 달라지므로 오차가 큼

 - ex) 한 번 추출된 표본평균 키가 178이 나왔으니, 평균 키는 178이다 !


2. 구간 추정

 - 확률변수(표본평균들)의 분포를 활용하여 신뢰수준(보통 95%)하에 구간을 만들고, "모평균이 표본평균 구간 안에 포함될 확률 = 신뢰확률"라는 추정 (추정치가 구간)

 - 표본평균 구간은 표준정규분포의 값이 [-1.96 ~ 1.96]인 구간으로 추정

 - ex) 평균 키는 [175 ~ 182] 구간에 포함될 확률이 95% 이다 ! 

     ㄴ 1) 만일 평균 키는 178 이라는 가설이 있다면 이 신뢰구간을 통해 가설을 검정

     ㄴ 2) 178 이라는 값이 신뢰구간에 포함되어있으므로 가설 채택 ! 포함되어있지 않다면 가설 기각





# Q1

# 다음 확률변수의 예상 분포와 상대적 위치를 파악

### 1. 2018 대학 수능 시험 성적의 평균은 280, 분산은 2000이다. 내 수능점수가 400일때(n=1) 상위 몇 %인지 그래프에 표현

- 모평균(280)과 분산(2000)으로 확률변수(=특정 관측치(400))의 위치를 파악


* Z(표준화된 확률변수)가 정규분포를 따른다는 증명이 되었으므로, 표준정규분포를 사용하여 확률변수를 그래프에 표시해볼 수 있음


> x1 <- seq(-5,5,0.01)         # 표준정규분포 x범위는 보통 [-3,3] 의 범위를 갖음 (더 넓은 분포까지 확인하기 위해 [-5,5]로 설정)

> y1 <- dnorm(x1, mean = 0, sd = 1)   # 표준정규분포

> plot(x1,y1,type = 'l')


> Z = (400 - 280) / sqrt(2000)   # 표준화된 확률변수 ( n이 1 이므로 sqrt(1) = 1 )

> abline(v=Z, col = 'red') 


# pnorm 함수를 사용하여 표준화된 확률변수의 위치(백분율) 출력

> pnorm(Z, mean = 0, sd = 1) * 100   # 상위 1% (표준화된 결과)

[1] 99.63548

> pnorm(400, mean = 280, sd = sqrt(2000)) * 100    # 상위 1% (표준화되지 않은 결과)

[1] 99.63548



# Q2

### 2. 우리나라 2세 영아의 머리 둘레는 작년기준 평균 240mm, 분산이 500으로 확인되었다. 올해도 작년과 동일한 분포를 가질것이라고 가정하고, 한 번 추출한 샘플의 평균이 250일때(n=10) 이것의 상대적 위치를 그래프에 표현

- 표본평균 250을 반복추정하다보면 모평균에 근사  

250 ~ N(240, 500/10)   # 평균, 표본분산 ( sqrt(500) / sqrt(10) )^2 = 500/10

s = sigma / sqrt(n)       # 표본표준편차

s^2 = sigma^2 / n       # 표본분산


* Z(표준화된 확률변수)가 정규분포를 따른다는 증명이 되었으므로, 표준정규분포를 사용하여 확률변수를 그래프에 표시해볼 수 있음


> x1 <- seq(-5,5,0.01)         # 표준정규분포 x범위

> y1 <- dnorm(x1, mean = 0, sd = 1)   # 표준정규분포

> plot(x1,y1,type = 'l')


> Z = (250 - 240) / (sqrt(500)/sqrt(10))

> abline(v=Z, col = 'red')

# 2-1) 올 해 추정되는 2세 영아의 머리 둘레는?

1. 점 추정에 의한 결과 => 250mm


2. 구간 추정에 의한 결과 => [236.1, 263.9]   # 표준정규분포의 -1.96 ~ 1.96 사이에 있을 확률이 95%

=> 머리 둘레는 작년(240mm)과 비슷할 것이라는 가설을 검증한 결과 채택

# P(-1.96 <= Z <= 1.96) = 0.95(95%)

# P(-? <= X <= ?) = 0.95(95%)

# xl = xbar - 1.96 * sigma/sqrt(n) # 하한

> xl = 250 - 1.96 * (sqrt(500)/sqrt(10))   

[1] 236.1407    

# xu = xbar + 1.96 * sigma/sqrt(n) # 상한

> xu = 250 + 1.96 * (sqrt(500)/sqrt(10)) 

[1] 263.8593



# Q3

### 3. A사 K모델 자동차의 연비는 평균 12.5(km/l), 표준편차 0.5(km/l)로 알려져 있는데, 새로 개발된 엔진을 장착한 40대의 자동차 연비를 측정한 결과 표본평균이 12.64(km/l)로 나왔다. 새로 개발된 엔진의 연비의 95% 신뢰수준(5%(0.05)의 유의수준) 하 신뢰구간을 구해보자.

=> 모집단(Mu)를 알아내는 것이 목적

> alpha = 0.05  # p(X <= alpha) = 0.025 + p(X >= alpha) = 0.025

> a = abs(qnorm(alpha/2, mean = 0, sd = 1))  # 1.96

> Xbar = 12.64

> sigma = 0.5

> n = 40


> xl = Xbar - a * (sigma / sqrt(n))   하한구간 : xl = 12.64 - 1.96 * 0.5/sqrt(40)  

> xu = Xbar + a * (sigma / sqrt(n))    # 상한구간 : xu = 12.64 + 1.96 * 0.5/sqrt(40)

> c(xl, xu)

[1] 12.48505 12.79495    # 95% 신뢰수준 하에 새로 개발도니 엔진의 연비는 평균 12.4p(km/l) ~ 12.79(km/l) 사이에 있을 것이라는 결론을 내릴 수 있음


# 3-2) 99% 신뢰수준 하 신뢰구간을 구한다면

> alpha = 0.01

> a = abs(qnorm(alpha/2, mean = 0, sd = 1))  # 2.58

> Xbar = 12.64

> sigma = 0.5

> n = 40


> xl = Xbar - a * (sigma / sqrt(n))   

> xu = Xbar + a * (sigma / sqrt(n))   

> c(xl, xu)   # 이 구간을 벗어날 확률은 1%

[1] 12.43636   12.84364



# Q4

# 4. 랜덤하게 샘플링한 초콜릿 16개 무게의 표본평균이 199.5(g),  표본분산이 25.0이었을 때, 모평균에 대한 95% 신뢰구간을 구하시오.

> alpha = 0.05

> a = abs(qnorm(alpha/2, mean = 0, sd = 1))  # 1.96

> Xbar = 199.5

> sigma = 5  

   # 모집단의 분산을 모를 경우, 확률변수 Xbar가 정규분포를 따른다는 가정이 성립되지 않음 => 일단 표본분산을 모집분산으로 사용 

> n = 16


> xl = Xbar - a * (sigma / sqrt(n))      # 하한구간 : xl = 199.5 - 1.96 * (sqrt(25)/sqrt(16)) 

> xu = Xbar + a * (sigma / sqrt(n))    # 상한구간 : xu = 199.5 + 1.96 * (sqrt(25)/sqrt(16))

> c(xl, xu)

[1] 197.05   201.95        # 95%의 신뢰수준 하에 모평균은 197.05 ~ 201.95 사이에 있을 것이라는 결론을 내릴 수 있음



# Q. 

# 만 7세 어린이 중 10명을 표본으로 추출하여 머리 둘레를 측정, 이 자료로부터 모평균에 대한 95% 신뢰구간을 구하라.

x <- c(520,498,481,512,515,542,520,518,527,526)


n <- length(x)

xbar <- mean(x)  # 표본평균

s <- sd(x)   # 표본표준편차 => sqrt(sum((x - xbar)^2) / (n-1))

alpha = 0.05


weight <- 


# 모집단을 모르므로, t-분포를 이용

weight <- abs(qt(df = n-1, alpha/2))     # 2.262157



xl = xbar - weight * (s/sqrt(n))   # 503.98

xu = xbar + weight * (s/sqrt(n))   # 527.82



반응형
댓글
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday