티스토리 뷰

반응형



모집단 : 통계적인 관찰의 대상이 되는 집단 전체 (출처 : 두산백과)

모수 : 모집단의 특성을 나타내는 정보

       - 모평균(μ:mu): 모집단의 평균 

       - 모분산(σ2) : 모집단의 분산

       - 모표준편차(σ:sigma): 모집단의 표준편차 = s x √n  (n=sample size)


표본 : 모집단에서 선택된 모집단 구성단위의 일부 (출처 : 두산백과)

      - 모집단 전체를 모두 조사할 수 없으므로, 모집단으로부터 random sampling 된 하위 집단

통계량 : 표본의 특성

통계치 : 통계량에 표본으로부터 관찰된 정보를 대입하여 구한 실측값

       - 표본평균(X-bar) : 표본의 평균

       - 표본분산(s2) : 표본의 분산

       - 표본표준편차(s) : 표본의 표준편차 = σ / √n  (n=sample size)

* 표본표준편차를 풀어서 표본평균들의 표준편차 (표준편차 : 분산 정도)


모평균 추론 : 모평균을 알 수 없으니, 표본으로부터 모평균을 추론하는 과정

(통계적) 추론 : 표본으로부터 모집단의 특성을 예측하는 과정


용어 

예시 (example)

모집단

선거

 표본

출구조사 

 추론

출구조사를 통한 선거 결과 예측




#1. 모평균의 추론 (표본평균의 평균을 통한)

 결론 : 표본평균의 평균은 결국 모집단의 평균(모평균)을 대표해서 설명


- 표본의 크기가 커질수록 모평균과 유사 (표본의 개수보다 표본의 크기의 영향이 더 큼)


### 모평균 추론

> rnorm(10,0,1)    # N(0, 1) : 평균이 0, 표준편차가 1인 정규분포를 따르는 모집단으로부터 10개의 값을 갖는 표본 추출

 [1]  0.1712030 -0.2918026 -0.8585526  0.8504696  2.2076871  1.1090687  1.2368596  0.6022483 -1.2590922  0.1956398

> mean(rnorm(10,0,1))     

[1] -0.2893998      # 표본평균


> mean(rnorm(50,0,1))

[1] 0.2335356

> mean(rnorm(100,0,1))    # 표본의 크기가 커질수록 모평균 0에 가까워짐 

[1] 0.1997456       


> x10 <- c()

> x50 <- c()

> x100 <- c()

> x1000 <- c()

> for (i in 1:1000) {    # 1000 개의 표본 생성 

     x10[i] <- mean(rnorm(10,0,1))

     x50[i] <- mean(rnorm(50,0,1))

     x100[i] <- mean(rnorm(100,0,1))

     x1000[i] <- mean(rnorm(1000,0,1))

   }


# 표본 평균(1000개)의 평균

> mean(x10)       # 크기가 10인 표본 1000개의 평균

[1] 0.02053315

> mean(x50)       크기가 50인 표본 1000개의 평균

[1] -0.004900829

> mean(x100)      크기가 100인 표본 1000개의 평균

[1] 0.003893969

> mean(x1000)    크기가 1000인 표본 1000개의 평균

[1] 0.0008995447


# 표본표준편차(=표본평균들의 표준편차(분포)) 확인

> plot(x10, ylim = c(-1,1), ylab = '표본평균', xlab = '표본')    # 1

> plot(x50, ylim = c(-1,1), ylab = '표본평균', xlab = '표본')    # 2

> plot(x100, ylim = c(-1,1), ylab = '표본평균', xlab = '표본')   # 3

> plot(x1000, ylim = c(-1,1), ylab = '표본평균', xlab = '표본')  # 4


# 표본의 크기가 커질수록 모평균 0과 비슷해지는 것을 확인할 수 있음 



#2. 모분산의 추론 

# 표본표준편차(s) 

> sd(x10)          # sd() : 표본표준편차 함수

[1] 0.3110254

> sd(x50)

[1] 0.1436873

> sd(x100)

[1] 0.1001546

> sd(x1000)

[1] 0.03147054


# 모평균(μ)σ / √n ( sigma / sqrt(n) )

> 1/sqrt(10)   

[1] 0.3162278

> 1/sqrt(50)

[1] 0.1414214

> 1/sqrt(100)

[1] 0.1

> 1/sqrt(1000)

[1] 0.03162278


# 표본표준편차(s)와 모평균(μ) 매우 흡사한 것을 확인할 수 있음


표본표준편차(s)와 모평균(μ) 비교  

> x1 <- seq(-1, 1, 0.01)    # 정규분포 N(0,1)

> y1 <- dnorm(x1,0,1)

> y11 <- dnorm(x1,0,1/sqrt(10))

> hist(x10, prob = T, ylim = c(0, 1.5))   # 표본표준편차(s)

> lines(x1, y1, lty = 2, col = 'blue')       # 표본평균(X-bar)

> lines(x1, y11, lty = 2, col = 'red')       # 모평균(μ) 



반응형
댓글
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday