티스토리 뷰
모집단 : 통계적인 관찰의 대상이 되는 집단 전체 (출처 : 두산백과)
모수 : 모집단의 특성을 나타내는 정보
- 모평균(μ:mu): 모집단의 평균
- 모분산(σ2) : 모집단의 분산
- 모표준편차(σ:sigma): 모집단의 표준편차 = s x √n (n=sample size)
표본 : 모집단에서 선택된 모집단 구성단위의 일부 (출처 : 두산백과)
- 모집단 전체를 모두 조사할 수 없으므로, 모집단으로부터 random sampling 된 하위 집단
통계량 : 표본의 특성
통계치 : 통계량에 표본으로부터 관찰된 정보를 대입하여 구한 실측값
- 표본평균(X-bar) : 표본의 평균
- 표본분산(s2) : 표본의 분산
- 표본표준편차(s) : 표본의 표준편차 = σ / √n (n=sample size)
* 표본표준편차를 풀어서 표본평균들의 표준편차 (표준편차 : 분산 정도)
모평균 추론 : 모평균을 알 수 없으니, 표본으로부터 모평균을 추론하는 과정
(통계적) 추론 : 표본으로부터 모집단의 특성을 예측하는 과정
용어 |
예시 (example) |
모집단 |
선거 |
표본 |
출구조사 |
추론 | 출구조사를 통한 선거 결과 예측 |
#1. 모평균의 추론 (표본평균의 평균을 통한)
결론 : 표본평균의 평균은 결국 모집단의 평균(모평균)을 대표해서 설명
- 표본의 크기가 커질수록 모평균과 유사 (표본의 개수보다 표본의 크기의 영향이 더 큼)
### 모평균 추론
> rnorm(10,0,1) # N(0, 1) : 평균이 0, 표준편차가 1인 정규분포를 따르는 모집단으로부터 10개의 값을 갖는 표본 추출
[1] 0.1712030 -0.2918026 -0.8585526 0.8504696 2.2076871 1.1090687 1.2368596 0.6022483 -1.2590922 0.1956398
> mean(rnorm(10,0,1))
[1] -0.2893998 # 표본평균
> mean(rnorm(50,0,1))
[1] 0.2335356
> mean(rnorm(100,0,1)) # 표본의 크기가 커질수록 모평균 0에 가까워짐
[1] 0.1997456
> x10 <- c()
> x50 <- c()
> x100 <- c()
> x1000 <- c()
> for (i in 1:1000) { # 1000 개의 표본 생성
x10[i] <- mean(rnorm(10,0,1))
x50[i] <- mean(rnorm(50,0,1))
x100[i] <- mean(rnorm(100,0,1))
x1000[i] <- mean(rnorm(1000,0,1))
}
# 표본 평균(1000개)의 평균
> mean(x10) # 크기가 10인 표본 1000개의 평균
[1] 0.02053315
> mean(x50) # 크기가 50인 표본 1000개의 평균
[1] -0.004900829
> mean(x100) # 크기가 100인 표본 1000개의 평균
[1] 0.003893969
> mean(x1000) # 크기가 1000인 표본 1000개의 평균
[1] 0.0008995447
# 표본표준편차(=표본평균들의 표준편차(분포)) 확인
> plot(x10, ylim = c(-1,1), ylab = '표본평균', xlab = '표본') # 1
> plot(x50, ylim = c(-1,1), ylab = '표본평균', xlab = '표본') # 2
> plot(x100, ylim = c(-1,1), ylab = '표본평균', xlab = '표본') # 3
> plot(x1000, ylim = c(-1,1), ylab = '표본평균', xlab = '표본') # 4
# 표본의 크기가 커질수록 모평균 0과 비슷해지는 것을 확인할 수 있음
#2. 모분산의 추론
# 표본표준편차(s)
> sd(x10) # sd() : 표본표준편차 함수
[1] 0.3110254
> sd(x50)
[1] 0.1436873
> sd(x100)
[1] 0.1001546
> sd(x1000)
[1] 0.03147054
# 모평균(μ) = σ / √n ( sigma / sqrt(n) )
> 1/sqrt(10)
[1] 0.3162278
> 1/sqrt(50)
[1] 0.1414214
> 1/sqrt(100)
[1] 0.1
> 1/sqrt(1000)
[1] 0.03162278
# 표본표준편차(s)와 모평균(μ) 매우 흡사한 것을 확인할 수 있음
# 표본표준편차(s)와 모평균(μ) 비교
> x1 <- seq(-1, 1, 0.01) # 정규분포 N(0,1)
> y1 <- dnorm(x1,0,1)
> y11 <- dnorm(x1,0,1/sqrt(10))
> hist(x10, prob = T, ylim = c(0, 1.5)) # 표본표준편차(s)
> lines(x1, y1, lty = 2, col = 'blue') # 표본평균(X-bar)
> lines(x1, y11, lty = 2, col = 'red') # 모평균(μ)
'Data > Statistics' 카테고리의 다른 글
[Statistics/R] 모집단 추론, 추정 (0) | 2019.01.31 |
---|---|
[Statistics] 표준 정규 분포 (0) | 2019.01.31 |
[Statistics/R] 중심극한정리(표본과 모집단) (0) | 2019.01.30 |
[Statistics/R] 확률분포(이항분포, 정규분포) 그리기, 확률분포 함수(d,p,q) (0) | 2019.01.24 |
[Statistics] 확률 기초 용어 정리(확률분포, 이항분포, 정규분포) (2) | 2019.01.24 |