티스토리 뷰

Data/Statistics

[Statistics/R] 가설검정

Aaron 2019. 2. 14. 14:19
반응형



#. 가설검정

  - 표본평균으로부터 모수(모집단의 특성을 나타내는 통계량)의 상태에 대한 여러 가설들 중 어떤 가설을 사실로 받아들일지 결정하는 과정

  - 표본으로부터 얻은 정보로 모집단 모수의 참 or 거짓 검증



#. 가설검정의 단계

1) 가설 수립

2) 통계량 계산 (표본으로부터 검정)

3) 가설 선택의 기준 수립

4) 판정



1) 가설 수립

#. 가설의 종류

   1) 영가설(귀무가설, H0) :  기존에 알려진 것과 차이가 없음 (α = 0) 

       - 기각되길 희망하는 가설

   2) 대안가설(대립가설, H1) : 기존에 알려진 것과 차이가 있음 (α != 0) 

       - 채택되길 희망하는 가설

       - 가설에 따라 수식이 달라짐 (!=, >, <)


2) 통계량 계산

#. 검정 통계량

   - 영가설의 채택 혹은 기각 여부를 확인하기 위해 표본으로부터 관찰된 특성을 사용하는 통계량

   - 영가설(H0)이 참이라는 가정하에 계산 (μ에는 영가설의 평균이 올 수 있음)


   1. 모집단의 분산을 알 경우, 정규분포를 따름

      - 고정된 임계값 -1.96 ~ 1.96


   2. 모집단의 분산을 모를 경우, t분포를 따르는 T-통계량 사용 (모분산이 표본분산으로 대체)

      - 임계값이 고정되어있지 않음(sample size에 따라 임계값이 변화)


3) 가설 선택의 기준 수립

#. 오류

   - 제 1종 오류 : H0이 참인데 H1을 선택

   - 제 2종 오류 : H0이 거짓인데 H0을 선택


#. 유의수준(α)

   - 오류가 발생할 확률

   - 영가설이 참이라는 가정하에 생성되는 표본분포에서의 확률

   - 보통 0.05를 사용


#. 기각역 설정

  - θ : 모수

  - x : 영가설(의 수치)

  - t : 검정통계량(x의 상대적 위치)

  - C : 임계값 (t를 검정하기 위한 기준)


   1) 양측 검정 (유의수준 : α/2)

       - H0 : θ = x

       - H1 : θ != x

       - 기각역 : P(t < Cl) ~ P(t > Cu)  *색칠구간

       - 채택역 : Cl < t < Cu

       - 유의확률 : P(ㅣtㅣ< α/2  * P(t < 0.025) 일 때, H0 기각

                                                      * 검정의 편의를 위해 t에 절대값을 적용

(출처 : Python for Data Analysis)

    2) 단측 검정(왼쪽) (유의수준 : α)

       - H0 : θ >= x

       - H1 : θ < x

       - 기각역 : P(t < Cl)   *색칠구간

       - 채택역 : P(t > Cl)

       - 유의확률 : P( t < α )   * P(t < 0.05) 일 때, H0 기각, H1 채택

(출처 : Python for Data Analysis)

    3) 단측 검정(오른쪽) (유의수준 : α)

       - H0 : θ <= x

       - H1 : θ > x

       - 기각역 : P(Cu < t)   *색칠구간

       - 채택역 : P(Cu > t)

       - 유의확률 : P( t < α )   * P(t < 0.05) 일 때, H0 기각, H1 채택

(출처 : Python for Data Analysis)


4) 판정

# 유의확률(p-value)을 통한 가설 검정  * 주 사용 판정법

  - 유의확률이 작을 경우, 영가설의 타당성이 낮으므로 영가설을 기각하고 대안가설을 채택

  - 유의확률이 클 경우. 영가설의 타당성이 높으므로 영가설 채택 (대안가설은 자동으로 기각)

    * 양측 검정의 경우 0.025(α/2)와 비교하거나 유의확률의 2배와 비교하여 검정, 

      단측 검정의 경우 0.05(α)와 비교


# 기각역 확인을 통한 가설 검정

  - 검정통계량이 기각역에 포함된다면, 영가설을 기각하고 대안가설을 채택

  - 검정통계량이 기각역에 포함되지 않는다면, 영가설을 채택 (대안가설은 자동으로 기각)


5) 결론

# 기술 단계

  1) 가설검정으로 밝히고자 하는 내용

  2) 표본의 특성, 검정통계량, 유의확률 제시

  3) 판정 내용

  4) 가설검정을 통해 알 수 있는 사실





Q1.

# 만 7세 남자 어린이 키의 평균이 1220mm라고 알려진 모수의 상태를 현재도 받아들일 수 있는가?

> x = c(1196,1340,1232,1184,1295,1247,1201,1182,1192,1287,1159,1160,1243,1264,1276)


> mu = 1220

> xbar = mean(x)

[1] 1230.533

> s = sd(x)

[1] 54.18601

> n = length(x)

[1] 15


1) 가설 수립   # 양측검정

H0 : mu = 1220

H1 : mu != 1220


2) 통계량 계산 (표본으로부터 검정)    # 모분산을 모르므로 t-통계량을 사용

> T = (xbar-mu) / (s/sqrt(n))

[1] 0.7528774


3) 가설 선택의 기준 수립

> alpha = 0.05


4) 판정

4-1) 유의확률을 통한 가설 검정

> p_value <- 1- pt(T, df=n-1)

> p_value

[1] 0.2319981     # 영가설의 p-value는 0.025보다 크므로 채택


4-2) 기각역 확인을 통한 가설 검정   # 양측 검정일 경우 alpha/2, 단층 검정일 경우 1-alpha

> lu = qt(df=n-1,alpha/2)

[1] -2.144787

> ld = qt(df=n-1, 1 - alpha/2)

[1] 2.144787

> c(lu,ld)   # 채택역
[1] -2.144787  2.144787   # 영가설의 검정통계량 T(0.7528774)는 채택역에 포함

 

4-3) t-test 검정을 통한 가설 검정

> t.test(x, mu=1220)    # 생략 시 양측 검정(two.sided), 단측 검정(greater)

One Sample t-test


data:  x

t = 0.75288, df = 14, p-value = 0.464   

                   # 통계 패키지는 보통 α=0.05 기준으로 만들어져서 p-value값이 직접 구한 p-value값의 2배로 출력

                   # 즉, 양측검정을 수행했다고 무조건 0.025와 비교하면 안되고, 통계 패키지 사용 시 0.05와 비교하여 검정

alternative hypothesis: true mean is not equal to 1220

95 percent confidence interval:

 1200.526 1260.541

sample estimates:

mean of x 

 1230.533 


5) 결론

1) 가설검정으로 밝히고자 하는 내용

   - "만 7세 남자 어린이 키의 평균이 1220(mm)이다."라고 알려진 기존 사실이 현재에도 유지되고 있는지 검정


2) 표본의 특성, 검정통계량, 유의확률 제시

   - 15명의 표본 특성 : 평균은 1230.533(mm), 표준편차 54.18601(mm)

   - 검정통계량 : 0.7528774

   - 유의확률 : 0.2319981

   - 채택역 구간 : -2.144787 < T < 2.144787


3) 판정 내용

   - 유의수준 0.05에서(95% 신뢰수준 하에) 영가설을 기각할 수 없음

   - 검정통계량(T)이 채택역에 포함되므로 영가설을 기각할 수 없음


4) 가설검정을 통해 알 수 있는 사실

   -  "만 7세 남자 어린이 키의 평균이 1220(mm)가 아니다."라는 대안가설에 대하여 통계적으로 유의한 결론을 얻을 수 없었으며, "만 7세 남자 어린이 키의 평균이 1220(mm)이다."라는 기존의 사실은 여전히 유지되고 있는 것으로 판단

 



Q. 모집단의 분산을 알 경우

# A사 K모델 자동차의 연비는 평균 12.5(km/l), 표준편차 0.5(km/l)로 알려져 있는데, 새로 개발된 엔진을 장착한 40대의 자동차 연비를 측정한 결과 표본평균이 12.64(km/l)로 나왔다. 연비가 개선되었는지 유의수준 0.05에서 검정하시오.


> mu <- 12.5      # 모평균

> sigma <- 0.5    # 모표준편차 

> n <- 40           # sample size

> xbar <- 12.64   # 표본평균


### 1. 가설 수립   # 단층 검정(우측)

# H0 : mu = 12.5

# H1 : mu > 12.5   


### 2. 통계량 계산

> Z <- (xbar - mu) / (sigma / sqrt(n))     # 모분산 알고 있으므로 정규분포를 따름

[1] 1.770875


### 3. 가설 선택의 기준 수립

> alpha = 0.05      # 5%의 신뢰수준


### 4. 유의확률을 통한 가설 검정 및 결론

> p_value <- 1 - pnorm(Z)      

[1] 0.0382907      # 영가설의 p-value는 0.05보다 작으므로 기각 

> p_value < 0.05  

[1] TRUE

1) 가설검정으로 밝히고자 하는 내용

   - "새로 개발된 엔진의 연비가 기존에 알려진 엔진의 연비와 별 차이가 없다." 라는 영가설을 검정


2) 검정통계량, 유의확률 제시

   - 검정통계량(Z) : 1.770875

   - 유의확률 : 0.0382907


3) 판정 내용

   - p_value 값이 0.05보다 작으므로, 유의수준 0.05에서(95% 신뢰수준 하에) 영가설을 기각할 수 있음


4) 가설검정을 통해 알 수 있는 사실

   -  "새로 개발된 엔진의 연비가 기존에 알려진 엔진의 연비와 별 차이가 없다."라는 영가설에 대하여 통계적으로 유의한 결론을 얻을 수 없었으므로, "새로 개발된 엔진의 연비가 기존에 알려진 엔진의 연비보다 개선되었다."라는 대안가설이 사실인 것으로 판단


### 5. 기각역을 통한 가설 검정 및 결론

> qnorm(1-alpha)     # 양측 검정일 경우 alpha/2, 단층 검정일 경우 1-alpha

[1] 1.644854             #  기각역 : P(Cu < t), 영가설의 검정통계량 Z(1.770875)는 기각역에 포함

1) 가설검정으로 밝히고자 하는 내용

   - "새로 개발된 엔진의 연비가 기존에 알려진 엔진의 연비와 별 차이가 없다." 라는 영가설을 검정


2) 검정통계량, 유의확률 제시

   - 검정통계량(Z) : 1.770875

   - 기각역 구간 : 1.644854 < Z


3) 판정 내용

   - 채택역의 범위 [ ∞ ~ 1.644854 ]

   - 기각역의 범위 [ 1.644854 ~ ∞ ]

   - 검정통계량(Z)는 채택역 구간에 포함되지 않으므로 영가설을 기각할 수 있음 (95% 신뢰수준)


4) 가설검정을 통해 알 수 있는 사실

   -  "새로 개발된 엔진의 연비가 기존에 알려진 엔진의 연비와 별 차이가 없다."라는 영가설에 대하여 통계적으로 유의한 결론을 얻을 수 없었으므로, "새로 개발된 엔진의 연비가 기존에 알려진 엔진의 연비보다 개선되었다."라는 대안가설이 사실인 것으로 판단




Q. 모집단의 분산을 모를 경우

여아 신생아의 몸무게는2800(g)으로 알려져 왔으나산모에 대한 관리가 더 세심해진 요즘 신생아의 몸무게가 증가할 것으로 판단되어이를 확인하고자 부모의 동의를 얻은 신생아 중 표본으로18명을 대상으로 체중을 측정했다.

연구자가 생각한여아 신생아의 체중이2800(g)보다 크다는 주장을 받아들일 수 있는지 검정해보자.


> baby <- read.csv('여아신생아.txt', header = FALSE, sep = ' ')

> x <- unlist(baby)

 V11  V12  V13  V21  V22  V23  V31  V32  V33  V41  V42  V43  V51  V52  V53  V61  V62  V63 

3837 3746 2184 3334 3523 2383 2208 3430 3500 1745 3480 3866 2576 3116 3542 3208 3428 3278 


> mu <- 2800           # 모평균

> xbar <- mean(x)    표본평균

[1] 3132.444

> s <- sd(x)            표준편차

[1] 631.5825

> n <- 18              # sample size

 

### 1. 가설 수립     # 단층 검정(우측)

# H0 : θ = 2800

# H1 : θ > 2800      


### 2. 통계량 계산

> t <- (xbar - mu) / (s / sqrt(n))

[1] 2.233188

 

### 3. 가설 선택의 기준 수립

> alpha = 0.05


### 4. 유의확률을 통한 가설 검정 및 결론

> p_value <- 1-pt(t, df=n-1) 

[1] 0.01963422         # 영가설의 p-value는 0.05보다 작으므로 기각 

> p_value < 0.05    

[1] TRUE

1) 가설검정으로 밝히고자 하는 내용

   - "최근 여아 신생아의 체중이 기존에 알려진 체중인 2800(g)에서 변화가 없다." 라는 영가설을 검정


2) 검정통계량, 유의확률 제시

   - 검정통계량(t) : 2.233188

   - 유의확률 : 0.01963422


3) 판정 내용

   - 유의수준 0.05에서(95% 신뢰수준 하에) 영가설을 기각할 수 있음


4) 가설검정을 통해 알 수 있는 사실

   -  "최근 여아 신생아의 체중이 기존에 알려진 체중인 2800(g)에서 변화가 없다."라는 영가설에 대하여 통계적으로 유의한 결론을 얻을 수 없었으므로, "최근 여아 신생아의 체중이 기존에 알려진 체중인 2800(g)보다 증가하였다."라는 대안가설이 사실인 것으로 판단



### 5. 기각역을 통한 가설 검정 및 결론

> qt(1-alpha, df=n-1)

[1] 1.739607              #  기각역 : P(Cu < t), # 영가설의 검정통계량 t(2.233188)는 기각역에 포함

1) 가설검정으로 밝히고자 하는 내용

   - "최근 여아 신생아의 체중이 기존에 알려진 체중인 2800(g)에서 변화가 없다." 라는 영가설을 검정


2) 검정통계량, 유의확률 제시

   - 검정통계량(t) : 2.233188

   - 채택역 구간 : 1.739607 < t


3) 판정 내용

   - 채택역의 범위 [ ∞ ~ 1.739607 ]

   - 기각역의 범위 [ 1.739607 ~ ∞ ]

   - 검정통계량(t)는 채택역 구간에 포함되지 않으므로 영가설을 기각할 수 있음 (95% 신뢰수준)


4) 가설검정을 통해 알 수 있는 사실

   - "최근 여아 신생아의 체중이 기존에 알려진 체중인 2800(g)에서 변화가 없다."라는 영가설에 대하여 통계적으로 유의한 결론을 얻을 수 없었으므로, "최근 여아 신생아의 체중이 기존에 알려진 체중인 2800(g)보다 증가하였다."라는 대안가설이 사실인 것으로 판단


결과 확인     # 표본집단을 알고 있으므로, 패키지에 적용해볼 수 있음

> t.test(x, mu=2800, alternative = 'greater')    # 생략 시 양측 검정(two.sided), 단측 검정(greater)

One Sample t-test


data:  x

t = 2.2332, df = 17, p-value = 0.01963

alternative hypothesis: true mean is greater than 2800

95 percent confidence interval:

 2873.477      Inf

sample estimates:

mean of x 

 3132.444




반응형

'Data > Statistics' 카테고리의 다른 글

[Statistics] 상관계수  (0) 2019.02.22
[Statistics] 가설 검정 및 추정  (0) 2019.02.07
[Statistics] p-value 란?  (5) 2019.02.01
[Statistics/R] 모집단 추론, 추정  (0) 2019.01.31
[Statistics] 표준 정규 분포  (0) 2019.01.31
댓글
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday