티스토리 뷰

Data/Statistics

[Statistics] p-value 란?

Aaron 2019. 2. 1. 09:12
반응형



p-value



 p-value 는 모집단 추론의 가설 검정에서 기각 혹은 채택을 결정할 수 있는 확률을 의미합니다.


95%의 신뢰구간(표준정규분포의 값이 [-1.96 ~ 1.96]인 구간)이 -> 채택 혹은 기각을 결정하는데 -> 여기서 결정할 수 있는 확률(가설을 뒷받침해줄 수 있는 크기)이 p-value입니다.


먼저, 

대부분의 분석 모델에서는 가설이 부정 의미로 사용되어, p-value가 작을수록 결과가 의미있다고 해석할 수 있습니다.

자세한 내용은 뒤에 설명드리겠습니다 !!




p-value를 예를들어 설명하자면


평균 키를 구하고자 할 때,

신뢰구간이 175 ~ 182 이고, 가설은 184라고 가정해보자.

여기서 p-value는 가설(184)보다 큰 쪽의 확률을 의미한다.

결국, p-value가 작을수록 -> 신뢰구간에서 벗어나게 되고 -> 가설은 기각되어야 합니다.

반대로 p-value가 클 수록 -> 신뢰구간에 포함되게 되고 -> 가설은 채택되어야 합니다.


자세히 들여다보면,

p-value가 작을 수록, 신뢰구간에서 점점 멀어지게 되고, 가설은 기각됩니다.

반대로 p-value가 클 수록, 신뢰구간에 속하게 되고, 가설은 채택됩니다.


추가적으로, 

p-value의 채택과 기각의 기준이 되는 0.05라는 수치

신뢰구간에 포함될 확률인 95%(=0.95)의 나머지인 5%(=0.05)를 의미합니다.


즉, 

"p-value > 0.05" 라면, 가설 채택 !

"p-value < 0.05" 라면, 가설 기각 !




중요한 것은 !

"p-value는 가설에 따라 클수록 좋을 때가 있고, 작을수록 좋을 때가 있다" 라는 것입니다.


만일, 

회귀분석 모델에 y = ax + b 라는 함수를 적용하려고 하는데, 여기서 가설이 "a(기울기) = 0" 이라고 할 때,

가설이 채택(p-value가 큰 경우)된다면, 이 함수는 모델에 사용될 수 없게되므로, (a가 0이면 x와 y의 상관관계가 없음)

가설이 기각(p-value가 작은 경우)되어야 합니다. 가설을 부정해야 좋은 모델이 되니까요 !

결국, p-value가 작을수록 좋은 모델이라는 정의를 내릴 수 있는 것이죠.


더 쉽게, 

분류분석 모델의 가설이 "매개변수 = 0" (해당 매개변수는 의미가 없다) 라고 할 때,

가설이 채택(p-value가 큰 경우)된다면, 해당 매개변수는 의미가 없게 되므로 모델은 사용할 수 없게 되고,

가설이 기각(p-value가 작은 경우)된다면, 해당 매개변수는 의미가 있으므로 좋은 모델이라고 해석을 할 수 있습니다.


그렇기 때문에,

대부분 99% 이상의 분석 모델은 부정의 의미(ex. 해당 매개변수는 의미가 없다)를 통계적 가설로 세워서, 

p-value가 작을수록 좋은 모델, 의미있는 모델이라고 하는 것이죠.





반응형
댓글
최근에 올라온 글
최근에 달린 댓글
링크
Total
Today
Yesterday