[Statistics] p-value 란?

티스토리 뷰

Data/Statistics

[Statistics] p-value 란?

Aaron 2019. 2. 1. 09:12

참고글 :

[Statistics/R] 모집단 추론, 추정

[Statistics] 가설 검정 및 추정

p-value

p-value 는 모집단 추론의 가설 검정에서 기각 혹은 채택을 결정할 수 있는 확률을 의미합니다.

95%의 신뢰구간(표준정규분포의 값이 [-1.96 ~ 1.96]인 구간)이 -> 채택 혹은 기각을 결정하는데 -> 여기서 결정할 수 있는 확률(가설을 뒷받침해줄 수 있는 크기)이 p-value입니다.

먼저,

대부분의 분석 모델에서는 가설이 부정 의미로 사용되어, p-value가 작을수록 결과가 의미있다고 해석할 수 있습니다.

자세한 내용은 뒤에 설명드리겠습니다 !!

p-value를 예를들어 설명하자면

평균 키를 구하고자 할 때,

신뢰구간이 175 ~ 182 이고, 가설은 184라고 가정해보자.

여기서 p-value는 가설(184)보다 큰 쪽의 확률을 의미한다.

결국, p-value가 작을수록 -> 신뢰구간에서 벗어나게 되고 -> 가설은 기각되어야 합니다.

반대로 p-value가 클 수록 -> 신뢰구간에 포함되게 되고 -> 가설은 채택되어야 합니다.

자세히 들여다보면,

p-value가 작을 수록, 신뢰구간에서 점점 멀어지게 되고, 가설은 기각됩니다.

반대로 p-value가 클 수록, 신뢰구간에 속하게 되고, 가설은 채택됩니다.

추가적으로,

p-value의 채택과 기각의 기준이 되는 0.05라는 수치는

신뢰구간에 포함될 확률인 95%(=0.95)의 나머지인 5%(=0.05)를 의미합니다.

즉,

"p-value > 0.05" 라면, 가설 채택 !

"p-value < 0.05" 라면, 가설 기각 !

중요한 것은 !

"p-value는 가설에 따라 클수록 좋을 때가 있고, 작을수록 좋을 때가 있다" 라는 것입니다.

만일,

회귀분석 모델에 y = ax + b 라는 함수를 적용하려고 하는데, 여기서 가설이 "a(기울기) = 0" 이라고 할 때,

가설이 채택(p-value가 큰 경우)된다면, 이 함수는 모델에 사용될 수 없게되므로, (a가 0이면 x와 y의 상관관계가 없음)

가설이 기각(p-value가 작은 경우)되어야 합니다. 가설을 부정해야 좋은 모델이 되니까요 !

결국, p-value가 작을수록 좋은 모델이라는 정의를 내릴 수 있는 것이죠.

더 쉽게,

분류분석 모델의 가설이 "매개변수 = 0" (해당 매개변수는 의미가 없다) 라고 할 때,

가설이 채택(p-value가 큰 경우)된다면, 해당 매개변수는 의미가 없게 되므로 모델은 사용할 수 없게 되고,

가설이 기각(p-value가 작은 경우)된다면, 해당 매개변수는 의미가 있으므로 좋은 모델이라고 해석을 할 수 있습니다.

그렇기 때문에,

대부분 99% 이상의 분석 모델은 부정의 의미(ex. 해당 매개변수는 의미가 없다)를 통계적 가설로 세워서,

p-value가 작을수록 좋은 모델, 의미있는 모델이라고 하는 것이죠.

저작자표시 (새창열림)

'Data > Statistics' 카테고리의 다른 글

[Statistics/R] 가설검정 (0)	2019.02.14
[Statistics] 가설 검정 및 추정 (0)	2019.02.07
[Statistics/R] 모집단 추론, 추정 (0)	2019.01.31
[Statistics] 표준 정규 분포 (0)	2019.01.31
[Statistics/R] 중심극한정리(표본과 모집단) (0)	2019.01.30

최근에 올라온 글

최근에 달린 댓글

링크

Total

Today

Yesterday

TAG more

Data Makes Our Future

티스토리 뷰

[Statistics] p-value 란?

'Data > Statistics' 카테고리의 다른 글

티스토리툴바