티스토리 뷰

Data/Statistics

[Statistics] 상관계수

Aaron 2019. 2. 22. 17:56
반응형

공분산

  : 두 변수 사이의 상관관계 정도 

- 공분산의 값이 클수록 두 변수의 관계가 높다고 설명

- Cov(X, Y) = E(X편차 x Y편차)

   ㄴ cov(X, Y) > 0 : 높은 양의 관계

   ㄴ cov(X, Y) < 0 : 높은 음의 관계

   ㄴ cov(X, Y) = 0 : 관계 없음

 


상관계수

  : 두 변수(X, Y)의 공분산을 각 변수의 표준편차의 곱으로 나눈 값

 - 공분산의 크기와 상관관계의 정도의 관계를 정하기 위해 표준화 작업을 수행 (-1 ~ 1 사이의 분포)

   ㄴ 공분산의 절대값이 1에 가까우면 두 변수 사이의 상관관계가 크고, 0에 가까우면 상관관계가 작다고 설명

   ㄴ 변수들의 상관관계 파악을 위해 공분산의 부호는 중요하지 않음. 공분산의 부호는 분석 결과 해석에 중요

   ㄴ 두 변수로부터 추출한 표본의 특성을 통해 구하는 표본상관계수를 이용하여 추정


- 상관계수가 높다고(H0을 채택) 해당 설명변수를 무조건 제거해서는 안 됨

   ㄴ 유의하지 않던 변수가 다른 변수와 결합해서 굉장히 큰 관계를 보일 수 있는 경우도 많음

   ㄴ 두 변수의 인과관계만 파악 시 잘못된 해석을 불러올 수 있음

   ㄴ 데이터에 대한 이해와 경험적 지식이 중요


- cor(X, Y)

   ㄴ cor(X, Y) < 0.05 일 때, 영가설(H0)을 기각  ( H0 : y = ax일 떄, a = 0 )



종속변수와 독립변수

 - 종속변수

   : 다른 변수에 영향을 받아 값이 결정되는 변수


 - 독립변수(설명변수)

   : 종속변수에 영향을 미치는 변수

 



반응형

'Data > Statistics' 카테고리의 다른 글

[Statistics/R] 가설검정  (0) 2019.02.14
[Statistics] 가설 검정 및 추정  (0) 2019.02.07
[Statistics] p-value 란?  (5) 2019.02.01
[Statistics/R] 모집단 추론, 추정  (0) 2019.01.31
[Statistics] 표준 정규 분포  (0) 2019.01.31
댓글
최근에 올라온 글
최근에 달린 댓글
링크
Total
Today
Yesterday