티스토리 뷰
공분산
: 두 변수 사이의 상관관계 정도
- 공분산의 값이 클수록 두 변수의 관계가 높다고 설명
- Cov(X, Y) = E(X편차 x Y편차)
ㄴ cov(X, Y) > 0 : 높은 양의 관계
ㄴ cov(X, Y) < 0 : 높은 음의 관계
ㄴ cov(X, Y) = 0 : 관계 없음
상관계수
: 두 변수(X, Y)의 공분산을 각 변수의 표준편차의 곱으로 나눈 값
- 공분산의 크기와 상관관계의 정도의 관계를 정하기 위해 표준화 작업을 수행 (-1 ~ 1 사이의 분포)
ㄴ 공분산의 절대값이 1에 가까우면 두 변수 사이의 상관관계가 크고, 0에 가까우면 상관관계가 작다고 설명
ㄴ 변수들의 상관관계 파악을 위해 공분산의 부호는 중요하지 않음. 공분산의 부호는 분석 결과 해석에 중요
ㄴ 두 변수로부터 추출한 표본의 특성을 통해 구하는 표본상관계수를 이용하여 추정
- 상관계수가 높다고(H0을 채택) 해당 설명변수를 무조건 제거해서는 안 됨
ㄴ 유의하지 않던 변수가 다른 변수와 결합해서 굉장히 큰 관계를 보일 수 있는 경우도 많음
ㄴ 두 변수의 인과관계만 파악 시 잘못된 해석을 불러올 수 있음
ㄴ 데이터에 대한 이해와 경험적 지식이 중요
- cor(X, Y)
ㄴ cor(X, Y) < 0.05 일 때, 영가설(H0)을 기각 ( H0 : y = ax일 떄, a = 0 )
종속변수와 독립변수
- 종속변수
: 다른 변수에 영향을 받아 값이 결정되는 변수
- 독립변수(설명변수)
: 종속변수에 영향을 미치는 변수
'Data > Statistics' 카테고리의 다른 글
[Statistics/R] 가설검정 (0) | 2019.02.14 |
---|---|
[Statistics] 가설 검정 및 추정 (0) | 2019.02.07 |
[Statistics] p-value 란? (5) | 2019.02.01 |
[Statistics/R] 모집단 추론, 추정 (0) | 2019.01.31 |
[Statistics] 표준 정규 분포 (0) | 2019.01.31 |