본문 바로가기

수학/데이터 사이언스 스쿨

비선형 상관관계: 스피어만 상관계수, 켄달타우

상관계수

- 상관계수: 두 변수 간에 관계가 있는지 확인

 

상관계수의 해석

https://nittaku.tistory.com/456

상관계수는 이상치의 유무에 따라 값의 영향이 크니 이상치 처리가 중요하다.

 

모수적 방법과 비모수적 방법

상관관계에 들어가기 앞서, 모수적과 비모수적이라는 용어가 나온다. 이에 간단하게 용어를 정리해보고자 한다.

- 모수적 방법(Parametic method): 모수를 특정 분포로 가정하여 접근하는 방법

- 비모수적 방법(Non-parametic method): 모집단의 특정 분포를 가정하지 않고 접근하는 방법이다. 비모수적 방법은 정규성 검정에서 정규분포를 따르지 않거나 표본의 개수가 10개 미만일 때 사용한다. 

상관계수도 똑같이 적용하면 된다. 즉, 정규분포 조건에 충족하지 못하면 비모수적 상관계수로 풀면 된다.

 

모수적 상관계수에는 가장 많이 알고 있는 피어슨 상관계수를 사용한다.

비모수적 상관계수로는 스피어만 상관계수, 켄달 검정이 있다.

 

 

상관계수 방법

여기서 비모수적 상관계수인 스피어만 상관계수와 켄달 타우만 소개할 예정이다. 두 방법 모두 변숫값 대신 순위를 사용한다.


스피어만 상관계수


스피어만 상관계수는 값에 순위를 매겨 그 순위에 대해 상관계수를 구한다. 이런 특성 때문에 데이터가 연속형 변수가 아닌 순 서형인 경우에도 상관계수를 구할 수 있다.
예를 들어, 수학 점수와 영어 점수와의 상관계수는 피어슨 상관계수로 계산할 수 있고, 수학 과목의 석차와 영어과목의 석차는 스피어만 상관계수로 계산할 수 있다.

$p=\frac{6\sum d_i^2}{n(n^2-1)}$
* $d_i$= $x_i$의 순위 - $y_i$의 순위
스피어만은 데이터 내 편차와 에러에 민감하며 일반적으로 켄달 상관계수보다 높은 값을 가진다.


켄달 타우


켄달 타우는 두 변수들 간의 순위를 비교하여 연관성을 계산한다.
$p= \frac{C-D}{C+D}$
* C: concordant pair의 수
* D: concordant pair가 아닌 수

켄달 타우를 계산하기 위해서는 concordant pair를 이해해야 하는데, 각 변수의 비교 대상의 상하 관계가 같으면 concordant pair라고 말한다.
예를 들어, 사람들의 키와 몸무게에 대한 상관계수를 알고 싶다고 하자.
1번째 케이스의 경우 A가 키가 크고, A가 몸무게도 더 나간다. 이런 경우 concordant pair라고 한다.
2번째 케이스의 경우 A가 키가 크지만, B의 몸무게가 더 나간다고 할 때 concordant pair가 아니라고 한다.
이는 예시를 통해 공부하면 더 쉽게 다가올 것이다. 예시는 여기서 공부하면 이해가 쉬울 것이다.


켄달 타우는 샘플 사이즈가 작거나 데이터의 동률이 많을 때 유용하다.
  

- point biserial correlation coefficient(점이연 상관계수)

한 변수가 명목형 변수이고, 다른 변수가 연속형일 때 사용한다.


기타 방법

 

한 변수가 이분형 변수이고, 다른 변수가 연속형일 때는 'point biserial correlation coefficient/ biserial correlation coefficient'의 방법들이 있고, 한 변수가 이분형 변수이고 다른 변수가 명목형 일 때는 '파이 계수'를 사용한다.

 

* 데이터가 네/아니오 처럼 2가지로 나눠지는 것을 이분형 데이터라고 한다.

 

 

 

 

 

 

 

 

 

 

 

 

https://mansoostat.tistory.com/115