빅데이터 공분산과 상관계수

1. 공분산과 상관계수

- 여러 데이터에서 서로 어떤 관계가 존재하는지

- 여기서 관계란 A가 증가하면 B도 증가한다... A와 B는 종속관계이다... 등등

 

예를 들어

뇌 질환 여부  -> 뇌를 열어봐야함 -> 비용, 위험 큼

-> 차선책으로 -> 혈액 검사 -> 혈액을 뽑아야 된다는 부담감이 생김

-> 결국 -> 움직임만으로 판단 여부 

 

즉, 높은 상관관계가 있는 방식, 성분을 찾아 해결하는 것 -> 비용, 시간 절감

 

 

2. 빅데이터 분석에서도 이런 현상이 발생한 이유

가장 좋은 방법은 하나한 찾아봐야하는것이지만, 시간과 비용이 많이 소모되므로

서로 높은 상관관계가 있는 간접적인 방법을 찾게 된 것이다. 

 

3. 공(통)분산(Covariance) : 편차끼리의 곱의 평균

 

 

4. 상관계수(Correlation)

 

시력 [0.8] [1.0]
- 0.2 차이의 스케일을 맞추기 위해 스케일링, 즉 상관계수를 하게된다. 

 

상관계수에서는 두 개의 관계를 -1 에서 1 사이의 숫자로 나타낸다.

[-1] : 두 개가 정반대가 되는 관계  

[+1] : 두 개가 상관관계. 즉, 하나가 늘어나면 하나가 반드시 늘어나는 관계. 0.7 정도만 되도 정말 좋은 지수!

 

=> 비용 시간 절감 가능!

 

하지만 세상의 대다수는 0에 가깝다!

 

상관관계의 숫자 크기 효과를 줄이기 위해 스케일링을 해야함

결론적으로 이렇게 말할 수 있다. 

"A와 B는 어떤 상관관계 이며, 관계 갯수는 r개 이다."

5. 실습구현

https://github.com/ddah0329/Study_BigData/blob/main/Ch01/_02_covariance.ipynb