빅데이터
빅데이터 공분산과 상관계수
따`ddah
2024. 2. 15. 18:47
1. 공분산과 상관계수
- 여러 데이터에서 서로 어떤 관계가 존재하는지
- 여기서 관계란 A가 증가하면 B도 증가한다... A와 B는 종속관계이다... 등등
예를 들어
뇌 질환 여부 -> 뇌를 열어봐야함 -> 비용, 위험 큼
-> 차선책으로 -> 혈액 검사 -> 혈액을 뽑아야 된다는 부담감이 생김
-> 결국 -> 움직임만으로 판단 여부
즉, 높은 상관관계가 있는 방식, 성분을 찾아 해결하는 것 -> 비용, 시간 절감
2. 빅데이터 분석에서도 이런 현상이 발생한 이유
가장 좋은 방법은 하나한 찾아봐야하는것이지만, 시간과 비용이 많이 소모되므로
서로 높은 상관관계가 있는 간접적인 방법을 찾게 된 것이다.
3. 공(통)분산(Covariance) : 편차끼리의 곱의 평균
4. 상관계수(Correlation)
시력 [0.8] [1.0]
- 0.2 차이의 스케일을 맞추기 위해 스케일링, 즉 상관계수를 하게된다.
상관계수에서는 두 개의 관계를 -1 에서 1 사이의 숫자로 나타낸다.
[-1] : 두 개가 정반대가 되는 관계
[+1] : 두 개가 상관관계. 즉, 하나가 늘어나면 하나가 반드시 늘어나는 관계. 0.7 정도만 되도 정말 좋은 지수!
=> 비용 시간 절감 가능!
하지만 세상의 대다수는 0에 가깝다!
상관관계의 숫자 크기 효과를 줄이기 위해 스케일링을 해야함
결론적으로 이렇게 말할 수 있다.
"A와 B는 어떤 상관관계 이며, 관계 갯수는 r개 이다."
5. 실습구현
https://github.com/ddah0329/Study_BigData/blob/main/Ch01/_02_covariance.ipynb
728x90