빅데이터 공분산과 상관계수

2024. 2. 15. 18:47 · 빅데이터

1. 공분산과 상관계수

- 여러 데이터에서 서로 어떤 관계가 존재하는지

- 여기서 관계란 A가 증가하면 B도 증가한다... A와 B는 종속관계이다... 등등

 

예를 들어

뇌 질환 여부  -> 뇌를 열어봐야함 -> 비용, 위험 큼

-> 차선책으로 -> 혈액 검사 -> 혈액을 뽑아야 된다는 부담감이 생김

-> 결국 -> 움직임만으로 판단 여부 

 

즉, 높은 상관관계가 있는 방식, 성분을 찾아 해결하는 것 -> 비용, 시간 절감

 

 

2. 빅데이터 분석에서도 이런 현상이 발생한 이유

가장 좋은 방법은 하나한 찾아봐야하는것이지만, 시간과 비용이 많이 소모되므로

서로 높은 상관관계가 있는 간접적인 방법을 찾게 된 것이다. 

 

3. 공(통)분산(Covariance) : 편차끼리의 곱의 평균

 

 

4. 상관계수(Correlation)

 

시력 [0.8] [1.0]
- 0.2 차이의 스케일을 맞추기 위해 스케일링, 즉 상관계수를 하게된다. 

 

상관계수에서는 두 개의 관계를 -1 에서 1 사이의 숫자로 나타낸다.

[-1] : 두 개가 정반대가 되는 관계  

[+1] : 두 개가 상관관계. 즉, 하나가 늘어나면 하나가 반드시 늘어나는 관계. 0.7 정도만 되도 정말 좋은 지수!

 

=> 비용 시간 절감 가능!

 

하지만 세상의 대다수는 0에 가깝다!

 

상관관계의 숫자 크기 효과를 줄이기 위해 스케일링을 해야함

결론적으로 이렇게 말할 수 있다. 

"A와 B는 어떤 상관관계 이며, 관계 갯수는 r개 이다."

5. 실습구현

https://github.com/ddah0329/Study_BigData/blob/main/Ch01/_02_covariance.ipynb

728x90

'빅데이터' 카테고리의 다른 글

빅데이터 평균, 분산, 표준편차  (1) 2024.02.14
빅데이터 분석이란? 데이터 분석과 빅데이터 분석의 차이점  (3) 2024.02.13
'빅데이터' 카테고리의 다른 글
  • 빅데이터 평균, 분산, 표준편차
  • 빅데이터 분석이란? 데이터 분석과 빅데이터 분석의 차이점
따`ddah
따`ddah
    250x250
  • 따`ddah
    IT's ddah
    따`ddah
  • 관리    글쓰기
  • 전체
    오늘
    어제
    • 분류 전체보기
      • Projects
        • Auto Post : SNS 자동 업로더
      • kmooc
        • 기계 학습 기반의 데이터 공학
      • Algorithm
        • [C] Do it! 자료구조와 함께 배우는 알고리..
        • 알고리즘 스터디
        • 코딩 테스트
      • Basic
        • 운영체제 OS
        • 컴퓨터구조
        • 소프트웨어공학 (UML)
      • DBMS
        • 데이터베이스 이론
        • MySQL
        • Oracle SQL
        • BigQuery
        • Yammer
      • Programming
        • Python
        • C
        • Java
        • React
        • JavaScript
        • R
      • 빅데이터
      • AI
        • 멀티미디어응용
        • 머신러닝
        • 인공지능
      • 자격증
        • Azure DP-900
        • Azure AI-900
        • SQLD
        • CSTS
      • 대외활동 및 인턴
        • 인턴
        • LG Aimers
        • Outta
        • 빅데이터 분석 학회 BDA
        • 세계시민교육연구소 청년단 GYIA
      • Tool
        • Git
        • IDE
      • 도서
        • IT
      • 그 외
        • 단축키
        • ✞
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    주석
    이름나이
    오블완
    파이썬{}
    javascript
    리액트
    대학생학회
    빅데이터분석
    dbms
    react
    티스토리챌린지
    importturtle
    자바스크립트
    파이썬 챗봇 만들기
    sql
    AI역량검사
    BDA학회
    취업준비
    js
    input
    파이썬
    오라클SQL
    python
    Oracle
    print(f"")
    대외활동
    jsx
    자료형
    Py
    취업
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
따`ddah
빅데이터 공분산과 상관계수
상단으로

티스토리툴바