빅데이터 공분산과 상관계수
·
빅데이터
1. 공분산과 상관계수 - 여러 데이터에서 서로 어떤 관계가 존재하는지 - 여기서 관계란 A가 증가하면 B도 증가한다... A와 B는 종속관계이다... 등등 예를 들어 뇌 질환 여부 -> 뇌를 열어봐야함 -> 비용, 위험 큼 -> 차선책으로 -> 혈액 검사 -> 혈액을 뽑아야 된다는 부담감이 생김 -> 결국 -> 움직임만으로 판단 여부 즉, 높은 상관관계가 있는 방식, 성분을 찾아 해결하는 것 -> 비용, 시간 절감 2. 빅데이터 분석에서도 이런 현상이 발생한 이유 가장 좋은 방법은 하나한 찾아봐야하는것이지만, 시간과 비용이 많이 소모되므로 서로 높은 상관관계가 있는 간접적인 방법을 찾게 된 것이다. 3. 공(통)분산(Covariance) : 편차끼리의 곱의 평균 4. 상관계수(Correlation) 시..
빅데이터 평균, 분산, 표준편차
·
빅데이터
빅데이터에서는 대표값을 구하고 얼마나 퍼져잇는지가 중요한다. 그래서 데이터분석에서는 평균, 분산, 표준편차를 알아야 한다. a b c d 의 값이 있고 n = 값의 갯수라고 할때 1. 평균(mean) : 대표값으로 자주 쓰임 2. 분산(variance) : 얼마나 퍼져있는지 각각의 값들이 평균에서 얼마나 떨어져있는지 평균값을 구하기 위해 아래 과정들을 겪음 ** 값이 0으로 떨어지게 되어서 제곱한 후에 분산을 구하기로함 3. 표준편차(standard deviation) ** 제곱을 씌우면서 값의 규모가 너무 커지게 되어서 표준편차가 생김 4. 실습 구현 https://github.com/ddah0329/Study_BigData/blob/main/Ch01/_01_mean.ipynb
빅데이터 분석이란? 데이터 분석과 빅데이터 분석의 차이점
·
빅데이터
1. 정의 - 빅데이터 : 많은 수의 데이터 (보통 4만개 이상일때) - 분석: 통계 기법 2. 특징 - 결과를 알려준다. (매우 정확하게) - 상관관계 도출해준다. 3. 데이터 분석과 빅데이터 분석의 차이점 기존 데이터 분석 빅데이터 분석 20대 패션에 대한 데이터 추출을 위해 - 어떤 색을 좋아하는지 - 어떤 재질의 옷을 좋아하는지 - 등 직접 데이터 수집 후 옷을 만든다. 20대 패션에 대한 데이터 추출을 위해 - 20대를 기반으로 어떤 검색을 하였는지 데이터 분석 - 색, 재질 등 검색어를 기반으로 한 옷을 만든다. 시험에서 100점을 맞고 싶다. 공부를 열심히 한다. 주어진 정보로 열심히 하나하나 공부를 한다. 시험에서 100점을 맞고 싶다. 시험 정보를 기반으로 베낀다. -> 시험 문제에 대한..