빅데이터 평균, 분산, 표준편차

빅데이터에서는 대표값을 구하고 얼마나 퍼져잇는지가 중요한다. 

그래서 데이터분석에서는 평균, 분산, 표준편차를 알아야 한다. 

 

a  b  c  d 의 값이 있고
n = 값의 갯수라고 할때

1. 평균(mean) : 대표값으로 자주 쓰임

 

2. 분산(variance) : 얼마나 퍼져있는지

각각의 값들이 평균에서 얼마나 떨어져있는지 평균값을 구하기 위해 아래 과정들을 겪음

** 값이 0으로 떨어지게 되어서 제곱한 후에 분산을 구하기로함

 

3. 표준편차(standard deviation)

** 제곱을 씌우면서 값의 규모가 너무 커지게 되어서 표준편차가 생김


4. 실습 구현

https://github.com/ddah0329/Study_BigData/blob/main/Ch01/_01_mean.ipynb