빅데이터에서는 대표값을 구하고 얼마나 퍼져잇는지가 중요한다.
그래서 데이터분석에서는 평균, 분산, 표준편차를 알아야 한다.
a b c d 의 값이 있고
n = 값의 갯수라고 할때
1. 평균(mean) : 대표값으로 자주 쓰임

2. 분산(variance) : 얼마나 퍼져있는지

각각의 값들이 평균에서 얼마나 떨어져있는지 평균값을 구하기 위해 아래 과정들을 겪음

** 값이 0으로 떨어지게 되어서 제곱한 후에 분산을 구하기로함
3. 표준편차(standard deviation)

** 제곱을 씌우면서 값의 규모가 너무 커지게 되어서 표준편차가 생김
4. 실습 구현
https://github.com/ddah0329/Study_BigData/blob/main/Ch01/_01_mean.ipynb
728x90
'빅데이터' 카테고리의 다른 글
빅데이터 공분산과 상관계수 (0) | 2024.02.15 |
---|---|
빅데이터 분석이란? 데이터 분석과 빅데이터 분석의 차이점 (1) | 2024.02.13 |