데이터, 엔터티, 데이터 형식(정형, 반정형, 비정형)

1. 데이터 (Data)

- 정보를 기록하는 데 사용되는 팩트(숫자, 설명, 관측값 등)의 모음집(컬렉션)이다. 

- 해당 데이터는 데이터 구조에 구성된다. 

- 구성된 데이터 구조는 조직에서 중요하게 사용되는 엔티티를 나타낸다. 

 

2. 엔터티 (Entity) : 실체, 객체

- 업무에 필요하고 유용한 정보를 저장하고 관리하기 위한 집합

- 일반적으로 하나 이상의 특징을 갖는다. 

- 발음 주의 : 영어 그대로를 읽어보면 엔티라고 읽힐지라도 엔티라고 발음한다. 

- 예시) 학생이라는 엔티티는 학번, 이름, 학점, 입학일자, 생일, 전공 등의 속성으로 특징지어진다. 

 

3. 데이터 형식

- 정형 데이터, 반정형 데이터, 비정형 데이터로 구분할 수 있다.

정형 데이터 반정형 데이터 비정형 데이터
  - 틀이 잡혀있는 데이터
  - 체계화된 데이터
  - 높은 안정성, 유연하지 못한 구조
  - 금융, 제조 등 기업의 업무용 데이터베이스
  - 표 형식
  - 구조가 있으나 그 안에서 각 엔터티
     인스턴스 간의 차이가 있음
  - JSON 형태가 일반적
  - 틀이 잡혀있지 않은 데이터
  - 사전 정의가 없는 데이터
  - 다양하고 방대한 양의 데이터
  - 별도의 분석 처리 기술이 필요
  - 텍스트, 이미지, 음원 데이터, 빅데이터

 

정형 데이터 (Structured Data)
- 고정된 스키마를 준수하여 모든 데이터가 동일한 필드 또는 속성을 갖는 데이터
- 정형 데이터의 스키마는 대부분 표 형식이다. 
- 구조화된 데이터는 여러 개의 테이블이 관계형 모델을 가지며 서로를 키 값으로 참조할 수 있는 데이터베이스에 저장된다. 
- 즉, 미리 정해 높은 형식과 구조에 따라 저장되도록 구성하여 고정된 필드에 저장된 데이터라고 할 수 있다. 
** 데이터베이스 스키마란
- 데이터의 구조
- 데이터베이스의 설계
- 관계형 데이터베이스에서 데이터가 구조화되는 방식
- 데이터베이스에서 자료의 구조, 자료의 표현 방법, 자료 간의 관계를 형식 언어로 정의한 구조
- 데이터베이스 전체/일부의 논리적인 구조를 표현하는 것으로 데이터베이스 내에서 데이터가 어떤 구조로 저장되는지 나타낸 것
- 데이터베이스를 구성하는 데이터 개체(entity), 속성(attribute), 관계(relationship) 및 데이터 조작시 데이터 값들이 갖는 제약 조건 등에 관해 전반적으로 정의한다.

정형 데이터 (출처: 마이크로소프트)

 

반정형 데이터 (Semi-Structured Data)
- 몇몇 구조가 있긴 하나 각 엔터티 인스턴스 간에 약간의 차이가 허용된 정보이다. 
- 가장 일반적인 형식인 JSON (JavaScript Object Notation)이다. 
- 예시) A는 이메일 주소가 1개 있고, B는 3개가 있고, C는 없을 수 있다.

반정형 데이터 (출처: 마이크로소프트)

비정형 데이터 (Unstructured Data)
- 정의된 구조가 없는 문서, 이미지, 오디오, 동영상, 메일 본문 등과 같이 정형되지 않은 데이터이다. 

 

4. 데이터 저장소

- 데이터 저장 방식 (정형, 반정형, 비정형)으로 데이터를 저장하여 엔터티의 세부 정보, 특정 이벤트 또는 문서, 이미지 및 기타 형식으로 기록한다. 

- 널리 사용되는 데이터 저장소는 [ 파일저장소 ] 와 [ 데이터베이스 ] 이다. 

'자격증 > Azure DP-900' 카테고리의 다른 글

Azure Data Factorya란?  (0) 2024.03.20
Microsoft Power BI  (0) 2024.03.20
Azure Synapse Analytics란?  (0) 2024.03.20
스트리밍, 일괄처리, OLTP 워크로드  (0) 2024.03.14
MCF 빅데이터 자격증 Azure DP-900에 대해  (0) 2024.02.20