1. 데이터 (Data)
- 정보를 기록하는 데 사용되는 팩트(숫자, 설명, 관측값 등)의 모음집(컬렉션)이다.
- 해당 데이터는 데이터 구조에 구성된다.
- 구성된 데이터 구조는 조직에서 중요하게 사용되는 엔티티를 나타낸다.
2. 엔터티 (Entity) : 실체, 객체
- 업무에 필요하고 유용한 정보를 저장하고 관리하기 위한 집합
- 일반적으로 하나 이상의 특징을 갖는다.
- 발음 주의 : 영어 그대로를 읽어보면 엔티티라고 읽힐지라도 엔터티라고 발음한다.
- 예시) 학생이라는 엔티티는 학번, 이름, 학점, 입학일자, 생일, 전공 등의 속성으로 특징지어진다.
3. 데이터 형식
- 정형 데이터, 반정형 데이터, 비정형 데이터로 구분할 수 있다.
정형 데이터 | 반정형 데이터 | 비정형 데이터 |
- 틀이 잡혀있는 데이터 - 체계화된 데이터 - 높은 안정성, 유연하지 못한 구조 - 금융, 제조 등 기업의 업무용 데이터베이스 - 표 형식 |
- 구조가 있으나 그 안에서 각 엔터티 인스턴스 간의 차이가 있음 - JSON 형태가 일반적 |
- 틀이 잡혀있지 않은 데이터 - 사전 정의가 없는 데이터 - 다양하고 방대한 양의 데이터 - 별도의 분석 처리 기술이 필요 - 텍스트, 이미지, 음원 데이터, 빅데이터 |
정형 데이터 (Structured Data)
- 고정된 스키마를 준수하여 모든 데이터가 동일한 필드 또는 속성을 갖는 데이터
- 정형 데이터의 스키마는 대부분 표 형식이다.
- 구조화된 데이터는 여러 개의 테이블이 관계형 모델을 가지며 서로를 키 값으로 참조할 수 있는 데이터베이스에 저장된다.
- 즉, 미리 정해 높은 형식과 구조에 따라 저장되도록 구성하여 고정된 필드에 저장된 데이터라고 할 수 있다.
** 데이터베이스 스키마란
- 데이터의 구조
- 데이터베이스의 설계
- 관계형 데이터베이스에서 데이터가 구조화되는 방식
- 데이터베이스에서 자료의 구조, 자료의 표현 방법, 자료 간의 관계를 형식 언어로 정의한 구조
- 데이터베이스 전체/일부의 논리적인 구조를 표현하는 것으로 데이터베이스 내에서 데이터가 어떤 구조로 저장되는지 나타낸 것
- 데이터베이스를 구성하는 데이터 개체(entity), 속성(attribute), 관계(relationship) 및 데이터 조작시 데이터 값들이 갖는 제약 조건 등에 관해 전반적으로 정의한다.
반정형 데이터 (Semi-Structured Data)
- 몇몇 구조가 있긴 하나 각 엔터티 인스턴스 간에 약간의 차이가 허용된 정보이다.
- 가장 일반적인 형식인 JSON (JavaScript Object Notation)이다.
- 예시) A는 이메일 주소가 1개 있고, B는 3개가 있고, C는 없을 수 있다.
비정형 데이터 (Unstructured Data)
- 정의된 구조가 없는 문서, 이미지, 오디오, 동영상, 메일 본문 등과 같이 정형되지 않은 데이터이다.
4. 데이터 저장소
- 데이터 저장 방식 (정형, 반정형, 비정형)으로 데이터를 저장하여 엔터티의 세부 정보, 특정 이벤트 또는 문서, 이미지 및 기타 형식으로 기록한다.
- 널리 사용되는 데이터 저장소는 [ 파일저장소 ] 와 [ 데이터베이스 ] 이다.
728x90
'자격증 > Azure DP-900' 카테고리의 다른 글
Azure Data Factorya란? (0) | 2024.03.20 |
---|---|
Microsoft Power BI (0) | 2024.03.20 |
Azure Synapse Analytics란? (0) | 2024.03.20 |
스트리밍, 일괄처리, OLTP 워크로드 (0) | 2024.03.14 |
MCF 빅데이터 자격증 Azure DP-900에 대해 (0) | 2024.02.20 |