데이터, 엔터티, 데이터 형식(정형, 반정형, 비정형)

2024. 2. 20. 19:47 · 자격증/Azure DP-900

1. 데이터 (Data)

- 정보를 기록하는 데 사용되는 팩트(숫자, 설명, 관측값 등)의 모음집(컬렉션)이다. 

- 해당 데이터는 데이터 구조에 구성된다. 

- 구성된 데이터 구조는 조직에서 중요하게 사용되는 엔티티를 나타낸다. 

 

2. 엔터티 (Entity) : 실체, 객체

- 업무에 필요하고 유용한 정보를 저장하고 관리하기 위한 집합

- 일반적으로 하나 이상의 특징을 갖는다. 

- 발음 주의 : 영어 그대로를 읽어보면 엔티티라고 읽힐지라도 엔터티라고 발음한다. 

- 예시) 학생이라는 엔티티는 학번, 이름, 학점, 입학일자, 생일, 전공 등의 속성으로 특징지어진다. 

 

3. 데이터 형식

- 정형 데이터, 반정형 데이터, 비정형 데이터로 구분할 수 있다.

정형 데이터 반정형 데이터 비정형 데이터
  - 틀이 잡혀있는 데이터
  - 체계화된 데이터
  - 높은 안정성, 유연하지 못한 구조
  - 금융, 제조 등 기업의 업무용 데이터베이스
  - 표 형식
  - 구조가 있으나 그 안에서 각 엔터티
     인스턴스 간의 차이가 있음
  - JSON 형태가 일반적
  - 틀이 잡혀있지 않은 데이터
  - 사전 정의가 없는 데이터
  - 다양하고 방대한 양의 데이터
  - 별도의 분석 처리 기술이 필요
  - 텍스트, 이미지, 음원 데이터, 빅데이터

 

정형 데이터 (Structured Data)
- 고정된 스키마를 준수하여 모든 데이터가 동일한 필드 또는 속성을 갖는 데이터
- 정형 데이터의 스키마는 대부분 표 형식이다. 
- 구조화된 데이터는 여러 개의 테이블이 관계형 모델을 가지며 서로를 키 값으로 참조할 수 있는 데이터베이스에 저장된다. 
- 즉, 미리 정해 높은 형식과 구조에 따라 저장되도록 구성하여 고정된 필드에 저장된 데이터라고 할 수 있다. 
** 데이터베이스 스키마란
- 데이터의 구조
- 데이터베이스의 설계
- 관계형 데이터베이스에서 데이터가 구조화되는 방식
- 데이터베이스에서 자료의 구조, 자료의 표현 방법, 자료 간의 관계를 형식 언어로 정의한 구조
- 데이터베이스 전체/일부의 논리적인 구조를 표현하는 것으로 데이터베이스 내에서 데이터가 어떤 구조로 저장되는지 나타낸 것
- 데이터베이스를 구성하는 데이터 개체(entity), 속성(attribute), 관계(relationship) 및 데이터 조작시 데이터 값들이 갖는 제약 조건 등에 관해 전반적으로 정의한다.

정형 데이터 (출처: 마이크로소프트)

 

반정형 데이터 (Semi-Structured Data)
- 몇몇 구조가 있긴 하나 각 엔터티 인스턴스 간에 약간의 차이가 허용된 정보이다. 
- 가장 일반적인 형식인 JSON (JavaScript Object Notation)이다. 
- 예시) A는 이메일 주소가 1개 있고, B는 3개가 있고, C는 없을 수 있다.

반정형 데이터 (출처: 마이크로소프트)

비정형 데이터 (Unstructured Data)
- 정의된 구조가 없는 문서, 이미지, 오디오, 동영상, 메일 본문 등과 같이 정형되지 않은 데이터이다. 

 

4. 데이터 저장소

- 데이터 저장 방식 (정형, 반정형, 비정형)으로 데이터를 저장하여 엔터티의 세부 정보, 특정 이벤트 또는 문서, 이미지 및 기타 형식으로 기록한다. 

- 널리 사용되는 데이터 저장소는 [ 파일저장소 ] 와 [ 데이터베이스 ] 이다. 

728x90

'자격증 > Azure DP-900' 카테고리의 다른 글

Azure Data Factorya란?  (0) 2024.03.20
Microsoft Power BI  (0) 2024.03.20
Azure Synapse Analytics란?  (0) 2024.03.20
스트리밍, 일괄처리, OLTP 워크로드  (0) 2024.03.14
MCF 빅데이터 자격증 Azure DP-900에 대해  (1) 2024.02.20
'자격증/Azure DP-900' 카테고리의 다른 글
  • Microsoft Power BI
  • Azure Synapse Analytics란?
  • 스트리밍, 일괄처리, OLTP 워크로드
  • MCF 빅데이터 자격증 Azure DP-900에 대해
따`ddah
따`ddah
    250x250
  • 따`ddah
    IT's ddah
    따`ddah
  • 관리    글쓰기
  • 전체
    오늘
    어제
    • 분류 전체보기
      • Projects
        • Auto Post : SNS 자동 업로더
      • kmooc
        • 기계 학습 기반의 데이터 공학
      • Algorithm
        • [C] Do it! 자료구조와 함께 배우는 알고리..
        • 알고리즘 스터디
        • 코딩 테스트
      • Basic
        • 운영체제 OS
        • 컴퓨터구조
        • 소프트웨어공학 (UML)
      • DBMS
        • 데이터베이스 이론
        • MySQL
        • Oracle SQL
        • BigQuery
        • Yammer
      • Programming
        • Python
        • C
        • Java
        • React
        • JavaScript
        • R
      • 빅데이터
      • AI
        • 멀티미디어응용
        • 머신러닝
        • 인공지능
      • 자격증
        • Azure DP-900
        • Azure AI-900
        • SQLD
        • CSTS
      • 대외활동 및 인턴
        • 인턴
        • LG Aimers
        • Outta
        • 빅데이터 분석 학회 BDA
        • 세계시민교육연구소 청년단 GYIA
      • Tool
        • Git
        • IDE
      • 도서
        • IT
      • 그 외
        • 단축키
        • ✞
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    javascript
    이름나이
    AI역량검사
    js
    리액트
    jsx
    파이썬{}
    취업준비
    print(f"")
    파이썬 챗봇 만들기
    input
    대학생학회
    오블완
    BDA학회
    Oracle
    python
    오라클SQL
    자바스크립트
    Py
    react
    주석
    티스토리챌린지
    취업
    sql
    자료형
    대외활동
    파이썬
    빅데이터분석
    dbms
    importturtle
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
따`ddah
데이터, 엔터티, 데이터 형식(정형, 반정형, 비정형)
상단으로

티스토리툴바