[Study]/[빅분기-필기]

[빅분기 1일차] Chap 01 - sec 01. 빅데이터 개요 및 활용 (1)

잰잰' 2024. 12. 13. 17:48

12월 10일 공부 인증

 

12월 10일 월요일 공부 내용 요약

1. 데이터와 정보

1) 데이터 구분

- 정량적 데이터(Quantitative Data) : 주로 숫자로 구성

- 정성적 데이터(Qualitative Data) : 문자와 같은 텍스트로 구성

2) 데이터 유형

- 정형 데이터(Structured Data) : 정해진 형식과 구조로 구성된 데이터, 연산 가능 ex) 관계형 데이터 베이스의 테이블에 저장되는 데이터

- 반정형 데이터(Semi-structured Data) : 데이터 형식과 구조가 비교적 유연, 스키마 정보를 데이터와 함께 제공하는 파일 형식, 연산 불가능 ex) J SON, XML, RDF, HTML 등

- 비정형 데이터(Unstructured Data) : 구조가 정해지지 않은 대부분의 데이터, 연산 불가능 ex) 동영상, 이미지, 음성, 문서, 메일 등

3) 데이터의 근원에 따른 분류

- 가역 데이터 : 원본 데이터 변경 시 변경사항 반영 가능

- 불가역 데이터 : 원본 데이터 변경 시 변경사항 반영 불가능

4) 데이터의 기능

- 암묵지 : 외부에 표출되지 않으며 전달과 공유가 어려움

- 형식지 : 형상화된 지식으로 전달과 공유가 쉬움

5) 지식창조 메커니즘

- 공통화

- 표출화

- 연결화

- 내면화

6) 데이터, 정보, 지식, 지혜

- 데이터 : 관찰, 측정하여 수집한 사실이나 값, 그 의미가 중요하지 않은 객관적 사실

- 정보 : 데이터를 가공, 처리하여 분석하고 그 속에서 도출된 의미, 항상 유용하지는 않음

- 지식 : 개인적인 경험을 결합하여 내재화한 고유의 결과물

- 지혜 : 지식에 아이디어를 결합하여 도출한 창의적 산물

2. 데이터베이스

1) 데이터베이스 특징

- 통합된 데이터(Integrated Data) : 중복되어 저장되지 않음

- 저장된 데이터(Stored Data) : 컴퓨터가 접근할 수 있는 매체에 데이터 저장

- 공용 데이터(Shared Data) : 여러 사용자가 서로 다른 목적으로 데이터를 함께 이용

- 변화되는 데이(Changed Data) : 데이터는 현시점 상태를 나타내고 지속적으로 갱신

2) 데이터베이스 활용

- OLTP(OnLine Transaction Processing) : 호스트 컴퓨터와 온라인으로 접속된 여러 단말 간 처리 형태의 하나로 데이터베이스의 데이터를 수시로 갱신하는 프로세싱 의미

- OLAP(OnLine Analytical Processing) : 정보 위주의 분석 처리, OLTP에서 처리된 트랜잭션 데이터를 분석 프로세싱 하는 것

- OLTP는 데이터 갱신 위주, OLAP는 데이터 조회 위주

3) 데이터 웨어하우스 (DW : Data Warehouse) : 사용자 의사결정에 도움을 주기 위해 데이터를 공통 형식으로 변환해서 관리하는 데이터베이스

- 주제지향성 : 중요 주제 중심으로 주제와 관련된 데이터로 구성

- 통합성 : 데이터가 입력될 때 일관된 형태로 변환, 전사적인 관점에서 통합

- 시계열성 : 데이터는 일정 기간 동안 시점별로 이어짐

- 비휘발성 : 데이터가 적재되면 일괄 처리 작업에 의한 갱신 외에는 변경이 수행되지 않음

4) 데이터 웨어하우스 구성

데이터 모델 → ETL, ODS → DW → OLAP, 데이터마이닝, 분석 도구, 경영기반 솔루션

3. 빅데이터 개요

1) 빅데이터의 등장으로 인한 변화

- 데이터 처리 시점 : 사전 처리 → 사후 처리

- 데이터 처리 범주 : 표본조사 → 전수조사

- 데이터 가치 판단 : 질 → 양

- 데이터 분석 방향 : 인과관계 → 상관관계

2) 빅데이터 특징

가트너의 3V

- 규모 (Volume)

- 유형 (Variety)

- 속도 (Velocity)

+2V

- 품질 (Veracity)

- 가치 (Value)

3) 빅데이터 활용 3요소

- 자원 : 빅데이터

- 기술 : 빅데이터 플랫폼, AI

- 인력 : 알고리즈미스트, 데이터 사이언티스트