[Study]/[빅분기-필기]

[빅분기 3일차] Chap 01 - sec 02. 빅데이터 기술 및 제도 (1)

잰잰' 2024. 12. 14. 13:30

12월 12일 공부 인증

12월 12일 수요일 공부 내용 요약

 

1. 빅데이터 플랫폼

빅데이터 수집, 저장, 처리, 분석 등 전 과정을 통합적으로 제공

1) 빅데이터 플랫폼의 등장 배경

(1) 비즈니스 요구사항 변화

- 장기적이고 전략적 접근 필요

- 초저가의 대규모 프로세싱과 클라우드 컴퓨팅 기반의 분석 환경 등장

(2) ​​데이터 규모와 처리 복잡도 증가

- 데이터 규모와 내용이 방대해짐

- 정보의 수집 및 분석이 장기간에 걸쳐 수행되어야 함

- 다양한 경로를 통해 다양한 형태의 데이터 수집과 복잡한 로직을 이용한 대용량 처리 필요

- 분산 처리 불가피, 고도의 기술 필요

(3) 데이터 구조의 변화와 신속성 요구

- 비정형 데이터의 비중과 실시간 처리에 대한 요구가 높아짐

- 정형적이지 않은 데이터가 증가

- 빠른 수집과 가공 및 분석 등 처리가 요구

(4) 데이터 분석 유연성 증대

- 정해진 절차와 과정을 따르지 않아도 분석 목적에 맞게 유연한 분석이 가능해짐

- 다양한 방법론을 통해 텍스트, 음성, 이미지, 동영상 등 다양한 요소 분석 가능

 

2) 빅데이터 플랫폼의 기능

- 컴퓨팅 부하 발생

   - CPU 성능 향상, 클러스터에서 자원 할당을 통해 부하 제어

- 저장 부하 발생

   - 파일 시스템 개선, 데이터베이스 성능 향상으로 제어

- 네트워크 부하 발생

   - 대역폭의 효과적 분배, 최단거리 노드 탐색하여 제어

3) 빅데이터 플랫폼의 구조

- 소프트웨어 계층 : 빅데이터 애플리케이션 구성, 데이터 처리 및 분석, 데이터 수집과 정제

- 플랫폼 계층 : 빅데이터 애플리케이션 실행을 위한 플랫폼 제공, 작업 스케줄링, 데이터 및 자원 할당과 관리, 프로파일링 등 수행

- 인프라스트럭처 계층 : 빅데이터 처리와 분석에 필요한 자원 제공

2. 빅데이터 처리 기술

1) 빅데이터 처리 과정

데이터(생성) → 수집 → 저장(공유) → 처리 → 분석 → 시각화

2) 빅데이터 수집

- 크롤링(Crawling)

- 로그 수집기

- 센서 네트워크(Sensor Network)

- RSS Reader / Open API

- ETL 프로세스

 

3) 빅데이터 저장

- NoSQL(Not-only SQL)

- 공유 데이터 시스템(Shared-data System)

- 병렬 데이터베이스 관리 시스템(Parallel Database Management System)

- 분산 파일 시스템

- 네트워크 저장 시스템

 

4) 빅데이터 처리

- 분산 시스템과 병렬 시스템

- 분산 병렬 컴퓨팅

- 하둡(Hadoop)

- 아파치 스파크(Apache Spark)

- 맵리듀스(MapReduce)

5) 빅데이터 분석

(1) 데이터 분석 방법의 분류

- 탐구 요인 분석 (EFA : Exploratory Factor Analysis) : 데이터 간 상호 관계를 파악하여 데이터 분석

- 확인 요인 분석 (CFA : Confirmatory Factor Analysis) : 관찰된 변수 집합 요소 구조를 파악하기 위한 통계적 기법을 통해 데이터 분석

 

(2) 데이터 분석 방법

- 분류(Classification)

- 군집화(Clustering)

- 기계학습(Machine Learning)

- 텍스트 마이닝(Text Mining)

- 웹 마이닝(Web Mining)

- 오피니언 마이닝(Opinion Mining)

- 리얼리티 마이닝(Reality Mining)

- 소셜 네트워크 분석(Social Network Analysis)

- 감성 분석(Sentiment Analysis)