데이터 파이프라인 구축

클라우드 아키텍트를 넘어서 데이터 아키텍트가 되어보기

➡️ 렛츠고

[ 데이터 플랫폼 구축하기 ]
- 데이터 플랫폼의 고객: 데이터
- 아키텍처
- 클라이언트와의 인터랙션
- 데이터 수집 방법
- 일괄 처리 (Batch Job)
- 스트리밍 데이터 처리 (실시간 데이터 처리)
- 데이터 접근
- Case Study) Airbnb의 이벤트 로그 처리
- Case Study) LINE 광고 데이터 파이프라인 BigDB
[ 더 알아보기 ]
- Spark
- Kafka
- Scala

[ 데이터 플랫폼 구축하기 ]

데이터 플랫폼의 고객: 데이터

정형 데이터

비정형 데이터

반정형 데이터

Big Data

아키텍처

[ 빅데이터 솔루션 워크로드 유형 ]

[ 빅데이터 아키텍처 구성요소 ]

1. 데이터 원본

2. 데이터 스토리지

3. Batch Processing

4. 실시간 메시지 수집

5. 스트림 처리

6. 분석 데이터 저장소

7. 분석 및 보고

8. 오케스트레이션

[ 람다 아키텍처 ]

출처: https://docs.microsoft.com/ko-kr/azure/architecture/data-guide/big-data/

[ 카파 아키텍처 ]

출처: https://docs.microsoft.com/ko-kr/azure/architecture/data-guide/big-data/

[ IoT (사물 인터넷) : 이벤트 기반 아키텍처 ]

출처: https://docs.microsoft.com/ko-kr/azure/architecture/data-guide/big-data/

클라이언트와의 Interaction

데이터 수집 방법

어떤 데이터를 받아야 할까? ex. Active User

데이터 전송 처리 과정

일괄 처리 (Batch Job)

일괄 데이터 처리 흐름 (참고: https://docs.microsoft.com/ko-kr/azure/architecture/data-guide/big-data/batch-processing)

과제

스트리밍 데이터 처리 (실시간 데이터 처리)

실시간 데이터 처리 흐름 (참고: https://docs.microsoft.com/ko-kr/azure/architecture/data-guide/big-data/real-time-processing)

과제

실시간 데이터

데이터 접근

NoSQL

인덱스

Case Study) Airbnb의 이벤트 로그 처리

Airstream : Airbnb의 Streaming 처리 프레임워크

Case Study) LINE 광고 데이터 파이프라인 BigDB

Big DB의 기능

컴포넌트

[ 더 알아보기 ]

Spark

출처: https://spark.apache.org/docs/latest/cluster-overview.html

Kafka

Topic, Partition

Producer, Consumer

Consumer Group

Broker, Zookeeper

Replication

Scala

I will be a software architect.

I will be a software architect.