on
[Data Warehouse] 데이터웨어하우스
[Data Warehouse] 데이터웨어하우스
728x90
Redshift를 사용한 데이터 엔지니어링 프로젝트를 수행하면서 공부한 내용을 기록합니다.
Data Warehouse 데이터 웨어하우스
- Separate Database, Central Data Storage, 비즈니스 여러 부문의 데이터를 통합한 단일 데이터베이스
- 보통 데이터팀에서 여러 데이터 소스로부터 로데이터를 불러와 저장하고 Summary tables을 생성해 데이터 분석을 하는 형태.
OLAP Online Analytical Processing vs OLTP Online Transaction Processing
OLAP, 데이터 웨어하우스는 Production Database와는 분리된 별도의 데이터 베이스로, Internal Facing이기 때문에 대용량의 데이터를 reasonable한 시간에 처리를 할 수 있는 지가 핵심. 빠른 처리 속도가 핵심인 OLTP, Production Database와는 다르다.
Redshift (SQL Engine) AWS에서 제공하는 데이터웨어하우스 서비스
특징
- Fixed Capacity (cost option)
- 최대 2TB까지
- OLAP
- PK를 보장하지 않음 (Primary Key Uniqueness)
- 파이썬 함수 사용 가능
- 테이블 분산 타입
테이블 분산 타입에 세가지 방법이 존재함. 데이터를 저장할 노드 설정을 시스템에서 자동으로 해주지 않기 때문에, 설계자 부담이 크며, 데이터가 커지면 왜곡현상 발생으로 인한 퍼포먼스 저하 있을 수 있음. ( ↔ 빅쿼리 )
디폴트는 even
- 데이터 Bulk update : Record by Record가 아닌 File 전체를 추가
Data Warehousing with Amazon Redshift
https://www.youtube.com/watch?v=TFLoCLXulU0
2017 AWS DB Day | Amazon Redshift 소개 및 실습
https://www.slideshare.net/awskorea/amazon-redshift-workshop
from http://geniewishescometrue.tistory.com/60 by ccl(A) rewrite - 2021-08-19 23:26:15