개요
첫 강의를 "Maslow's Pyramid of Data"로 시작하는 이유는, 우리에게 데이터 엔지니어링에 대해서 너무 성급히 접근하지 말기를 바라는 우려이자 강의자의 조언 같은 것이다. 매슬로우의 심리학적 이론을 데이터 관점에서 풀어낸 섹션이 아닐까 생각했다.
매슬로우의 5단계 이론 (Maslow's Pyramid)
우리는 데이터가 현대 사회에서 얼마나 중요한지 알고 있다. (그래서 지금 나도 강의를 듣고 있지만..) 현대 데이터 엔지니어링 스택에서 DBT가 어떻게 적합한 기술인지 차후에서 살펴볼 수 있을 것이다. 그 단계로 나아가게 이해하기 위해서는 DBT의 독특함을 아는 것이 굉장히 중요하다고 강의자님은 강조하고 있다.
더 쉽게 이해할 수 있도록, 매슬로우 5단계 이론을 바탕으로 전체적인 그림을 보고 나서, 그 그림을 구조적이고 이해하기 쉬운 요소들로 나누어 주셨다. 우리가 고등학교 때 배운 '매슬로우의 욕구 단계'를 예로 들어 주셨다. 강의자님이 심리학자는 아니지만, 이 개념은 인간의 동기 부여의 계층 구조를 이해하는 데 도움이 되기 때문에 인용하신 것 같다.
매슬로우의 이론에 따르면, 사람은 기본적인 심리적 안전, 사회적 필요, 자기 실현 등의 욕구를 가지고 있다. 기본적인 욕구가 충족되면, 다음 단계로 나아갈 수 있지만, 낮은 단계의 욕구를 충족하지 못하면, 상위 단계로 올라갈 수 없다. 그래서 너무 빨리 높은 단계로 뛰어들면 피라미드가 불안정해지고 실패할 가능성이 높다. 이 개념은 우리가 다룰 주제인 데이터 검증(DBT)과 분석 엔지니어링에 직접 적용될 수 있다고 설명했다.
데이터 욕구 5단계 (Data-Maturity Model)
우리의 데이터 욕구 단계는 다음과 같다.
1. 피라미드의 가장 밑부분은 데이터를 캡처하는 것(Data Capturing / Data Collection).
데이터가 없으면 DBT나 분석 엔지니어링에 대해 이야기할 수 없다.
2-3. 데이터 정리와 통합
데이터를 수집한 후, 우리는 다음 단계로 넘어가 데이터 정리와 통합 흐름을 구축한다. 이 단계는 데이터를 분석에 유용한 형식으로 변환하고 매핑하는 과정.
4. 분석 엔지니어링
데이터를 데이터 레이크나 데이터 웨어하우스에 로드하여, 이후 단계에서 비즈니스 분석과 보고 레이어를 구현 (이 강의에서는 이 단계까지)
5. ML/AI
그러나 만약 더 탐험하고 싶다면, 피라미드의 마지막 단계들을 탐색해도 좋다.
이 데이터 진화의 다섯 단계는 데이터 중심의 조직이 성공하기 위해 꼭 마스터해야 할 것들이며, 이를 개별적으로 나누어 전형적인 워크플로우 추후 강의에서 풀어나갈 예정이다.
포스팅 자료 출처
본 포스팅은 유데미(Udemy) 사이트의 "The Complete dbt (Data Build Tool) Bootcamp: Zero to Hero" 강의의 내용을 발췌하여 작성했습니다. (광고 X)
'Data Science > DBT' 카테고리의 다른 글
데이터레이크(Data Lake)와 데이터레이크하우스(Data Lakehouse) (0) | 2024.08.11 |
---|---|
데이터 웨어하우스 이해하기 (온프레미스 vs 클라우드 DW) (0) | 2024.08.05 |
ETL vs ELT, 왜 지금은 ELT를 선호하는가. (0) | 2024.08.05 |
ETL은 3개 단계에 불과하다. (Collection, Wrangling, Integration) (0) | 2024.08.05 |
Udemy에서 DBT 강의 수강 시작하기 (데이터 분석 엔지니어 기술, Data Build Tool 강좌 소개) (0) | 2024.07.31 |
댓글