본문 바로가기
반응형

데이터엔지니어6

CTEs(Common Table Expressions) 개념 및 사용법 개요DBT 프로젝트 진행하면서 CTEs를 많이 활용하게 될 것 같다. 아무래도 DBT라는 툴 자체가 Transform에 맞춰진 툴이기 때문에, 깔끔하게 데이터를 정리하는 것이 매우 강조되는 것 같다. 그래서 SQL query에서는 CTE가 이에 제격인 셈이 아닐까 싶다. 유데미 강의를 따라가면서 Airbnb DBT 프로젝트를 진행할 예정인데, CTEs를 이번 기회에 확실히 정리하고 가면 좋을 것 같아서 포스트해본다.  CTEs 개념한국말로는 공통 테이블 표현식이라고 하는데, Common Table Expression; CTE는 SQL 쿼리에서 읽기 쉽고 유지 관리하기 용이한 쿼리 작성을 돕는 기능이다. 일시적으로 이름을 붙이는 결과 집합이라고 정의되어 있는데, 쉽게 보면 조회하는 쿼리를 하나의 임시 테이.. 2024. 9. 2.
Airbnb 데이터 모델 프로젝트 준비하기 (Windows, DBT 프로젝트) 개요본격적으로 DBT 설치 후에 프로젝트를 진행해보려고 한다. 아무래도 처음 접해보는 툴이라서 설정부터 버벅거림이 있었는데, Windows 사용자는 아래 내용을 참고하면 좋을 것 같다. 설정값들은 강의에서 나온 내용으로 설정한 것이라서, 혹시 다르게 세팅한 사람은 해당 부분을 본인 것으로 수정해서 넣으면 될 것 같다. (계정명이나 클라우드 등등) 다행히 오류 없이 세팅이 잘 된 것 같아서 안심이다.. 버전 같은 것도 안 맞아서 호환 안 되는 경우도 있다는데, 나는 무리 없었다. 휴. Snowflake Free Trial 가입하기- 가입 시 클라우드는 AWS로 설정하고, 계정 하나 만들어주기- Trial 기간은 30일이기 때문에, 프로젝트 빨리 끝내기 목표!- 개인 프로젝트라면 클라우드 보통 없으니까 Go.. 2024. 9. 1.
느린 변경 차원; Slowly Changing Dimension(SCD) 개요우리 조직에서도 SCD에 대한 논의가 활발하게 이루어졌고, 지금까지도 난항을 겪고 있는 파트. 이게 개념적으로 "느린 변경 차원"이라고 딱 지정되어서 많은 사람들이 논의를 하고 있다는 것을 처음 알았다. 이번에 좀 확실히 개념을 잡고 우리 조직에도 적용할 수 있는 포인트가 있다면, 학습한 내용을 활용해서 적용해보고자 한다.  개념 느린 변경 차원(SCD)은 데이터가 천천히 변할 때, 그 변화를 데이터 웨어하우스에서 어떻게 관리할지를 설명하는 접근 방식이다. 데이터가 원본 데이터베이스에서 변경될 때, 이를 데이터 웨어하우스에서 어떻게 처리하고 저장할지를 결정하는 방법을 4개의 타입으로 정리해서, 조직 특성에 맞게 적용할 수 있도록 한다. 주요 내용:데이터 히스토리 관리:보관 필요성: 일부 데이터는 시간.. 2024. 8. 11.
데이터레이크(Data Lake)와 데이터레이크하우스(Data Lakehouse) 개요데이터웨어하우스(DW)는 지금 내 조직에서도 활발하게 사용 중이라서 익숙한데, 레이크와 레이크하우스는 익숙하지 않은 개념인 것 같다. 사실 있다고 한들, 과연 내가 처리할 수 있는 스택을 갖추고 있는가 하는 생각이 드는 수준. 강의를 들으면서 생각한 것은 LAKE는 현실적으로 운영하는 것이 무의미한 것 같고, 최소한 레이크하우스 정도는 되어야 될 것 같다는 생각. 뒷부분에서 이 처리 부분을 강의로 이어주실 지는 의문이 든다. 차근차근 따라가보기.  데이터 웨어하우스의 한계와 해결 방법  보통 사기업 조직에서는 온프레미스 데이터웨어하우스를 구축해서 운영하고 있다. (메이비 보안적인 측면이겠지) 온프레미스와 클라우드 DW 모두 장점과 단점이 모두 존재하는데, 선택에 따라 여러 가지 문제에 직면할 수 있는.. 2024. 8. 11.
Maslow's Pyramid of Data 개요첫 강의를 "Maslow's Pyramid of Data"로 시작하는 이유는, 우리에게 데이터 엔지니어링에 대해서 너무 성급히 접근하지 말기를 바라는 우려이자 강의자의 조언 같은 것이다. 매슬로우의 심리학적 이론을 데이터 관점에서 풀어낸 섹션이 아닐까 생각했다. 매슬로우의 5단계 이론 (Maslow's Pyramid) 우리는 데이터가 현대 사회에서 얼마나 중요한지 알고 있다. (그래서 지금 나도 강의를 듣고 있지만..) 현대 데이터 엔지니어링 스택에서 DBT가 어떻게 적합한 기술인지 차후에서 살펴볼 수 있을 것이다. 그 단계로 나아가게 이해하기 위해서는 DBT의 독특함을 아는 것이 굉장히 중요하다고 강의자님은 강조하고 있다. 더 쉽게 이해할 수 있도록, 매슬로우 5단계 이론을 바탕으로 전체적인 그림을.. 2024. 8. 5.
Udemy에서 DBT 강의 수강 시작하기 (데이터 분석 엔지니어 기술, Data Build Tool 강좌 소개) 개요 안녕하세요! 루크입니다. 제가 오랜만에 데이터 엔지니어링 관련 강의(The Complete dbt (Data Build Tool) Bootcamp: Zero to Hero)를 듣게 되었습니다. 최근에 Data Analytics Engineer 직무로 일을 하고 있는데, ETL 중에서도 T에 집중이 되어 있다는 Data Build Tool(DBT)를 접하게 되어 큰 관심을 가지게 되었습니다. 유데미를 통해서 강의를 듣게 되었는데, 강의 내용이 영어로 되어 있다 보니까, 언제든지 꺼내서 보기 위해서 블로그 포스트를 남겨두어야겠다는 생각이 들더라고요. 그래서! 오로지(?) 저 위해서 강의 내용을 텍스트로 남겨보려고 합니다. (혹시라도, 저작권 등에 문제가 된다면 수정 조치 하겠습니다.) 데이터 분석의 새.. 2024. 7. 31.
반응형