본문 바로가기
반응형

전체 글92

CTEs(Common Table Expressions) 개념 및 사용법 개요DBT 프로젝트 진행하면서 CTEs를 많이 활용하게 될 것 같다. 아무래도 DBT라는 툴 자체가 Transform에 맞춰진 툴이기 때문에, 깔끔하게 데이터를 정리하는 것이 매우 강조되는 것 같다. 그래서 SQL query에서는 CTE가 이에 제격인 셈이 아닐까 싶다. 유데미 강의를 따라가면서 Airbnb DBT 프로젝트를 진행할 예정인데, CTEs를 이번 기회에 확실히 정리하고 가면 좋을 것 같아서 포스트해본다.  CTEs 개념한국말로는 공통 테이블 표현식이라고 하는데, Common Table Expression; CTE는 SQL 쿼리에서 읽기 쉽고 유지 관리하기 용이한 쿼리 작성을 돕는 기능이다. 일시적으로 이름을 붙이는 결과 집합이라고 정의되어 있는데, 쉽게 보면 조회하는 쿼리를 하나의 임시 테이.. 2024. 9. 2.
Airbnb 데이터 모델 프로젝트 준비하기 (Windows, DBT 프로젝트) 개요본격적으로 DBT 설치 후에 프로젝트를 진행해보려고 한다. 아무래도 처음 접해보는 툴이라서 설정부터 버벅거림이 있었는데, Windows 사용자는 아래 내용을 참고하면 좋을 것 같다. 설정값들은 강의에서 나온 내용으로 설정한 것이라서, 혹시 다르게 세팅한 사람은 해당 부분을 본인 것으로 수정해서 넣으면 될 것 같다. (계정명이나 클라우드 등등) 다행히 오류 없이 세팅이 잘 된 것 같아서 안심이다.. 버전 같은 것도 안 맞아서 호환 안 되는 경우도 있다는데, 나는 무리 없었다. 휴. Snowflake Free Trial 가입하기- 가입 시 클라우드는 AWS로 설정하고, 계정 하나 만들어주기- Trial 기간은 30일이기 때문에, 프로젝트 빨리 끝내기 목표!- 개인 프로젝트라면 클라우드 보통 없으니까 Go.. 2024. 9. 1.
느린 변경 차원; Slowly Changing Dimension(SCD) 개요우리 조직에서도 SCD에 대한 논의가 활발하게 이루어졌고, 지금까지도 난항을 겪고 있는 파트. 이게 개념적으로 "느린 변경 차원"이라고 딱 지정되어서 많은 사람들이 논의를 하고 있다는 것을 처음 알았다. 이번에 좀 확실히 개념을 잡고 우리 조직에도 적용할 수 있는 포인트가 있다면, 학습한 내용을 활용해서 적용해보고자 한다.  개념 느린 변경 차원(SCD)은 데이터가 천천히 변할 때, 그 변화를 데이터 웨어하우스에서 어떻게 관리할지를 설명하는 접근 방식이다. 데이터가 원본 데이터베이스에서 변경될 때, 이를 데이터 웨어하우스에서 어떻게 처리하고 저장할지를 결정하는 방법을 4개의 타입으로 정리해서, 조직 특성에 맞게 적용할 수 있도록 한다. 주요 내용:데이터 히스토리 관리:보관 필요성: 일부 데이터는 시간.. 2024. 8. 11.
현대 데이터 스택 (과거와 현재, DBT 툴의 중요성) 개요이번 강의는 과거에서 현대까지의 데이터 스택(Stack)의 발전 과정을 설명해주셨다. 과거의 기술적 한계와 현대 데이터 엔지니어링의 방향성을 안내하면서, 과거의 발전이 오늘날의 데이터 기술에 어떻게 영향을 미쳤는지 스토리텔링해주셨다. 왠지 DBT가 얼마나 중요한지, 왜 배워야 하는지를 강조하고 싶으셔서 이 파트를 넣으신 것 같은 느낌적인 느낌. 과거의 데이터 스택 이전에도 설명해주셨지만, 1967년 그 쯤에는 MB당 보관비용(Storage Cost)가 1백만 달러로 매우 높은 가격을 지불해야 했다. 당시 데이터 통합(Data Integration) 과정이 발전하면서 ETL(Extract, Transform, Load) 방식이 공식적으로 도입되었었고, 비용적인 문제 때문에 데이터 변환이 데이터 로딩 이.. 2024. 8. 11.
데이터레이크(Data Lake)와 데이터레이크하우스(Data Lakehouse) 개요데이터웨어하우스(DW)는 지금 내 조직에서도 활발하게 사용 중이라서 익숙한데, 레이크와 레이크하우스는 익숙하지 않은 개념인 것 같다. 사실 있다고 한들, 과연 내가 처리할 수 있는 스택을 갖추고 있는가 하는 생각이 드는 수준. 강의를 들으면서 생각한 것은 LAKE는 현실적으로 운영하는 것이 무의미한 것 같고, 최소한 레이크하우스 정도는 되어야 될 것 같다는 생각. 뒷부분에서 이 처리 부분을 강의로 이어주실 지는 의문이 든다. 차근차근 따라가보기.  데이터 웨어하우스의 한계와 해결 방법  보통 사기업 조직에서는 온프레미스 데이터웨어하우스를 구축해서 운영하고 있다. (메이비 보안적인 측면이겠지) 온프레미스와 클라우드 DW 모두 장점과 단점이 모두 존재하는데, 선택에 따라 여러 가지 문제에 직면할 수 있는.. 2024. 8. 11.
데이터 웨어하우스 이해하기 (온프레미스 vs 클라우드 DW) 개요유데미 DBT 강의를 계속해서 듣고 있는데, 이 강의 진짜 매력있다. 단순히 DBT! 에 집중하는 강의는 아닌 것 같고, 전체적으로 데이터를 개발하는, 데이터를 구축하는, 데이터를 운영하는 사람이 당연히 알아야 할 것들을 찬찬히 빌드업하면서 우리가 해야하는 일이 무엇인지를 조금씩 조굼씩 인지시켜주는 것 같다. 강사님 성함.. Zoltan C. Toth 죨탄님. 계속 잘 따라가보겠습니다. 감사합니다. 과거의 데이터웨어하우스(DW) 데이터 웨어하우스는 1960년대부터 존재해 온 기술로, 줄여서 BW(비즈니스 웨어하우스) 또는 DW(데이터 웨어하우스)라고 부른다. 데이터 웨어하우스는 궁극적으로는 데이터 분석과 보고를 위한 기술적 도구의 역할을 하는 것으로 볼 수 있다. 쉽게 말해, DW는 고속으로 분석 작.. 2024. 8. 5.
ETL vs ELT, 왜 지금은 ELT를 선호하는가. 개요강사님이 어느 정도 ETL과 ELT가 익숙한 사람을 대상으로 강의를 해서 그런지, 자세한 설명은 이번에 건너 뛰신 것 같다. 추가적으로 ETL과 ELT를 구글링해보고 그 내용도 함께 실어봤다. (그냥 들어도 이해는 충분히 가는 내용이었지만, 이왕 공부하는거 좀 자세하게 알아보고 가면 좋을 것 같아서.) ETL vs ELTETL (Extract, Transform, Load)과 ELT (Extract, Load, Transform)는 데이터 통합의 두 가지 주요 방법이다. 각각의 접근 방식은 데이터의 이동과 변환을 다르게 처리하며, 비즈니스 상황이나 자원에 따라 다르게 쓰인다고 한다.1. ETL (Extract, Transform, Load)데이터 추출 → 변환 → 로드데이터를 별도의 처리 서버에서 변.. 2024. 8. 5.
ETL은 3개 단계에 불과하다. (Collection, Wrangling, Integration) 개요 지난 강의에서 Data-Maturity Model에 대해서 강사님이 말씀해주셨는데, 이 중 ETL이 아래 3단계를 포함한다고 말씀해주셨다. Collection, Wrangling, Integration이 ETL의 모든 것이라고 하셨고, 이를 좀 더 자세하게 설명해주시는 시간이었다.  1. Data Collection- 데이터 수집, 추출 등의 단계 피라미드의 가장 밑부분, 즉 데이터 수집 부분이다. 여기서 말하는 데이터 수집은 다양한 출처(Source)에서 데이터를 추출(Extract)하는 것을 의미한다. "다양한 데이터 출처"라고 한다면 어떤 것을 떠올릴 수 있을까? 현답은 비즈니스에서 처한 '상황에 따라 다르다'라고 할 수 있다. 예를 들면, 제조업에서는 센서(Sensor)가 수집한 데이터일 수.. 2024. 8. 5.
Maslow's Pyramid of Data 개요첫 강의를 "Maslow's Pyramid of Data"로 시작하는 이유는, 우리에게 데이터 엔지니어링에 대해서 너무 성급히 접근하지 말기를 바라는 우려이자 강의자의 조언 같은 것이다. 매슬로우의 심리학적 이론을 데이터 관점에서 풀어낸 섹션이 아닐까 생각했다. 매슬로우의 5단계 이론 (Maslow's Pyramid) 우리는 데이터가 현대 사회에서 얼마나 중요한지 알고 있다. (그래서 지금 나도 강의를 듣고 있지만..) 현대 데이터 엔지니어링 스택에서 DBT가 어떻게 적합한 기술인지 차후에서 살펴볼 수 있을 것이다. 그 단계로 나아가게 이해하기 위해서는 DBT의 독특함을 아는 것이 굉장히 중요하다고 강의자님은 강조하고 있다. 더 쉽게 이해할 수 있도록, 매슬로우 5단계 이론을 바탕으로 전체적인 그림을.. 2024. 8. 5.
반응형