본문 바로가기
반응형

데이터분석26

CTEs(Common Table Expressions) 개념 및 사용법 개요DBT 프로젝트 진행하면서 CTEs를 많이 활용하게 될 것 같다. 아무래도 DBT라는 툴 자체가 Transform에 맞춰진 툴이기 때문에, 깔끔하게 데이터를 정리하는 것이 매우 강조되는 것 같다. 그래서 SQL query에서는 CTE가 이에 제격인 셈이 아닐까 싶다. 유데미 강의를 따라가면서 Airbnb DBT 프로젝트를 진행할 예정인데, CTEs를 이번 기회에 확실히 정리하고 가면 좋을 것 같아서 포스트해본다.  CTEs 개념한국말로는 공통 테이블 표현식이라고 하는데, Common Table Expression; CTE는 SQL 쿼리에서 읽기 쉽고 유지 관리하기 용이한 쿼리 작성을 돕는 기능이다. 일시적으로 이름을 붙이는 결과 집합이라고 정의되어 있는데, 쉽게 보면 조회하는 쿼리를 하나의 임시 테이.. 2024. 9. 2.
Udemy에서 DBT 강의 수강 시작하기 (데이터 분석 엔지니어 기술, Data Build Tool 강좌 소개) 개요 안녕하세요! 루크입니다. 제가 오랜만에 데이터 엔지니어링 관련 강의(The Complete dbt (Data Build Tool) Bootcamp: Zero to Hero)를 듣게 되었습니다. 최근에 Data Analytics Engineer 직무로 일을 하고 있는데, ETL 중에서도 T에 집중이 되어 있다는 Data Build Tool(DBT)를 접하게 되어 큰 관심을 가지게 되었습니다. 유데미를 통해서 강의를 듣게 되었는데, 강의 내용이 영어로 되어 있다 보니까, 언제든지 꺼내서 보기 위해서 블로그 포스트를 남겨두어야겠다는 생각이 들더라고요. 그래서! 오로지(?) 저 위해서 강의 내용을 텍스트로 남겨보려고 합니다. (혹시라도, 저작권 등에 문제가 된다면 수정 조치 하겠습니다.) 데이터 분석의 새.. 2024. 7. 31.
[ADP-7] 데이터 분석 준비도 프레임워크 / 분석 성숙도 모델 / 데이터 거버넌스 / 데이터 거버넌스 체계 / 데이터 분석 조직 구조 데이터 분석 준비도 프레임워크 - 분석 준비도 : 기업의 데이터 분석 도입의 수준을 파악하기 위한 진단 방법 [분석 업무 파악] - 발생한 사실 분석 업무 - 예측 분석 업무 - 시뮬레이션 분석 업무 - 최적화 분석 업무 - 분석 업무 정기적 개선 [인력 및 조직] - 분석 전문가 직무 존재 - 분석 전문가 교육 훈련 프로그램 - 관리자들의 기본적 분석 능력 - 전사 분석 업무 총괄 조직 존재 - 경영진 분석 업무 이해 능력 [분석 기법] - 업무별 적합한 분석기법 사용 - 분석 업무 도입 방법론 - 분석기법 라이브러리 - 분석기법 효과성 평가 - 분석기법 정기적 개선 [분석 데이터] - 분석 업무를 위한 데이터 충분성 - 분석 업무를 위한 데이터 신뢰성 - 분석 업무를 위한 데이터 적시성 - 비구조적 .. 2022. 8. 10.
[ADP-5] 상향식 접근법 (Bottom Up Approach) / 분석과제 정의 / 분석 과제의 주요 5개 특성 및 속성 상향식 접근법 (Bottom Up Approach) - 절차가 규정된 하향식 문제해결 방식이 아닌, - 경험적인 과거 데이터를 무작정 결합하여 상향식으로 정보 혹은 지식을 얻고자 하는 새로운 분석 패러다임 - 기업에서 보유하고 있는 다양한 원천 데이터로부터 분석을 통하여 통찰력과 지식을 얻는 상향식 접근방법 - 다양한 원천 데이터를 대상으로 분석을 수행하여 가치 있는 문제를 도출하는 일련의 과정 1) 기존의 하향식 접근법의 한계를 극복하기 위한 분석 방법론임 - 기존 접근방법인 논리적인 단계별 접근법은 문제의 구조가 분명하고 문제를 해결하고 해결책을 도출하기 위한 데이터가 분석가 및 의사결정자에게 주어져 있음을 가정하기 때문에 솔루션 도출에는 유효하지만 새로운 문제의 탐색에는 한계 - 스탠포드 대학의 d.. 2022. 8. 5.
[ADP-3] 분석 기획 / 분석 주제 유형 / 분석방법론 / 방법론 모델 / KDD 분석 방법론 분석 기획 - IT 기술 및 분석 기법에 치우치는 경향을 조심해야 함 - 수학/통계학적 지식 및 해킹 기술(IT) 뿐만 아니라 해당 비즈니스에 대한 이해와 전문성을 포함 - 분석을 기획한다는 것은 해당 문제 영역에 대한 전문성 역량 및 수학/통계학적 지식을 활용한 분석 역량과 분석의 도구인 데이터 및 프로그래밍 기술 역량에 대한 균형잡힌 시각을 가지고 방향성 및 계획을 수립해야 한다는 것을 의미 분석 주제 유형 - 분석은 분석의 대상(WHAT), 방법(HOW)에 따라서 4가지로 나뉨 HOW \ WHAT Known Un-Known Known Optimization (최적화) Insight (통찰) Un-Known Solution (솔루션) Discovery (발견) - 문제 및 방법을 인지하고 있는 '개선.. 2022. 7. 29.
[SQL로 맛보는 데이터 전처리 분석] 상품 리뷰데이터를 이용한 리포트 작성(실습) - 1 데이터셋 - 캐글에 공개되어 있는 여성 의류 이커머스 관련 리뷰 데이터를 활용함 - https://www.kaggle.com/datasets/nicapotato/womens-ecommerce-clothing-reviews Women's E-Commerce Clothing Reviews 23,000 Customer Reviews and Ratings www.kaggle.com - 데이터 모양 확인하기 SELECT * FROM mydata.reviews 1) Division별 평점 분포 계산 - Division별로 평균 Rating을 계산함 SELECT `Division Name`, AVG(Rating) AS AVG_Rating FROM mydata.reviews GROUP BY `Division Name`.. 2022. 7. 22.
Python Data Structure 기본 데이터 구조 - 스택과 큐(Stack & quere with list) - 튜플과 집합(Tuple & Set) - 사전(dictionary) - Collection 모듈 Stack - 나중에 넣은 데이터를 먼저 반환하도록 설계된 메모리 구조 - Last In First Out(LIFO) - '리포' 구조라고 읽음 - Data의 입력을 Push, 출력을 Pop이라고 함 - List(리스트)를 사용해서 스택 구조를 설계할 수 있음 - 리스트에서는 push를 append()로, pop을 pop()으로 구현 Quere - 먼저 넣은 데이터를 먼저 반환하도록 설계된 메모리 구조 - First In First Out(FIFO) - '피포' 구조라고 읽음 - Stack과 반대되는 개념 - 파이썬은 리스트를 사용.. 2022. 1. 17.
String and advanced function concept String - 문자열 데이터 - 시퀀스 자료형으로, 문자형 데이터를 메모리에 저장 - 영문자 한 글자는 1byte의 메모리 공간을 사용 - 1byte = 8bit = 2**8 = 256까지 저장 가능 - bit는 0 또는 1 - 컴퓨터는 문자를 직접적으로 인식하지는 않고, 모든 데이터를 2진수로 인식함 - 이를 위해서 2진수를 문자로 변환하는 표준 규칙을 정함 - Ex) 대문자 U는 이진수로 1000011로 변환됨 (UTF-8기준) - 아스키 코드 표준(ASCII)를 많이 씀 - 메모리 공간 정수형 : int(4byte), long(무제한) 실수형 : float(8byte) - 인덱싱(Indexing) - 문자열의 각 문자는 개별 주소를 가짐 -> 이 주소를 가지고 할당된 값을 가져옴 - 슬라이싱(Sl.. 2022. 1. 17.
Conditionals and Loops > Conditionals - 조건문 : If, elif, els - 프로그램 작성 시 조건에 따른 판단과 반복은 필수 - 조건문이란 조건에 따라 특정한 동작을 하게 하는 명령어 - 조건문은 조건을 나타내는 기준과 실행해야 할 명령으로 구성됨 - 조건의 참, 거짓에 따라 실행해야 할 명령이 수행되거나 되지 않음 - If-else - 조건을 표기해서 참, 거짓을 판단하는데 비교 연산자를 활용함 - a의 값과 b의 값이 같더라도 a is b가 False일 수 있음 -> is는 주소를 비교해서 같은지 확인하기 때문임 - if 'abc'는 참이고, if ""는 거짓임 - 논리 키워드 and, or, not : 논리 키워드에 따라 참과 거짓을 판단하기도 함 - and는 양쪽이 모두 참이어야 참, or는 한쪽만 참.. 2022. 1. 14.
반응형