본문 바로가기
반응형

데이터사이언스45

[ADP-7] 데이터 분석 준비도 프레임워크 / 분석 성숙도 모델 / 데이터 거버넌스 / 데이터 거버넌스 체계 / 데이터 분석 조직 구조 데이터 분석 준비도 프레임워크 - 분석 준비도 : 기업의 데이터 분석 도입의 수준을 파악하기 위한 진단 방법 [분석 업무 파악] - 발생한 사실 분석 업무 - 예측 분석 업무 - 시뮬레이션 분석 업무 - 최적화 분석 업무 - 분석 업무 정기적 개선 [인력 및 조직] - 분석 전문가 직무 존재 - 분석 전문가 교육 훈련 프로그램 - 관리자들의 기본적 분석 능력 - 전사 분석 업무 총괄 조직 존재 - 경영진 분석 업무 이해 능력 [분석 기법] - 업무별 적합한 분석기법 사용 - 분석 업무 도입 방법론 - 분석기법 라이브러리 - 분석기법 효과성 평가 - 분석기법 정기적 개선 [분석 데이터] - 분석 업무를 위한 데이터 충분성 - 분석 업무를 위한 데이터 신뢰성 - 분석 업무를 위한 데이터 적시성 - 비구조적 .. 2022. 8. 10.
[ADP-2] ETL / ODS / DW / 스타 스키마 & 스노우 플래이크 스키마 / CDC / EAI / 데이터 연계 및 통합 기법 요약 / 대규모 분산 병렬 처리(하둡) ETL - Extraction, Transformation and Load - 추출, 변형, 적재 - 데이터 이동과 변환 절차와 관련한 업계 표준 용어 - 데이터 웨어하우스(DW), 운영 데이터 스토어(ODS), 데이터마트(DM)에 대한 데이터 적재 작업의 핵심 구성요소로서, 데이터 통합(Data Integration), 데이터 이동(Data Migration), 마스터 데이터 관리(MDM; Master Data Management)에 걸쳐 폭넓게 활용됨 Extraction(추출) 하나 또는 그 이상의 데이터 원천들로부터 데이터 획득 Transformation(변형) 데이터 클렌징, 형식 변환, 표준화, 통합 또는 다수 애플리케이션에 내장된 비즈니스 룰 적용 등 Load(적재) 위 변형 단계 처리가 완료.. 2022. 7. 25.
[홀로서기 #10] 하이퍼 파라미터 튜닝 & Feature Engineering 경험하기 (Feat. 다중공선성, VIF, Z-test) # 홀로서기 기획 연재물은 최근 개인 프로젝트를 진행하면서 겪은 어려움들을 기록한 지극히 개인적인 콘텐츠입니다. Isolation Forest의 하이퍼 파라미터...? 하이퍼 파라미터(Hyper parameter)는 초매개변수라고도 하며, 모델링할 때 사용자가 직접 세팅해주는 값을 뜻한다. 베이스라인에서 성능을 대폭 올릴 수는 없지만, 어느 정도 상위로 끌어올리기 위해서는 하이퍼 파라미터를 튜닝하는 작업이 필요하다. 보통은 GridSearchCV(그리드서치 교차검증)를 통해서, 교차검증과 최적의 하이퍼파라미터 튜닝을 한번에 수행하는 것이 일반적인 듯하다. 하지만, 내 프로젝트에서 사용하기 어렵다는 것을 알게 되었다. 그래서 그냥 파라미터를 일일히 리스트에 넣어서 for문으로 돌려버렸다. GridSearc.. 2022. 7. 15.
[SQL로 맛보는 데이터 전처리 분석] 자동차 매출 데이터를 이용한 지표 추출(실습) - 3 데이터셋 - MySQL에서 제공하는 샘플 데이터셋을 활용함 - https://www.mysqltutorial.org/mysql-sample-database.aspx MySQL Sample Database This page provides you with a MySQL sample database that helps you to practice with MySQL effectively and quickly. You can download the sample database and load it into your MySQL Server. www.mysqltutorial.org - 지난 포스팅에 이어서 실습 진행함 (아래 링크를 통해 실습 2로 이동할 수 있다) [SQL로 맛보는 데이터 전처리 분석] 자동차 .. 2022. 7. 14.
[홀로서기 #09] 이상 탐지 모델링 베이스라인(Isolation Forest) 빠르게 훑기 # 홀로서기 기획 연재물은 최근 개인 프로젝트를 진행하면서 겪은 어려움들을 기록한 지극히 개인적인 콘텐츠입니다. 비지도학습 기반 이상탐지 모델 비지도학습에 활용되는 ML 모델로는 크게 아래와 같이 정리된다. (물론 딥러닝이나 최신 모델도 많지만 내 구글링 기준으로..) 1. Isolation Forest (가장 흔하고 쉽고 인기 있는 모델, 트리 기반) 2. Local Outlier Factor Algorithm (근접 기반) 3. One Class SVM 4. Random Cut Forest(Isolation Forest 변형) IF는 흔히 AI콘테스트에서 이상탐지 모델링 문제가 나왔을 때, 베이스라인 코드로도 많이 활용되는 기초 모델이다. 한번도 활용해본 적이 없기 때문에, 현재 내 프로젝트 데이터를.. 2022. 7. 14.
[홀로서기 #08] 이상 탐지(Anomaly Detection) 베이직. # 홀로서기 기획 연재물은 최근 개인 프로젝트를 진행하면서 겪은 어려움들을 기록한 지극히 개인적인 콘텐츠입니다. 하찮은 변명을 잠시.. 부트캠프 이후에 최근 데이터분석가로 취업하고, 포스팅 작업을 잠시 쉬었다. 그러면서 자연스럽게, 예전에 진행하던 데이터 프로젝트를 기록하지 못했다. 최근에 분석가로서 자신을 돌아보면서, 학문에 많이 소홀해졌다는 생각이 들어서, 이렇게 다시 포스트를 쓰고 있다. 이전 포스트를 확인해보니 이상탐지 모델링에 꽤나 진심이었던거 같기도 하다. 당시에 많은 논문들도 리뷰하면서 딥러닝 모델을 꾸렸었는데, 결론적으로 해당 프로젝트 모델 성능은 좋지 않았다. 원인을 생각해보면 하나는, 전처리 이슈, 다른 하나는 적합한 모델을 사용하지 않았다는 판단도 선다. 그래서 이상탐지와 관련한 기본.. 2022. 7. 13.
Gradient-Based Optimization Off-the-shelf gradient-based optimization Gradient descent, L-BFGS, Conjugate gradient 등 방법 들이 있습니다. 그러나 위 방법들은 매개변수(parameters)가 많아질 수록 시간이 오래걸립니다. 그 이유는 훈련 샘플 전체의 Loss 는 각 샘플에 대한 Loss 의 합으로 구해지며, 데이터가 많아 질수록 오래 걸리기 때문입니다. 확률적 경사 하강법(Stochastic Gradient descent) 1. M개의 훈련 샘플을 선택합니다. 이를 미니배치(Mini batch) 라고 합니다. 2. 미니배치 경사를 계산합니다. 3. 매개변수를 업데이트합니다. 4. 검증 세트로 구한 validation loss 가 더 이상 진전이 없을때까지 진행.. 2022. 3. 28.
Optimization methods Loss 는 비순환그래프(DAG)를 거쳐 계산됩니다. 가설이 무수히 많기 때문에 모든 것을 다 시도해보고 최적인 것을 고를 수가 없습니다. 따라서, 일단 아무 곳을 선택한 후에 Loss 를 낮추는 방향으로 최적화를 진행합니다. 방법: Local, Iterative Optimization: Random Guided Search 장점: 어떤 비용함수를 사용해도 무관합니다. 단점: 차원이 작을 때는 잘 되지만, 차원의 저주 때문에 커질 수록 오래걸립니다. 샘플링(sampling) 에 따라서 오래걸립니다. Gradient-based Optimization: 미분을 통해 최적화 할 방향을 정합니다 장점: Random Guided search 에 비해서 탐색영역은 작지만 확실한 방향은 정할 수 있습니다. 단점: 학.. 2022. 3. 28.
Hypothesis Set 가설 집합은 무수히 많습니다. 머신러닝 접근 방법, 모델 구조, 하이퍼파라미터등 요소를 하나씩 변화할 때 마다 가설 하나가 세워지기 때문입니다. 이번 강의 에서는 딥러닝에 한정 지어서 이야기 하겠습니다. 네트워크 아키텍처가 정해지면, 하나의 가설 집합이 됩니다. 각기 다른 가중치 매개변수 값에 따라서 가설 집합에 속한 모델이 달라집니다. 그렇다면 네트워크 아키텍처를 어떻게 정해야 할까요? 명확한 정답은 없습니다. 다만 네트워크 아키텍처가 정해지면 그 뒤부터는 모든 것이 자동화 과정으로 넘어가는데, 어떻게 이것이 가능한지 알아봅시다. 인공신경망은 무엇일까요? 비순환 그래프(DAG) 라고 할 수 있습니다. 각 노드들은 이미 Tensorflow, Pytorch 등 패키지에서 잘 정의되어 있습니다. 여러분은 이.. 2022. 3. 28.
반응형