본문 바로가기
반응형

Data Science92

[ADP-7] 데이터 분석 준비도 프레임워크 / 분석 성숙도 모델 / 데이터 거버넌스 / 데이터 거버넌스 체계 / 데이터 분석 조직 구조 데이터 분석 준비도 프레임워크 - 분석 준비도 : 기업의 데이터 분석 도입의 수준을 파악하기 위한 진단 방법 [분석 업무 파악] - 발생한 사실 분석 업무 - 예측 분석 업무 - 시뮬레이션 분석 업무 - 최적화 분석 업무 - 분석 업무 정기적 개선 [인력 및 조직] - 분석 전문가 직무 존재 - 분석 전문가 교육 훈련 프로그램 - 관리자들의 기본적 분석 능력 - 전사 분석 업무 총괄 조직 존재 - 경영진 분석 업무 이해 능력 [분석 기법] - 업무별 적합한 분석기법 사용 - 분석 업무 도입 방법론 - 분석기법 라이브러리 - 분석기법 효과성 평가 - 분석기법 정기적 개선 [분석 데이터] - 분석 업무를 위한 데이터 충분성 - 분석 업무를 위한 데이터 신뢰성 - 분석 업무를 위한 데이터 적시성 - 비구조적 .. 2022. 8. 10.
[ADP-6] 분석 프로젝트 영역별 주요 관리 항목 / 분석 마스터 플랜 수립 프레임워크 / ISP / 수행 과제 도출 및 우선순위 평가 / 분석과제 우선순위 선정 매트릭스 / 데이터 분석 수준진단 프레임워.. 분석 프로젝트 영역별 주요 관리 항목 범위 (Scope) - 분석 기획단계의 프로젝트 범위가 분석을 진행하면서 데이터의 형태와 양 또는 적용되는 모델의 알고리즘에 따라 범위가 빈번하게 변경됨 - 분석의 최종 결과물이 분석 보고서 형태인지 시스템인지에 따라서 투입되는 자원 및 범위가 크게 변경되므로 사전에 충분한 고려가 필요함 시간 (Time) - 분석 프로젝트는 초기에 의도했던 결과(모델)가 나오기 쉽지 않기 때문에 지속적으로 반복되어 많은 시간이 소요될 수 있음 - 분석 결과에 대한 품질이 보장된다는 전제로 Time Boxing 기법으로 일정관리를 진행하는 것이 좋음 원가 (Cost) - 외부 데이터를 활용한 데이터 분석인 경우 고가의 비용이 소요될 수 있으므로 사전에 충분한 조사가 필요함 - 오픈 소.. 2022. 8. 8.
[ADP-5] 상향식 접근법 (Bottom Up Approach) / 분석과제 정의 / 분석 과제의 주요 5개 특성 및 속성 상향식 접근법 (Bottom Up Approach) - 절차가 규정된 하향식 문제해결 방식이 아닌, - 경험적인 과거 데이터를 무작정 결합하여 상향식으로 정보 혹은 지식을 얻고자 하는 새로운 분석 패러다임 - 기업에서 보유하고 있는 다양한 원천 데이터로부터 분석을 통하여 통찰력과 지식을 얻는 상향식 접근방법 - 다양한 원천 데이터를 대상으로 분석을 수행하여 가치 있는 문제를 도출하는 일련의 과정 1) 기존의 하향식 접근법의 한계를 극복하기 위한 분석 방법론임 - 기존 접근방법인 논리적인 단계별 접근법은 문제의 구조가 분명하고 문제를 해결하고 해결책을 도출하기 위한 데이터가 분석가 및 의사결정자에게 주어져 있음을 가정하기 때문에 솔루션 도출에는 유효하지만 새로운 문제의 탐색에는 한계 - 스탠포드 대학의 d.. 2022. 8. 5.
[ADP-4] CRISP-DM 분석 방법론 / 분석과제 발굴 / 디자인사고(Design Thinking) / 하향식 접근법 (Top Down Approach) CRISP-DM 분석 방법론 - Cross Industry Standard Process for Data Mining - 1996년 유럽연합의 ESPRIT에서 있었던 프로젝트에서 시작되었고 - DaimlerChryrler, SPSS, NCR 등이 참여 - 1999년 첫 버전 발표 - [구성] 계층적 프로세스 모델로써, 4개 레벨로 구성되어 있음 1) 최상위 레벨은 여러 개의 단계(Phases)로 구성됨 2) 각 단계는 일반화 태스크(Generic Tasks)를 포함 - 일반화 태스크는 DM의 단일 프로세스를 완전 수행하는 단위 3) 세분화 태스크는 일반화 태스크를 구체적으로 수행하는 레벨 ex) 데이터 정제 - 범주형 데이터 정제, 연속형 데이터 정제, ... 4) 프로세스 실행(Process Insta.. 2022. 8. 2.
[ADP-3] 분석 기획 / 분석 주제 유형 / 분석방법론 / 방법론 모델 / KDD 분석 방법론 분석 기획 - IT 기술 및 분석 기법에 치우치는 경향을 조심해야 함 - 수학/통계학적 지식 및 해킹 기술(IT) 뿐만 아니라 해당 비즈니스에 대한 이해와 전문성을 포함 - 분석을 기획한다는 것은 해당 문제 영역에 대한 전문성 역량 및 수학/통계학적 지식을 활용한 분석 역량과 분석의 도구인 데이터 및 프로그래밍 기술 역량에 대한 균형잡힌 시각을 가지고 방향성 및 계획을 수립해야 한다는 것을 의미 분석 주제 유형 - 분석은 분석의 대상(WHAT), 방법(HOW)에 따라서 4가지로 나뉨 HOW \ WHAT Known Un-Known Known Optimization (최적화) Insight (통찰) Un-Known Solution (솔루션) Discovery (발견) - 문제 및 방법을 인지하고 있는 '개선.. 2022. 7. 29.
[ADP-2] ETL / ODS / DW / 스타 스키마 & 스노우 플래이크 스키마 / CDC / EAI / 데이터 연계 및 통합 기법 요약 / 대규모 분산 병렬 처리(하둡) ETL - Extraction, Transformation and Load - 추출, 변형, 적재 - 데이터 이동과 변환 절차와 관련한 업계 표준 용어 - 데이터 웨어하우스(DW), 운영 데이터 스토어(ODS), 데이터마트(DM)에 대한 데이터 적재 작업의 핵심 구성요소로서, 데이터 통합(Data Integration), 데이터 이동(Data Migration), 마스터 데이터 관리(MDM; Master Data Management)에 걸쳐 폭넓게 활용됨 Extraction(추출) 하나 또는 그 이상의 데이터 원천들로부터 데이터 획득 Transformation(변형) 데이터 클렌징, 형식 변환, 표준화, 통합 또는 다수 애플리케이션에 내장된 비즈니스 룰 적용 등 Load(적재) 위 변형 단계 처리가 완료.. 2022. 7. 25.
[SQL로 맛보는 데이터 전처리 분석] 상품 리뷰데이터를 이용한 리포트 작성(실습) - 1 데이터셋 - 캐글에 공개되어 있는 여성 의류 이커머스 관련 리뷰 데이터를 활용함 - https://www.kaggle.com/datasets/nicapotato/womens-ecommerce-clothing-reviews Women's E-Commerce Clothing Reviews 23,000 Customer Reviews and Ratings www.kaggle.com - 데이터 모양 확인하기 SELECT * FROM mydata.reviews 1) Division별 평점 분포 계산 - Division별로 평균 Rating을 계산함 SELECT `Division Name`, AVG(Rating) AS AVG_Rating FROM mydata.reviews GROUP BY `Division Name`.. 2022. 7. 22.
[ADP-1] 데이터 구분 / 지식경영(암묵지, 형식지) / DIKW / 데이터베이스 / 빅데이터 정의, 특징, 기능 정성/정량 데이터 구분 구 분 형 태 예 시 정성적 데이터 Qualitative Data 언어, 문자 등 회사 매출이 증가함 설문조사의 주관식 응답 트위터나 페이스북, 블로그 등 글 정량적 데이터 Quantative Data 수치, 도형, 기호 등 나이, 몸무게 지역별 온도, 풍속, 강우량 등 지식 경영(LM; Knowledge Management)과 지식 순환 구 분 설 명 예 시 상호작용 암묵지 (Tacit Kkowledge) 학습과 체험을 통해 개인에게 습득되어 있지만 겉으로 드러나지 않는 지식 - 시행착오와 오랜 경험을 통해 개인에게 습득된 무형의 지식 김장김치 담그기 자전거 타기 공통화 = 사회화, 공유화 Socialization - 암묵지 → 암묵지 내면화 Interalization - 형식지.. 2022. 7. 18.
[홀로서기 #10] 하이퍼 파라미터 튜닝 & Feature Engineering 경험하기 (Feat. 다중공선성, VIF, Z-test) # 홀로서기 기획 연재물은 최근 개인 프로젝트를 진행하면서 겪은 어려움들을 기록한 지극히 개인적인 콘텐츠입니다. Isolation Forest의 하이퍼 파라미터...? 하이퍼 파라미터(Hyper parameter)는 초매개변수라고도 하며, 모델링할 때 사용자가 직접 세팅해주는 값을 뜻한다. 베이스라인에서 성능을 대폭 올릴 수는 없지만, 어느 정도 상위로 끌어올리기 위해서는 하이퍼 파라미터를 튜닝하는 작업이 필요하다. 보통은 GridSearchCV(그리드서치 교차검증)를 통해서, 교차검증과 최적의 하이퍼파라미터 튜닝을 한번에 수행하는 것이 일반적인 듯하다. 하지만, 내 프로젝트에서 사용하기 어렵다는 것을 알게 되었다. 그래서 그냥 파라미터를 일일히 리스트에 넣어서 for문으로 돌려버렸다. GridSearc.. 2022. 7. 15.
반응형