본문 바로가기
Data Science/Data Analytics

[ADP-4] CRISP-DM 분석 방법론 / 분석과제 발굴 / 디자인사고(Design Thinking) / 하향식 접근법 (Top Down Approach)

by 루크 Luke 2022. 8. 2.
반응형

CRISP-DM 분석 방법론

- Cross Industry Standard Process for Data Mining

- 1996년 유럽연합의 ESPRIT에서 있었던 프로젝트에서 시작되었고

- DaimlerChryrler, SPSS, NCR 등이 참여

- 1999년 첫 버전 발표

 

- [구성] 계층적 프로세스 모델로써, 4개 레벨로 구성되어 있음

  1) 최상위 레벨은 여러 개의 단계(Phases)로 구성됨

  2) 각 단계는 일반화 태스크(Generic Tasks)를 포함 - 일반화 태스크는 DM의 단일 프로세스를 완전 수행하는 단위

  3) 세분화 태스크는 일반화 태스크를 구체적으로 수행하는 레벨

    ex) 데이터 정제 <일반화 태스크> - 범주형 데이터 정제, 연속형 데이터 정제, ... <세분화 태스크>

  4) 프로세스 실행(Process Instance)은 DM을 위한 구체적인 실행을 포함함

 

- [프로세스] CRISP-DM 프로세스는 6단계로 구성되어 있음

1) 업무 이해
(Business Understanding)
- 비즈니스 관점에서 프로젝트의 목적과 요구사항을 이해하기 위한 단계
- 도메인 지식을 데이터 분석을 위한 문제 정의로 변경하고 초기 프로젝트 계획을 수립하는 단계
- 업무 목적 파악
- 상황 파악
- 데이터 마이닝 목표 설정
- 프로젝트 계획 수립
2) 데이터 이해
(Data Understanding)
- 분석을 위한 데이터를 수집하고 데이터 속성을 이해하기 위한 과정
- 데이터 품질에 대한 문제점을 식별하고 숨겨져 있는 인사이트를 발견하는 단계
- 초기 데이터 수집
- 데이터 기술 분석
- 데이터 탐색
- 데이터 품질 확인
3) 데이터 준비
(Data Preparation)
- 분석을 위해 수집된 데이터에서 분석 기법에 적합한 데이터셋을 편성하는 단계
- 시간 소요가 많을 수 있음
- 분석용 데이터셋 선택
- 데이터 정제
- 분석용 데이터셋 편성
- 데이터 통합
- 데이터 포맷팅
4) 모델링
(Modeling)
- 다양한 모델링 기법과 알고리즘을 선택하고 모델링 과정에서 사용되는 파라미터를 최적화해 나가는 단계
- 모델링 과정에서 데이터셋이 추가로 필요한 경우 데이터 준비 단계를 반복 수행할 수 있음
- 테스트용 프로세스와 데이터셋으로 평가하여 모델 과적합 등의 문제를 발견하고 대응방안을 마련
- 모델링 기법 선택
- 모델 테스트 계획 설계
- 모델 작성
- 모델 평가
5) 평가
(Evaluation)
- 모델이 프로젝트의 목적에 부합하는지를 평가함
- 이 단계의 목적은 데이터 마이닝 결과를 수용할 것인지 최종적으로 판단하는 과정임
- 분석 결과 평가
- 모델링 과정 평가
- 모델 적용성 평가
6) 전개
(Deployment)
- 실 업무에 적용하기 위한 계획을 수립하고 모니터링과 모델의 유집보수 계획을 마련
- 모델은 적용되는 비즈니스 도메인 특성, 입력되는 데이터의 품질 편차, 운영 모델의 평가 기준 등에 따라 생명주기가 다양하므로 상세한 전개 계획이 필요함
- 마지막 단계이므로 프로젝트 종료 관련 프로세스를 수행하여 프로젝트를 완료시킴
- 전개 계획 수립
- 모니터링과 유지보수 계획 수립
- 프로젝트 종료보고서 작성
- 프로젝트 리뷰

 

분석과제 발굴

- 분석 과제를 도출하기 위한 방식은 크게 2가지로 나누어짐

  1) 하향식 접근 방식(Top Down Approach)

    - 문제가 주어지고 이에 대한 해법을 찾기 위하여 각 과정이 체계적으로 단계화되어 수행하는 방식

    - Optimization → Solution

    - Problem Solving

  2) 상향식 접근 방식(Bottom Up Approach)

    - 문제의 정의 자체가 어려운 경우 데이터를 기반으로 문제를 재정의 및 해결방안을 탐색하고 이를 지속적으로 개선하는 방식

    - Discovery → Insight

    - Problem Creation

- 디자인 씽킹(Design Thinking; 디자인 사고) 프로세스

   : 새로운 상품을 개발하거나 전략 수립 등 중요한 의사결정을 할 때 가능한 옵션을 도출하는 상향식 접근 방식의 발산(Diverge) 단계와 도출된 옵션을 분석하고 검증하는 하향식 접근 방식의 수렴(Converge) 단계를 반복적으로 수행하는 식으로 상호 보완하는 것이 동적인 환경에서 분석의 가치를 높일 수 있는 최적의 의사결정 방식

 

하향식 접근법 (Top Down Approach)

- 현황 분석을 통해 또는 인식된 문제점 혹은 전략으로부터 기회나 문제를 탐색하고 해당 문제를 데이터 문제로 정의한 후 해결방안 탐색, 그리고 데이터 분석의 타당성 평가를 거쳐 분석 과제를 도출하는 과정

- 문제 탐색 - 문제정의 - 해결방안 탐색 - 타당성 검토

 

1) 문제 탐색(Problem Discovery)

- 기업 내외부 환경을 포괄하는 비즈니스 모델과 외부 참조모델이 있음

- 과제 발굴 단계에서는 현재 데이터를 소유하고 있는지, 이를 해결하기 위한 방안은 무엇인지 등에 대한 세부적인 구현 및 솔루션에 중점을 두는 것이 아니라 문제를 해결함으로써 발생하는 가치에 중점을 두는 것이 중요함

① 비즈니스 모델 기반 문제 탐색

  - 기업의 사업 모델을 도식화한 비즈니스 모델 캔버스의 9가지 블록을 단순화하여,

  - 업무(Operation), 제품(Product), 고객(Customer) 단위로 문제를 발굴하고,

  - 이를 관리하는 규제와 감사(Audit & Regulation)와 지원 인프라(IT & Human Resource)에 대한 기회를 추가 도출하는 작업

업무 - 제품 및 서비스를 생산하기 위해서 운영하는 내부 프로세스 및 주요 자원 관련 주제 도출
- ex) 생산 공정 최적화, 재고량 최소화
제품 - 생산 및 제공하는 제품, 서비스를 개선하기 위한 관련 주제 도출
- ex) 제품의 주요 기능 개선, 서비스 모니터링 지표 도출 등
고객 제품, 서비스를 제공받는 사용자 및 고객, 이를 제공하는 채널의 관점에서 관련 주제 도출
- ex) 고객 Call 대기 시간 최소화, 영업점 위치 최적화
규제와 감사 - 제품 생산 및 전달 과정 프로세스 중 발생하는 규제 및 보안의 관점에서 주제 도출
- ex) 제공 서비스 품질의 이상 징후 관리, 새로운 환경 규제 시 예상되는 제품 추출 등
지원 인프라 - 분석을 수행하는 시스템 영역 및 이를 운영, 관리하는 인력의 관점에서 주제 도출
- ex) EDW 최적화, 적정 운영 인력 도출 등

  - 현재의 사업 방식 및 비즈니스에 대한 문제 해결은 최적화 및 단기 과제 형식으로 도출될 가능성이 큼

  - 새로운 문제의 발굴 및 장기적인 접근을 위해서는 기업이 현재 수행하고 있는 비즈니스 뿐 아니라 환경과 경쟁 구도의 변화 및 역량의 재해석을 통한 "혁신"의 관점에서 분석 기회를 추가 도출하는 것이 요구됨

  - 거시적 관점(STEEP; 사회, 기술, 경제, 환경, 정치), 경쟁자 확대 관점(대체재, 경쟁자, 신규 진입자), 시장의 니즈 탐색 관점(고객, 채널, 영향자들), 역량의 재해석 관점(내부 역량, 파트너와 네트워크 영역)

 

② 외부 참조 모델 기반 문제 탐색

  - 잘 알려진 문제를 푸는 것 뿐만 아니라 새로운 문제를 발굴하기 위해서는 유사, 동종의 환경에서 기존에 수행한 분석 과제를 살펴보는 것도 주요한 시사점을 선사함

  - 유사, 동종 사례 벤치마킹을 통한 분석기회 발굴 -> 산업별 업무 서비스별 분석 테마 후보 그룹을 통해 Quick & Easy 방식으로 필요한 분석 기회가 무엇인지 아이디어를 얻고 워크숍 형태의 브레인스토밍을 통해 빠르게 도출

 

③ 분석 유즈 케이스(Analytics Use Case) 정의

  - 현재의 BM 및 유사 동종사례 탐색을 통해 빠짐없이 도출한 분석 기회들을 구체적인 과제로 만들기에 앞서,

  - 분석 유즈 케이스로 표기하는 것이 필요함

  - 분석 유즈 케이스 : 풀어야 할 문제에 대한 상세한 설명 및 해당 문제를 해결했을 때 발생하는 효과 명시 - 향후 데이터 분석 문제로의 전환 및 적합성 평가에 활용하도록 함

 

2) 문제 정의(Problem Definition)

- 식별된 비즈니스 문제를 데이터의 문제로 변환하여 정의하는 단계

- 필요한 데이터 및 기법(How)을 정의하기 위한 데이터 분석의 문제로의 변환을 수행함

- 데이터 분석 문제의 정의 및 요구사항은 분석을 수행하는 당사자 뿐만 아니라 해당 문제가 잘 해결되었을 때 효용을 얻을 수 있는 최종 사용자(End User) 관점에서 이루어져야 함

 

3) 해결방안 탐색(Solution Search)

- 정의된 데이터 분석 문제를 해결하기 위한 다양한 방안이 모색됨

- 동일한 데이터 분석문제라고 해도 어떤 데이터 또는 분석 시스템을 사용할 것인지에 따라서 소요되는 예산 및 활용 가능 도구가 다름

- 기존 정보시스템의 단순한 보완으로 분석이 가능한지, 엑셀 등의 간단한 도구로 분석이 가능한지, 또는 하둡 등 분산병렬처리를 활용한 빅데이터 분석 도구를 통해 보다 체계적이고 심도 있는 방안이 고려되는지 등등 여러 대안이 도출될 수 있음

해결방안 탐색 영역 분석 역량 (WHO) - (좌)확보 / (우)미확보
분석 기법 및 시스템
(HOW)
-
(상)기존 시스템
/
(하)신규도입
기존 시스템 개선 활용 교육 및 채용을 통한 역량 확보
시스템 고도화 전문업체 소싱

 

4) 타당성 검토(Feasibility Study)

- 경제적 타당성 / 데이터 및 기술적 타당성 고려

반응형

댓글