CRISP-DM 분석 방법론
- Cross Industry Standard Process for Data Mining
- 1996년 유럽연합의 ESPRIT에서 있었던 프로젝트에서 시작되었고
- DaimlerChryrler, SPSS, NCR 등이 참여
- 1999년 첫 버전 발표
- [구성] 계층적 프로세스 모델로써, 4개 레벨로 구성되어 있음
1) 최상위 레벨은 여러 개의 단계(Phases)로 구성됨
2) 각 단계는 일반화 태스크(Generic Tasks)를 포함 - 일반화 태스크는 DM의 단일 프로세스를 완전 수행하는 단위
3) 세분화 태스크는 일반화 태스크를 구체적으로 수행하는 레벨
ex) 데이터 정제 <일반화 태스크> - 범주형 데이터 정제, 연속형 데이터 정제, ... <세분화 태스크>
4) 프로세스 실행(Process Instance)은 DM을 위한 구체적인 실행을 포함함
- [프로세스] CRISP-DM 프로세스는 6단계로 구성되어 있음
1) 업무 이해 (Business Understanding) |
- 비즈니스 관점에서 프로젝트의 목적과 요구사항을 이해하기 위한 단계 - 도메인 지식을 데이터 분석을 위한 문제 정의로 변경하고 초기 프로젝트 계획을 수립하는 단계 |
- 업무 목적 파악 - 상황 파악 - 데이터 마이닝 목표 설정 - 프로젝트 계획 수립 |
2) 데이터 이해 (Data Understanding) |
- 분석을 위한 데이터를 수집하고 데이터 속성을 이해하기 위한 과정 - 데이터 품질에 대한 문제점을 식별하고 숨겨져 있는 인사이트를 발견하는 단계 |
- 초기 데이터 수집 - 데이터 기술 분석 - 데이터 탐색 - 데이터 품질 확인 |
3) 데이터 준비 (Data Preparation) |
- 분석을 위해 수집된 데이터에서 분석 기법에 적합한 데이터셋을 편성하는 단계 - 시간 소요가 많을 수 있음 |
- 분석용 데이터셋 선택 - 데이터 정제 - 분석용 데이터셋 편성 - 데이터 통합 - 데이터 포맷팅 |
4) 모델링 (Modeling) |
- 다양한 모델링 기법과 알고리즘을 선택하고 모델링 과정에서 사용되는 파라미터를 최적화해 나가는 단계 - 모델링 과정에서 데이터셋이 추가로 필요한 경우 데이터 준비 단계를 반복 수행할 수 있음 - 테스트용 프로세스와 데이터셋으로 평가하여 모델 과적합 등의 문제를 발견하고 대응방안을 마련 |
- 모델링 기법 선택 - 모델 테스트 계획 설계 - 모델 작성 - 모델 평가 |
5) 평가 (Evaluation) |
- 모델이 프로젝트의 목적에 부합하는지를 평가함 - 이 단계의 목적은 데이터 마이닝 결과를 수용할 것인지 최종적으로 판단하는 과정임 |
- 분석 결과 평가 - 모델링 과정 평가 - 모델 적용성 평가 |
6) 전개 (Deployment) |
- 실 업무에 적용하기 위한 계획을 수립하고 모니터링과 모델의 유집보수 계획을 마련 - 모델은 적용되는 비즈니스 도메인 특성, 입력되는 데이터의 품질 편차, 운영 모델의 평가 기준 등에 따라 생명주기가 다양하므로 상세한 전개 계획이 필요함 - 마지막 단계이므로 프로젝트 종료 관련 프로세스를 수행하여 프로젝트를 완료시킴 |
- 전개 계획 수립 - 모니터링과 유지보수 계획 수립 - 프로젝트 종료보고서 작성 - 프로젝트 리뷰 |
분석과제 발굴
- 분석 과제를 도출하기 위한 방식은 크게 2가지로 나누어짐
1) 하향식 접근 방식(Top Down Approach)
- 문제가 주어지고 이에 대한 해법을 찾기 위하여 각 과정이 체계적으로 단계화되어 수행하는 방식
- Optimization → Solution
- Problem Solving
2) 상향식 접근 방식(Bottom Up Approach)
- 문제의 정의 자체가 어려운 경우 데이터를 기반으로 문제를 재정의 및 해결방안을 탐색하고 이를 지속적으로 개선하는 방식
- Discovery → Insight
- Problem Creation
- 디자인 씽킹(Design Thinking; 디자인 사고) 프로세스
: 새로운 상품을 개발하거나 전략 수립 등 중요한 의사결정을 할 때 가능한 옵션을 도출하는 상향식 접근 방식의 발산(Diverge) 단계와 도출된 옵션을 분석하고 검증하는 하향식 접근 방식의 수렴(Converge) 단계를 반복적으로 수행하는 식으로 상호 보완하는 것이 동적인 환경에서 분석의 가치를 높일 수 있는 최적의 의사결정 방식
하향식 접근법 (Top Down Approach)
- 현황 분석을 통해 또는 인식된 문제점 혹은 전략으로부터 기회나 문제를 탐색하고 해당 문제를 데이터 문제로 정의한 후 해결방안 탐색, 그리고 데이터 분석의 타당성 평가를 거쳐 분석 과제를 도출하는 과정
- 문제 탐색 - 문제정의 - 해결방안 탐색 - 타당성 검토
1) 문제 탐색(Problem Discovery)
- 기업 내외부 환경을 포괄하는 비즈니스 모델과 외부 참조모델이 있음
- 과제 발굴 단계에서는 현재 데이터를 소유하고 있는지, 이를 해결하기 위한 방안은 무엇인지 등에 대한 세부적인 구현 및 솔루션에 중점을 두는 것이 아니라 문제를 해결함으로써 발생하는 가치에 중점을 두는 것이 중요함
① 비즈니스 모델 기반 문제 탐색
- 기업의 사업 모델을 도식화한 비즈니스 모델 캔버스의 9가지 블록을 단순화하여,
- 업무(Operation), 제품(Product), 고객(Customer) 단위로 문제를 발굴하고,
- 이를 관리하는 규제와 감사(Audit & Regulation)와 지원 인프라(IT & Human Resource)에 대한 기회를 추가 도출하는 작업
업무 | - 제품 및 서비스를 생산하기 위해서 운영하는 내부 프로세스 및 주요 자원 관련 주제 도출 - ex) 생산 공정 최적화, 재고량 최소화 |
제품 | - 생산 및 제공하는 제품, 서비스를 개선하기 위한 관련 주제 도출 - ex) 제품의 주요 기능 개선, 서비스 모니터링 지표 도출 등 |
고객 | 제품, 서비스를 제공받는 사용자 및 고객, 이를 제공하는 채널의 관점에서 관련 주제 도출 - ex) 고객 Call 대기 시간 최소화, 영업점 위치 최적화 |
규제와 감사 | - 제품 생산 및 전달 과정 프로세스 중 발생하는 규제 및 보안의 관점에서 주제 도출 - ex) 제공 서비스 품질의 이상 징후 관리, 새로운 환경 규제 시 예상되는 제품 추출 등 |
지원 인프라 | - 분석을 수행하는 시스템 영역 및 이를 운영, 관리하는 인력의 관점에서 주제 도출 - ex) EDW 최적화, 적정 운영 인력 도출 등 |
- 현재의 사업 방식 및 비즈니스에 대한 문제 해결은 최적화 및 단기 과제 형식으로 도출될 가능성이 큼
- 새로운 문제의 발굴 및 장기적인 접근을 위해서는 기업이 현재 수행하고 있는 비즈니스 뿐 아니라 환경과 경쟁 구도의 변화 및 역량의 재해석을 통한 "혁신"의 관점에서 분석 기회를 추가 도출하는 것이 요구됨
- 거시적 관점(STEEP; 사회, 기술, 경제, 환경, 정치), 경쟁자 확대 관점(대체재, 경쟁자, 신규 진입자), 시장의 니즈 탐색 관점(고객, 채널, 영향자들), 역량의 재해석 관점(내부 역량, 파트너와 네트워크 영역)
② 외부 참조 모델 기반 문제 탐색
- 잘 알려진 문제를 푸는 것 뿐만 아니라 새로운 문제를 발굴하기 위해서는 유사, 동종의 환경에서 기존에 수행한 분석 과제를 살펴보는 것도 주요한 시사점을 선사함
- 유사, 동종 사례 벤치마킹을 통한 분석기회 발굴 -> 산업별 업무 서비스별 분석 테마 후보 그룹을 통해 Quick & Easy 방식으로 필요한 분석 기회가 무엇인지 아이디어를 얻고 워크숍 형태의 브레인스토밍을 통해 빠르게 도출
③ 분석 유즈 케이스(Analytics Use Case) 정의
- 현재의 BM 및 유사 동종사례 탐색을 통해 빠짐없이 도출한 분석 기회들을 구체적인 과제로 만들기에 앞서,
- 분석 유즈 케이스로 표기하는 것이 필요함
- 분석 유즈 케이스 : 풀어야 할 문제에 대한 상세한 설명 및 해당 문제를 해결했을 때 발생하는 효과 명시 - 향후 데이터 분석 문제로의 전환 및 적합성 평가에 활용하도록 함
2) 문제 정의(Problem Definition)
- 식별된 비즈니스 문제를 데이터의 문제로 변환하여 정의하는 단계
- 필요한 데이터 및 기법(How)을 정의하기 위한 데이터 분석의 문제로의 변환을 수행함
- 데이터 분석 문제의 정의 및 요구사항은 분석을 수행하는 당사자 뿐만 아니라 해당 문제가 잘 해결되었을 때 효용을 얻을 수 있는 최종 사용자(End User) 관점에서 이루어져야 함
3) 해결방안 탐색(Solution Search)
- 정의된 데이터 분석 문제를 해결하기 위한 다양한 방안이 모색됨
- 동일한 데이터 분석문제라고 해도 어떤 데이터 또는 분석 시스템을 사용할 것인지에 따라서 소요되는 예산 및 활용 가능 도구가 다름
- 기존 정보시스템의 단순한 보완으로 분석이 가능한지, 엑셀 등의 간단한 도구로 분석이 가능한지, 또는 하둡 등 분산병렬처리를 활용한 빅데이터 분석 도구를 통해 보다 체계적이고 심도 있는 방안이 고려되는지 등등 여러 대안이 도출될 수 있음
해결방안 탐색 영역 | 분석 역량 (WHO) - (좌)확보 / (우)미확보 | |
분석 기법 및 시스템 (HOW) - (상)기존 시스템 / (하)신규도입 |
기존 시스템 개선 활용 | 교육 및 채용을 통한 역량 확보 |
시스템 고도화 | 전문업체 소싱 |
4) 타당성 검토(Feasibility Study)
- 경제적 타당성 / 데이터 및 기술적 타당성 고려
댓글