본문 바로가기
Data Science/Data Analytics

[ADP-3] 분석 기획 / 분석 주제 유형 / 분석방법론 / 방법론 모델 / KDD 분석 방법론

by 루크 Luke 2022. 7. 29.
반응형

분석 기획

- IT 기술 및 분석 기법에 치우치는 경향을 조심해야 함

- 수학/통계학적 지식 및 해킹 기술(IT) 뿐만 아니라 해당 비즈니스에 대한 이해와 전문성을 포함

- 분석을 기획한다는 것은 해당 문제 영역에 대한 전문성 역량 및 수학/통계학적 지식을 활용한 분석 역량과 분석의 도구인 데이터 및 프로그래밍 기술 역량에 대한 균형잡힌 시각을 가지고 방향성 및 계획을 수립해야 한다는 것을 의미

 

분석 주제 유형

- 분석은 분석의 대상(WHAT), 방법(HOW)에 따라서 4가지로 나뉨

HOW \ WHAT Known Un-Known
Known Optimization
(최적화)
Insight
(통찰)
Un-Known Solution
(솔루션)
Discovery
(발견)

- 문제 및 방법을 인지하고 있는 '개선을 통한 최적화' 유형의 분석 주제로 문제를 접근했지만, 새로운 유형의 주제를 '발견'하거나, 새로운 '솔루션'을 도출하게 되는 경우가 자주 발생함

- 또, 분석은 목표 시점에 따라서 2가지로 나뉨 : 단기/장기

구분 과제 단위 (단기)
- 당면한 분석 주제의 해결
마스터 플랜 단위(장기)
- 지속적 분석 문화 내재화
1차 목표 Speed & Test Accuracy & Deploy
과제 유형 Quick0Win Long Term View
접근 방식 Problem Solving Problem Definition

 

분석 기획 시 고려사항

- 분석 기획이 어떤 목표(WHAT)를 달성하기 위하여(WHY) 어떤 데이터를 가지고 어떤 방식으로(HOW) 수행할 지에 대한 일련의 계획 수립 과정이라고 할 때, 고려사항은 아래 3가지임

1) 가용한 데이터 (Available Data)

  - 분석을 위한 데이터의 확보가 필수적이고, 유형에 따라 적용 가능한 솔루션과 분석 방법이 달라짐

2) 적절한 유스케이스 (Proper Business Use Case)

  - 분석을 통해서 가치가 창출될 수 있는 적절한 활용 방안과 활용 가능한 유스케이스의 탐색이 필요함

  - 기존에 잘 구현되어 활용되고 있는 유사 분석 시나리오 및 솔루션이 있다면 최대한 활용하는 것이 중요함

3) 분석과제 수행을 위한 장애요소 (Low Barrier of Execution)

  - 정확도를 올리기 위해서는 기간과 투입 리소스가 늘어나게 되는데 이것은 비용 상승으로 이어지기 때문에 많은 고려 필요

  - 또한, 좋은 분석 결과가 나오더라도 분석가만 이해할 수 있는 형태가 아닌 사용자가 쉽게 이해할 수 있도록 방안을 수립해야 함

  - Cost, Simplicity, Performance, Culture 등

 

분석방법론 개요

- 프레이밍효과 (Framing Effect) : 문제의 표현 방식에 따라 동일한 사건이나 상황임에도 불구하고 개인의 판단이나 선택이 달라질 수 있는 현상

- 데이터 분석을 효과적으로 기업 내 정착하기 위해서는 체계화한 절차와 방법이 정리된 데이터 분석 방법론의 수립이 필수적임

- 상세한 절차(Procedures), 방법(Methods), 도구와 기법(Tools & Techniques), 템플릿과 산출물(Templetes & Outputs)

 

방법론 생성 과정

- 개인의 암묵지가 조직의 형식지로 발전하는 형식화 과정을 거치고 이를 체계화하여 문서화한 최적화된 형식지로 전개

- 이렇게 만들어진 방법론은 다시 개인에게 전파되고 활용되는 내재화 과정을 거쳐 암묵지로 발전하는 선순환

- 암묵지 -> 형식지 : 형식화

- 형식지 -> 방법론 : 체계화

- 방법론 -> 암묵지 : 내재화

 

방법론 모델

- 적용 업무 특성에 따라 다양한 모델을 가질 수 있음

폭포수 모델 (Waterfall Model) 단계를 순차적으로 진행하는 방법
- 이전 단계가 완료되어야 다음 단계로 진행됨
- 하향식(Top Down)으로 진행
- 문제나 개선사항이 발견되면 전 단계로 돌아가는 피드백(Feedback) 과정이 수행되기도 함
나선형 모델 (Spiral Model) 반복을 통하여 점증적으로 개발하는 방법
- 처음 시도하는 프로젝트에 적용 용이
- 반복에 대한 관리 체계를 효과적으로 갖추지 못하면 복잡도가 상승하여 프로젝트 진행이 어려움
프로토타입 모델 (Prototype Model) 폭포수 모델의 단점 보완
점진적으로 개발하는 방식
일부분을 우선 개발하여 사용자에게 제공하고 추후 진행
- 계획 수립 - 요구 분석 및 정의 - 프로토타입 평가 - 구현 - 인수 및 설치
- 사용자 요구사항 도출이 용이하고, 요구사항이 불명확할 때 좋음
- 중간단계 산출물의 문서화가 어렵고, 프로토타입 결과를 최종 결과물로 오해할 가능성이 있음

- 일반적으로 방법론은 계층적 프로세스 모델(Stepwised Process Model)의 형태로 구성됨

최상위 계층
(단계, Phase)
- 프로세스 그룹(Process Group)을 통해 완성된 단계별 산출물이 생성되어야 함
- 각 단계는 기준선(Baseline)으로 설정되어 관리되어야 하며 버전관리(Configuration Management) 등을 통하여 통제
- 단계별 완료 보고서
- 버전관리
하위 계층
(태스크, Task)
- 각 단계는 여러 개의 태스크(Task)로 구성
- 단계를 구성하는 단위 활동으로써 물리적 또는 논리적 단위로 품질 검토의 항목이 될 수 있음
- 보고서
마지막 계층
(스텝, Step)
- WBS(Work Breakdown Structure)의 워크패키지(Work Package)
- 입력자료(Input), 처리 및 도구(Process & Tool), 출력자료(Output)로 구성된 단위 프로세스임
- 보고서 구성 요소
- 입력자료(Input), 처리 및 도구(Process & Tool), 출력자료(Output)

 

KDD 분석 방법론

- KDD; Knowledge Discovery in Databases

- 1996년 Fayyad가 체계적으로 정리한 데이터 마이닝 프로세스

- 데이터베이스에서 의미있는 지식을 탐색하는 데이터 마이닝부터 기계학습, 인공지능, 패턴인식, 데이터 시각화 등에서 응용 가능

- KDD의 패턴 찾기 과정

1) 분석 대상 비즈니스 도메인의 이해
2) 분석 대상 데이터셋 선택과 생성 (Selection)
3) 데이터에 포함되어 있는 노이즈(Noise)와 이상값(Outlier) 등을 제거하는 정제작업이나 선처리 (Preprocessing)
4) 분석 목적에 맞는 변수를 찾고 필요시 데이터의 차원을 축소하는 데이터 변경 (Transformation)
5) 분석 목적에 맞는 데이터 마이닝 기법 선택
6) 분석 목적에 맞는 데이터 마이닝 알고리즘 선택
7) 데이터 마이닝 수행 (Data Mining)
8) 데이터 마이닝 결과에 대한 해석 (Interpretation / Evaluation)
9) 데이터 마이닝에서 발견된 지식 활용 (Knowledge)

- KDD 방법론 5개 과정

데이터셋 선택
(Selection)
- 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트의 목표를 정확하게 설정
- DB 또는 원시 데이터에서 분석에 필요한 데이터를 선택하고 필요한 경우 추가적으로 데이터셋 생성
- 데이터 마이닝에 필요한 목표 데이터(Target Data)를 구성하고 다음 단계인 데이터 전처리 프로세스를 통하여 데이터셋 추가가 요구되는 경우에 선택 프로세스를 반복할 수 있음
데이터 전처리
(Preprocessing)
- 데이터셋 선택 프로세스에서 추출된 분석 대상용 데이터셋에 포함되어 있는 잡음(Noise)과 이상값(Outlier), 결측치(Missing Value)를 식별하고 필요시 제거하거나 의미있는 데이터로 처리하는 데ㅐ이터셋 정제작업 시행
- 추가적인 데이터셋이 필요한 경우 데이터셋 선택 프로세스를 반복할 수 있음
데이터 변환
(Transformation)
- 분석 목적에 맞는 변수를 선택하거나 차원을 축소하여 데이터 마이닝을 효율적으로 적용할 수 있도록 함
데이터 마이닝
(Data Mining)
- 분석 목적에 맞는 데이터 마이닝 기법을 선택하고 데이터 마이닝 알고리즘을 선택하여 데이터의 패턴을 찾거나 데이터를 분류 또는 예측 등의 마이닝 작업 시행
- 데이터 전처리, 변환 프로세스를 병행할 수 있음
데이터 마이닝 평가 결과
(Interpretation / Evaluation)
- 데이터 마이닝 결과에 대한 해석과 평가, 분석 목적과의 일치성을 확인함
- 발견된 지식을 업무에 활용하기 위한 방안을 찾고 필요에 따라 데이터셋 선택 프로세스부터 데이터 마이닝 프로세스를 반복해서 수행함

 

반응형

댓글