본문 바로가기
반응형

데이터분석기초6

[ADP-11] R을 활용한 데이터 기초 통계 / 결측값 처리 / 이상값 탐색 데이터 기초 통계 head(df) # 데이터에서 앞 6줄만 보도록 함 head(df, 10) # 숫자를 넣어주면 원하는 개수만큼 볼 수 있음 str(df) # 데이터의 구조를 파악할 수 있도록 보여줌 summary(df) # 데이터의 기초 통계량을 볼 수 있음 cov(df[, 1:4]) # 컬럼 1~4의 공분산을 구해줌 cor(df[, 1:4]) # 컬럼 1~4의 상관계수를 구해줌 결측값 처리 - R에서 결측값 처리 관련 패키지는 Amelia 2, Mice, mistools 등이 있으며, Amelia가 대표적임 - R에서 결측값은 NA(Not available)로 처리함 - 불가능한 값(예를 들면 dividing by zero)는 NaN(Not a Number)으로 처리됨 - is.na(y) : 결측값인.. 2022. 8. 16.
[ADP-7] 데이터 분석 준비도 프레임워크 / 분석 성숙도 모델 / 데이터 거버넌스 / 데이터 거버넌스 체계 / 데이터 분석 조직 구조 데이터 분석 준비도 프레임워크 - 분석 준비도 : 기업의 데이터 분석 도입의 수준을 파악하기 위한 진단 방법 [분석 업무 파악] - 발생한 사실 분석 업무 - 예측 분석 업무 - 시뮬레이션 분석 업무 - 최적화 분석 업무 - 분석 업무 정기적 개선 [인력 및 조직] - 분석 전문가 직무 존재 - 분석 전문가 교육 훈련 프로그램 - 관리자들의 기본적 분석 능력 - 전사 분석 업무 총괄 조직 존재 - 경영진 분석 업무 이해 능력 [분석 기법] - 업무별 적합한 분석기법 사용 - 분석 업무 도입 방법론 - 분석기법 라이브러리 - 분석기법 효과성 평가 - 분석기법 정기적 개선 [분석 데이터] - 분석 업무를 위한 데이터 충분성 - 분석 업무를 위한 데이터 신뢰성 - 분석 업무를 위한 데이터 적시성 - 비구조적 .. 2022. 8. 10.
[ADP-4] CRISP-DM 분석 방법론 / 분석과제 발굴 / 디자인사고(Design Thinking) / 하향식 접근법 (Top Down Approach) CRISP-DM 분석 방법론 - Cross Industry Standard Process for Data Mining - 1996년 유럽연합의 ESPRIT에서 있었던 프로젝트에서 시작되었고 - DaimlerChryrler, SPSS, NCR 등이 참여 - 1999년 첫 버전 발표 - [구성] 계층적 프로세스 모델로써, 4개 레벨로 구성되어 있음 1) 최상위 레벨은 여러 개의 단계(Phases)로 구성됨 2) 각 단계는 일반화 태스크(Generic Tasks)를 포함 - 일반화 태스크는 DM의 단일 프로세스를 완전 수행하는 단위 3) 세분화 태스크는 일반화 태스크를 구체적으로 수행하는 레벨 ex) 데이터 정제 - 범주형 데이터 정제, 연속형 데이터 정제, ... 4) 프로세스 실행(Process Insta.. 2022. 8. 2.
[ADP-3] 분석 기획 / 분석 주제 유형 / 분석방법론 / 방법론 모델 / KDD 분석 방법론 분석 기획 - IT 기술 및 분석 기법에 치우치는 경향을 조심해야 함 - 수학/통계학적 지식 및 해킹 기술(IT) 뿐만 아니라 해당 비즈니스에 대한 이해와 전문성을 포함 - 분석을 기획한다는 것은 해당 문제 영역에 대한 전문성 역량 및 수학/통계학적 지식을 활용한 분석 역량과 분석의 도구인 데이터 및 프로그래밍 기술 역량에 대한 균형잡힌 시각을 가지고 방향성 및 계획을 수립해야 한다는 것을 의미 분석 주제 유형 - 분석은 분석의 대상(WHAT), 방법(HOW)에 따라서 4가지로 나뉨 HOW \ WHAT Known Un-Known Known Optimization (최적화) Insight (통찰) Un-Known Solution (솔루션) Discovery (발견) - 문제 및 방법을 인지하고 있는 '개선.. 2022. 7. 29.
[ADP-1] 데이터 구분 / 지식경영(암묵지, 형식지) / DIKW / 데이터베이스 / 빅데이터 정의, 특징, 기능 정성/정량 데이터 구분 구 분 형 태 예 시 정성적 데이터 Qualitative Data 언어, 문자 등 회사 매출이 증가함 설문조사의 주관식 응답 트위터나 페이스북, 블로그 등 글 정량적 데이터 Quantative Data 수치, 도형, 기호 등 나이, 몸무게 지역별 온도, 풍속, 강우량 등 지식 경영(LM; Knowledge Management)과 지식 순환 구 분 설 명 예 시 상호작용 암묵지 (Tacit Kkowledge) 학습과 체험을 통해 개인에게 습득되어 있지만 겉으로 드러나지 않는 지식 - 시행착오와 오랜 경험을 통해 개인에게 습득된 무형의 지식 김장김치 담그기 자전거 타기 공통화 = 사회화, 공유화 Socialization - 암묵지 → 암묵지 내면화 Interalization - 형식지.. 2022. 7. 18.
[4일차] 파이썬으로 코딩 예제 풀고, 기초수학 출발 [연습문제] - 점수별 결과 출력 프로그램 코딩 연습 # 점수 입력받기 score = [0,0,0,0,0] score[0] = int(input("국어 점수를 입력하세요.")) score[1] = int(input("영어 점수를 입력하세요.")) score[2] = int(input("수학 점수를 입력하세요.")) score[3] = int(input("과학 점수를 입력하세요.")) score[4] = int(input("국사 점수를 입력하세요.")) #총점, 평균, 편차 출력 index = ['국어', '영어', '수학', '과학', '국사'] everyone = [85, 82, 89, 75, 94] sum_everyone = sum(everyone) avr_everyone = int(sum_every.. 2021. 10. 12.
반응형