본문 바로가기
반응형

AdSP8

[ADP-13] 회귀분석 모형 적절성 평가 / 설명변수 선택 / 상관분석 / 다차원척도법(MDS) / 주성분분석 회귀분석 모형 적절성 평가 1) 모형이 통계적으로 유의미한가? - F통계량을 확인함 - 유의수준 5% 하에서 F통계량의 p-value값이 0.05보다 작으면 추정된 회귀식은 통계적으로 유의함 2) 회귀계수들이 유의미한가? - 해당 계수의 t통계량과 p-value값 또는 이들의 신뢰구간을 확인함 3) 모형이 얼마나 설명력을 갖는가? - 결정계수를 확인함 - 결정계수는 0에서 1 값을 가지며, 높은 값을 가질수록 추정된 회귀식의 설명력이 높음 4) 모형이 데이터를 잘 적합하고 있는가? - 잔차를 그래프로 그리고 회귀진단을 함 5) 데이터가 아래 모형의 가정을 만족시키는가? - 선형성 / 독립성 / 등분산성 / 비상관성 / 정상성 선형성 독립변수의 변화에 따라 종속변수도 일정 크기로 변화함 독립성 잔차와 독립.. 2022. 8. 17.
[ADP-12] 통계학 정의 / 모집단과 표본/ 표본추출방법 / 자료의 종류 / 확률 및 확률변수 / 점추정과 구간추정 / 가설검정 / 비모수검정 통계학 정의 - 매일 발표되는 일기예보, 물가, 실업률, GNP 등과 같은 경제통계, 각 정당에 대한 지지도 조사나 가족법 개정에 대한 의식 조가와 같은 사회조사 분석 통계, 새로운 희귀병 치료제의 임상실험 결과와 같은 실험결과 분석 통계 등 - 자료로부터 유용한 정보를 이끌어 내는 학문 - 유용한 정보를 이끌어 내는 작업에는 자료의 수집과 정리, 그리고 이를 해석하는 방법 등을 모두 포함 모집단과 표본 - 모집단 : 우리가 알고자 하는 전체 - 모집단을 구성하는 개체를 추출단위 혹은 원소라고 함 - 모집단에 대해 조사하는 방법에는 총조사(census)와 표본조사로 나뉨 - 총조사 : 모집단의 개체 모두를 조사하는 방법, 많은 비용과 시간이 소요 - 표본조사 : 일부분만 조사하여 모집단에 대해 추론하는 .. 2022. 8. 17.
[ADP-11] R을 활용한 데이터 기초 통계 / 결측값 처리 / 이상값 탐색 데이터 기초 통계 head(df) # 데이터에서 앞 6줄만 보도록 함 head(df, 10) # 숫자를 넣어주면 원하는 개수만큼 볼 수 있음 str(df) # 데이터의 구조를 파악할 수 있도록 보여줌 summary(df) # 데이터의 기초 통계량을 볼 수 있음 cov(df[, 1:4]) # 컬럼 1~4의 공분산을 구해줌 cor(df[, 1:4]) # 컬럼 1~4의 상관계수를 구해줌 결측값 처리 - R에서 결측값 처리 관련 패키지는 Amelia 2, Mice, mistools 등이 있으며, Amelia가 대표적임 - R에서 결측값은 NA(Not available)로 처리함 - 불가능한 값(예를 들면 dividing by zero)는 NaN(Not a Number)으로 처리됨 - is.na(y) : 결측값인.. 2022. 8. 16.
[ADP-9] R 외부 데이터 불러오기 / R의 기초함수 / R 데이터 핸들링 / R 반복 구문과 조건문 외부 데이터 불러오기 - R은 다양한 형태의 외부 데이터를 불러올 수 있음 - csv, txt, xls, xlsx파일을 R로 불러올 수 있음 - 경로 지정할 때는 '\' 대신에 '\\'이나 '/'을 사용함 - CSV 파일 불러오기 data1 2022. 8. 16.
[ADP-7] 데이터 분석 준비도 프레임워크 / 분석 성숙도 모델 / 데이터 거버넌스 / 데이터 거버넌스 체계 / 데이터 분석 조직 구조 데이터 분석 준비도 프레임워크 - 분석 준비도 : 기업의 데이터 분석 도입의 수준을 파악하기 위한 진단 방법 [분석 업무 파악] - 발생한 사실 분석 업무 - 예측 분석 업무 - 시뮬레이션 분석 업무 - 최적화 분석 업무 - 분석 업무 정기적 개선 [인력 및 조직] - 분석 전문가 직무 존재 - 분석 전문가 교육 훈련 프로그램 - 관리자들의 기본적 분석 능력 - 전사 분석 업무 총괄 조직 존재 - 경영진 분석 업무 이해 능력 [분석 기법] - 업무별 적합한 분석기법 사용 - 분석 업무 도입 방법론 - 분석기법 라이브러리 - 분석기법 효과성 평가 - 분석기법 정기적 개선 [분석 데이터] - 분석 업무를 위한 데이터 충분성 - 분석 업무를 위한 데이터 신뢰성 - 분석 업무를 위한 데이터 적시성 - 비구조적 .. 2022. 8. 10.
[ADP-6] 분석 프로젝트 영역별 주요 관리 항목 / 분석 마스터 플랜 수립 프레임워크 / ISP / 수행 과제 도출 및 우선순위 평가 / 분석과제 우선순위 선정 매트릭스 / 데이터 분석 수준진단 프레임워.. 분석 프로젝트 영역별 주요 관리 항목 범위 (Scope) - 분석 기획단계의 프로젝트 범위가 분석을 진행하면서 데이터의 형태와 양 또는 적용되는 모델의 알고리즘에 따라 범위가 빈번하게 변경됨 - 분석의 최종 결과물이 분석 보고서 형태인지 시스템인지에 따라서 투입되는 자원 및 범위가 크게 변경되므로 사전에 충분한 고려가 필요함 시간 (Time) - 분석 프로젝트는 초기에 의도했던 결과(모델)가 나오기 쉽지 않기 때문에 지속적으로 반복되어 많은 시간이 소요될 수 있음 - 분석 결과에 대한 품질이 보장된다는 전제로 Time Boxing 기법으로 일정관리를 진행하는 것이 좋음 원가 (Cost) - 외부 데이터를 활용한 데이터 분석인 경우 고가의 비용이 소요될 수 있으므로 사전에 충분한 조사가 필요함 - 오픈 소.. 2022. 8. 8.
[ADP-3] 분석 기획 / 분석 주제 유형 / 분석방법론 / 방법론 모델 / KDD 분석 방법론 분석 기획 - IT 기술 및 분석 기법에 치우치는 경향을 조심해야 함 - 수학/통계학적 지식 및 해킹 기술(IT) 뿐만 아니라 해당 비즈니스에 대한 이해와 전문성을 포함 - 분석을 기획한다는 것은 해당 문제 영역에 대한 전문성 역량 및 수학/통계학적 지식을 활용한 분석 역량과 분석의 도구인 데이터 및 프로그래밍 기술 역량에 대한 균형잡힌 시각을 가지고 방향성 및 계획을 수립해야 한다는 것을 의미 분석 주제 유형 - 분석은 분석의 대상(WHAT), 방법(HOW)에 따라서 4가지로 나뉨 HOW \ WHAT Known Un-Known Known Optimization (최적화) Insight (통찰) Un-Known Solution (솔루션) Discovery (발견) - 문제 및 방법을 인지하고 있는 '개선.. 2022. 7. 29.
[ADP-1] 데이터 구분 / 지식경영(암묵지, 형식지) / DIKW / 데이터베이스 / 빅데이터 정의, 특징, 기능 정성/정량 데이터 구분 구 분 형 태 예 시 정성적 데이터 Qualitative Data 언어, 문자 등 회사 매출이 증가함 설문조사의 주관식 응답 트위터나 페이스북, 블로그 등 글 정량적 데이터 Quantative Data 수치, 도형, 기호 등 나이, 몸무게 지역별 온도, 풍속, 강우량 등 지식 경영(LM; Knowledge Management)과 지식 순환 구 분 설 명 예 시 상호작용 암묵지 (Tacit Kkowledge) 학습과 체험을 통해 개인에게 습득되어 있지만 겉으로 드러나지 않는 지식 - 시행착오와 오랜 경험을 통해 개인에게 습득된 무형의 지식 김장김치 담그기 자전거 타기 공통화 = 사회화, 공유화 Socialization - 암묵지 → 암묵지 내면화 Interalization - 형식지.. 2022. 7. 18.
반응형