본문 바로가기
반응형

Data Science/Data Analytics16

[ADP-14] 정상성 / 자기회귀모형(AR) / 이동평균모형(MA) / 자기회귀누적이동평균모형(ARIMA) / 분해시계열 정상성 - 시간의 흐름에 따라서 관측된 데이터를 시계열(Time-series) 자료라고 함 - 시계열 분석을 하기 위해서는 정상성(Stationary)을 만족해야 함 - 정상성은 시점에 상관없이 시계열의 특성이 일정하다는 것을 의미함 정상성 1) 평균이 일정하다 2) 분산이 시점에 의존하지 않는다. 3) 공분산은 단지 시차에만 의존하고 시점 자체에는 의존하지 않는다. - 정상성 조건을 하나라도 만족하지 못하는 경우, 비정상 시계열이라고 부름 - 비정상 시계열 자료는 정상성을 만족하도록 데이터를 정상 시계열 자료로 만든 다음 시계열 분석을 수행함 - 차분 : 현 시점의 자료값에서 전 시점의 자료값을 빼는 것 - 여러 시점 전의 자료를 빼는 것을 계절차분이라고 함 - 추세를 보이는(평균이 일정하지 않은) 경.. 2022. 8. 17.
[ADP-13] 회귀분석 모형 적절성 평가 / 설명변수 선택 / 상관분석 / 다차원척도법(MDS) / 주성분분석 회귀분석 모형 적절성 평가 1) 모형이 통계적으로 유의미한가? - F통계량을 확인함 - 유의수준 5% 하에서 F통계량의 p-value값이 0.05보다 작으면 추정된 회귀식은 통계적으로 유의함 2) 회귀계수들이 유의미한가? - 해당 계수의 t통계량과 p-value값 또는 이들의 신뢰구간을 확인함 3) 모형이 얼마나 설명력을 갖는가? - 결정계수를 확인함 - 결정계수는 0에서 1 값을 가지며, 높은 값을 가질수록 추정된 회귀식의 설명력이 높음 4) 모형이 데이터를 잘 적합하고 있는가? - 잔차를 그래프로 그리고 회귀진단을 함 5) 데이터가 아래 모형의 가정을 만족시키는가? - 선형성 / 독립성 / 등분산성 / 비상관성 / 정상성 선형성 독립변수의 변화에 따라 종속변수도 일정 크기로 변화함 독립성 잔차와 독립.. 2022. 8. 17.
[ADP-12] 통계학 정의 / 모집단과 표본/ 표본추출방법 / 자료의 종류 / 확률 및 확률변수 / 점추정과 구간추정 / 가설검정 / 비모수검정 통계학 정의 - 매일 발표되는 일기예보, 물가, 실업률, GNP 등과 같은 경제통계, 각 정당에 대한 지지도 조사나 가족법 개정에 대한 의식 조가와 같은 사회조사 분석 통계, 새로운 희귀병 치료제의 임상실험 결과와 같은 실험결과 분석 통계 등 - 자료로부터 유용한 정보를 이끌어 내는 학문 - 유용한 정보를 이끌어 내는 작업에는 자료의 수집과 정리, 그리고 이를 해석하는 방법 등을 모두 포함 모집단과 표본 - 모집단 : 우리가 알고자 하는 전체 - 모집단을 구성하는 개체를 추출단위 혹은 원소라고 함 - 모집단에 대해 조사하는 방법에는 총조사(census)와 표본조사로 나뉨 - 총조사 : 모집단의 개체 모두를 조사하는 방법, 많은 비용과 시간이 소요 - 표본조사 : 일부분만 조사하여 모집단에 대해 추론하는 .. 2022. 8. 17.
[ADP-11] R을 활용한 데이터 기초 통계 / 결측값 처리 / 이상값 탐색 데이터 기초 통계 head(df) # 데이터에서 앞 6줄만 보도록 함 head(df, 10) # 숫자를 넣어주면 원하는 개수만큼 볼 수 있음 str(df) # 데이터의 구조를 파악할 수 있도록 보여줌 summary(df) # 데이터의 기초 통계량을 볼 수 있음 cov(df[, 1:4]) # 컬럼 1~4의 공분산을 구해줌 cor(df[, 1:4]) # 컬럼 1~4의 상관계수를 구해줌 결측값 처리 - R에서 결측값 처리 관련 패키지는 Amelia 2, Mice, mistools 등이 있으며, Amelia가 대표적임 - R에서 결측값은 NA(Not available)로 처리함 - 불가능한 값(예를 들면 dividing by zero)는 NaN(Not a Number)으로 처리됨 - is.na(y) : 결측값인.. 2022. 8. 16.
[ADP-10] R 기타 유용한 기능들(paste, substr) / R 그래픽 기능 / 데이터 마트 / R reshape / sqldf / plyr / 데이터 테이블 R 기타 유용한 기능들 - paste : 입력받은 문자열들을 하나로 붙여줌, sep을 통해 구분자를 삽입시킬 수 있음 - substr : 주어진 문자열에서 특정 문자열을 추출하는 기능을 함, substr("string", 1, 4)는 1번째 글자부터 4번째 글자까지 추출 - 자료형 데이터 구조 변환 as.data.frame(x) 데이터 프레임 형식으로 변환함 as.list(x) 리스트 형식으로 변환함 as.matrix(x) 행렬 형식으로 변환함 as.vector(x) 벡터 형식으로 변환함 as.factor(x) 팩터 형식으로 변환함 - 강제로 데이터 구조를 변환하면 경고문이 발생할 수 있음 as.integer(3.14) # 3 as.numeric("foo") # NA # 경고메세지: # 강제형변환에 의해.. 2022. 8. 16.
[ADP-9] R 외부 데이터 불러오기 / R의 기초함수 / R 데이터 핸들링 / R 반복 구문과 조건문 외부 데이터 불러오기 - R은 다양한 형태의 외부 데이터를 불러올 수 있음 - csv, txt, xls, xlsx파일을 R로 불러올 수 있음 - 경로 지정할 때는 '\' 대신에 '\\'이나 '/'을 사용함 - CSV 파일 불러오기 data1 2022. 8. 16.
[ADP-8] 분석도구 R의 특징 / R 시작하기(install.packages, library, ?, help) / R의 데이터 구조(벡터 c, 행렬 matrix, 데이터프레임 data.frame) 분석도구 R의 특징 - R은 무료 소프트웨어이면서도 고차원적인 계산이 가능하며 통계 분석과 시각화에 최적화된 환경을 통해 단순한 계산부터 복잡한 통계 기법까지를 폭넓게 다룰 수 있음 1) 그래픽 처리 - 상용 소프트웨어에 버금가는 상당한 수준의 그래프와 그림 - 그림의 용도와 역할에 맞게 적절한 그래프를 언제든지 쉽게 생산할 수 있음 - 매우 세부적인 부분까지 사용자가 직접 지정, 섬세한 작업을 수행할 수 있음 - 출판물로 사용해도 손색이 없을 정도의 고해상도 이미지를 생산함에도 그 처리 시간이 매우 빠름 2) 데이터 처리 및 계산 능력 - 벡터, 행렬, 배열, 데이터프레임, 리스트 등 다양한 형태의 데이터 구조 지원 - 다양한 데이터 형태의 분석이 용이함 - 복잡한 구조 내 개별 데이터에 접근하는 절차.. 2022. 8. 12.
[ADP-7] 데이터 분석 준비도 프레임워크 / 분석 성숙도 모델 / 데이터 거버넌스 / 데이터 거버넌스 체계 / 데이터 분석 조직 구조 데이터 분석 준비도 프레임워크 - 분석 준비도 : 기업의 데이터 분석 도입의 수준을 파악하기 위한 진단 방법 [분석 업무 파악] - 발생한 사실 분석 업무 - 예측 분석 업무 - 시뮬레이션 분석 업무 - 최적화 분석 업무 - 분석 업무 정기적 개선 [인력 및 조직] - 분석 전문가 직무 존재 - 분석 전문가 교육 훈련 프로그램 - 관리자들의 기본적 분석 능력 - 전사 분석 업무 총괄 조직 존재 - 경영진 분석 업무 이해 능력 [분석 기법] - 업무별 적합한 분석기법 사용 - 분석 업무 도입 방법론 - 분석기법 라이브러리 - 분석기법 효과성 평가 - 분석기법 정기적 개선 [분석 데이터] - 분석 업무를 위한 데이터 충분성 - 분석 업무를 위한 데이터 신뢰성 - 분석 업무를 위한 데이터 적시성 - 비구조적 .. 2022. 8. 10.
[ADP-6] 분석 프로젝트 영역별 주요 관리 항목 / 분석 마스터 플랜 수립 프레임워크 / ISP / 수행 과제 도출 및 우선순위 평가 / 분석과제 우선순위 선정 매트릭스 / 데이터 분석 수준진단 프레임워.. 분석 프로젝트 영역별 주요 관리 항목 범위 (Scope) - 분석 기획단계의 프로젝트 범위가 분석을 진행하면서 데이터의 형태와 양 또는 적용되는 모델의 알고리즘에 따라 범위가 빈번하게 변경됨 - 분석의 최종 결과물이 분석 보고서 형태인지 시스템인지에 따라서 투입되는 자원 및 범위가 크게 변경되므로 사전에 충분한 고려가 필요함 시간 (Time) - 분석 프로젝트는 초기에 의도했던 결과(모델)가 나오기 쉽지 않기 때문에 지속적으로 반복되어 많은 시간이 소요될 수 있음 - 분석 결과에 대한 품질이 보장된다는 전제로 Time Boxing 기법으로 일정관리를 진행하는 것이 좋음 원가 (Cost) - 외부 데이터를 활용한 데이터 분석인 경우 고가의 비용이 소요될 수 있으므로 사전에 충분한 조사가 필요함 - 오픈 소.. 2022. 8. 8.
반응형