반응형 데이터분석 기초3 [ADP-13] 회귀분석 모형 적절성 평가 / 설명변수 선택 / 상관분석 / 다차원척도법(MDS) / 주성분분석 회귀분석 모형 적절성 평가 1) 모형이 통계적으로 유의미한가? - F통계량을 확인함 - 유의수준 5% 하에서 F통계량의 p-value값이 0.05보다 작으면 추정된 회귀식은 통계적으로 유의함 2) 회귀계수들이 유의미한가? - 해당 계수의 t통계량과 p-value값 또는 이들의 신뢰구간을 확인함 3) 모형이 얼마나 설명력을 갖는가? - 결정계수를 확인함 - 결정계수는 0에서 1 값을 가지며, 높은 값을 가질수록 추정된 회귀식의 설명력이 높음 4) 모형이 데이터를 잘 적합하고 있는가? - 잔차를 그래프로 그리고 회귀진단을 함 5) 데이터가 아래 모형의 가정을 만족시키는가? - 선형성 / 독립성 / 등분산성 / 비상관성 / 정상성 선형성 독립변수의 변화에 따라 종속변수도 일정 크기로 변화함 독립성 잔차와 독립.. 2022. 8. 17. [ADP-9] R 외부 데이터 불러오기 / R의 기초함수 / R 데이터 핸들링 / R 반복 구문과 조건문 외부 데이터 불러오기 - R은 다양한 형태의 외부 데이터를 불러올 수 있음 - csv, txt, xls, xlsx파일을 R로 불러올 수 있음 - 경로 지정할 때는 '\' 대신에 '\\'이나 '/'을 사용함 - CSV 파일 불러오기 data1 2022. 8. 16. [ADP-6] 분석 프로젝트 영역별 주요 관리 항목 / 분석 마스터 플랜 수립 프레임워크 / ISP / 수행 과제 도출 및 우선순위 평가 / 분석과제 우선순위 선정 매트릭스 / 데이터 분석 수준진단 프레임워.. 분석 프로젝트 영역별 주요 관리 항목 범위 (Scope) - 분석 기획단계의 프로젝트 범위가 분석을 진행하면서 데이터의 형태와 양 또는 적용되는 모델의 알고리즘에 따라 범위가 빈번하게 변경됨 - 분석의 최종 결과물이 분석 보고서 형태인지 시스템인지에 따라서 투입되는 자원 및 범위가 크게 변경되므로 사전에 충분한 고려가 필요함 시간 (Time) - 분석 프로젝트는 초기에 의도했던 결과(모델)가 나오기 쉽지 않기 때문에 지속적으로 반복되어 많은 시간이 소요될 수 있음 - 분석 결과에 대한 품질이 보장된다는 전제로 Time Boxing 기법으로 일정관리를 진행하는 것이 좋음 원가 (Cost) - 외부 데이터를 활용한 데이터 분석인 경우 고가의 비용이 소요될 수 있으므로 사전에 충분한 조사가 필요함 - 오픈 소.. 2022. 8. 8. 이전 1 다음 반응형