본문 바로가기
Data Science/Data Analytics

[ADP-13] 회귀분석 모형 적절성 평가 / 설명변수 선택 / 상관분석 / 다차원척도법(MDS) / 주성분분석

by 루크 Luke 2022. 8. 17.
반응형

회귀분석 모형 적절성 평가

1) 모형이 통계적으로 유의미한가?

- F통계량을 확인함

- 유의수준 5% 하에서 F통계량의 p-value값이 0.05보다 작으면 추정된 회귀식은 통계적으로 유의함

2) 회귀계수들이 유의미한가?

- 해당 계수의 t통계량과 p-value값 또는 이들의 신뢰구간을 확인

3) 모형이 얼마나 설명력을 갖는가?

- 결정계수를 확인함

- 결정계수는 0에서 1 값을 가지며, 높은 값을 가질수록 추정된 회귀식의 설명력이 높음

4) 모형이 데이터를 잘 적합하고 있는가?

- 잔차를 그래프로 그리고 회귀진단을 함

5) 데이터가 아래 모형의 가정을 만족시키는가?

- 선형성 / 독립성 / 등분산성 / 비상관성 / 정상성

선형성 독립변수의 변화에 따라 종속변수도 일정 크기로 변화함
독립성 잔차와 독립변수의 값이 관련되어 있지 않음
등분산성 독립변수의 모든 값에 대해 오차들의 분산이 일정함
비상관성 관측치들의 잔차들끼리 상관이 없어야 함
정상성 잔차항이 정규분포를 따라야 함

 

설명변수의 선택(최적회귀방정식의 선택)

모든 가능한 조합의 회귀분석
(All possible regression)
모든 가능한 독립변수들의 조합에 대한 회귀모형을 고려하고, AIC, BIC의 기준으로 가장 적합한 회귀모형을 선택함 AIC▼
BIC▼
단계적 변수선택
(Stepwise Variable Selection)
전진선택법 절편만 있는 상수모형으로부터 시작해 중요하다고 생각되는 설명변수부터 차례로 모형에 추가, 모형에 추가했을 때 가장 제곱합의 기준으로 가장 설명을 잘하는 변수를 고려하여 그 변수가 유의하면 추가하고 그렇지 않은 경우는 추가X
후진제거법 모두 포함한 모형에서 출발해 제곱합의 기준으로 가장 적은 영향을 주는 변수부터 하나씩 제거하면서 더이상 유의하지 않은 변수가 없을 때까지 설명변수 제거
단계별방법 전진선택법에 의해 변수를 추가하면서 새롭게 추가한 변수에 기인해 기존 변수가 중요도가 약화되면 해당변수를 제거하는 등 단계별로 추가, 제거되는 변수 여부를 검토하여 더이상 없을 때 중단

- R에서 step 명령을 할 경우, direction="forward"(전진선택법), "backward"(후진선택법), "both"(단계별방법)

 

상관분석 (Correlation Analysis)

- 데이터 안의 두 변수 간의 관계를 알아보기 위해서 하는 분석

- 두 변수의 상관관계를 알아보기 위해 상관계수(Correlation coefficient)를 이용함

- 등간척도 이상으로 측정되는 두 변수들 간의 상관관계를 측정하는 데 쓰이는 피어슨 상관계수(Pearson correlation)

- 서열척도인 두 변수들의 상관관계를 측정하는 데 사용하는 스피어만 상관계수(Spearman correlation)

- rcorrr함수는 모든 변수들 사이의 상관계수와 함께 가설 H0: ρ=0 에 대한 p-value 값을 함께 출력함

 

다차원척도법(MDS)

- Multidimensional Scaling

- 여러 대상 간의 거리가 주어져 있을 때, 대상들을 동일한 상대적 거리를 가진 실수공간의 점들로 배치시키는 방법

- 대상들을 2-3차원 실수 공간의 점으로 대응시킬 수 있다면 이 점들을 시각화할 수 있고, 이는 관측치들 간의 전반적 관계에 대한 직관적 이해를 할 수 있게 도와줌

- 주로 자료들의 상대적 관계를 이해하는 시각화 방법의 근간으로 주로 사용

 

주성분분석(PCA)

- Principal Component Analysis

- 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환시키는 방법

- 자료의 차원을 축약시키는 데 주로 사용

- 차원을 줄여 예측모델을 만들 때도 사용함

- 희생되는 정보가 가장 적은 방향을 결정

- 스크리 그림(Scree Plot) : 각 주성분의 분산의 크기를 그림으로 표현. 주성분의 분산 감소가 급격하게 줄어들어 주성분의 개수를 늘릴 때 얻게되는 정보의 양이 상대적으로 미미한 지점에서 주성분 개수를 정하는 것도 하나의 방법임

- 주성분들이 설명하는 총 분산의 비율이 70~90% 사이가 되는 주성분의 개수를 선택하는 방법을 사용하기도 함

 

반응형

댓글