회귀분석 모형 적절성 평가
1) 모형이 통계적으로 유의미한가?
- F통계량을 확인함
- 유의수준 5% 하에서 F통계량의 p-value값이 0.05보다 작으면 추정된 회귀식은 통계적으로 유의함
2) 회귀계수들이 유의미한가?
- 해당 계수의 t통계량과 p-value값 또는 이들의 신뢰구간을 확인함
3) 모형이 얼마나 설명력을 갖는가?
- 결정계수를 확인함
- 결정계수는 0에서 1 값을 가지며, 높은 값을 가질수록 추정된 회귀식의 설명력이 높음
4) 모형이 데이터를 잘 적합하고 있는가?
- 잔차를 그래프로 그리고 회귀진단을 함
5) 데이터가 아래 모형의 가정을 만족시키는가?
- 선형성 / 독립성 / 등분산성 / 비상관성 / 정상성
선형성 | 독립변수의 변화에 따라 종속변수도 일정 크기로 변화함 |
독립성 | 잔차와 독립변수의 값이 관련되어 있지 않음 |
등분산성 | 독립변수의 모든 값에 대해 오차들의 분산이 일정함 |
비상관성 | 관측치들의 잔차들끼리 상관이 없어야 함 |
정상성 | 잔차항이 정규분포를 따라야 함 |
설명변수의 선택(최적회귀방정식의 선택)
모든 가능한 조합의 회귀분석 (All possible regression) |
모든 가능한 독립변수들의 조합에 대한 회귀모형을 고려하고, AIC, BIC의 기준으로 가장 적합한 회귀모형을 선택함 | AIC▼ BIC▼ |
단계적 변수선택 (Stepwise Variable Selection) |
전진선택법 | 절편만 있는 상수모형으로부터 시작해 중요하다고 생각되는 설명변수부터 차례로 모형에 추가, 모형에 추가했을 때 가장 제곱합의 기준으로 가장 설명을 잘하는 변수를 고려하여 그 변수가 유의하면 추가하고 그렇지 않은 경우는 추가X |
후진제거법 | 모두 포함한 모형에서 출발해 제곱합의 기준으로 가장 적은 영향을 주는 변수부터 하나씩 제거하면서 더이상 유의하지 않은 변수가 없을 때까지 설명변수 제거 | |
단계별방법 | 전진선택법에 의해 변수를 추가하면서 새롭게 추가한 변수에 기인해 기존 변수가 중요도가 약화되면 해당변수를 제거하는 등 단계별로 추가, 제거되는 변수 여부를 검토하여 더이상 없을 때 중단 |
- R에서 step 명령을 할 경우, direction="forward"(전진선택법), "backward"(후진선택법), "both"(단계별방법)
상관분석 (Correlation Analysis)
- 데이터 안의 두 변수 간의 관계를 알아보기 위해서 하는 분석
- 두 변수의 상관관계를 알아보기 위해 상관계수(Correlation coefficient)를 이용함
- 등간척도 이상으로 측정되는 두 변수들 간의 상관관계를 측정하는 데 쓰이는 피어슨 상관계수(Pearson correlation)
- 서열척도인 두 변수들의 상관관계를 측정하는 데 사용하는 스피어만 상관계수(Spearman correlation)
- rcorrr함수는 모든 변수들 사이의 상관계수와 함께 가설 H0: ρ=0 에 대한 p-value 값을 함께 출력함
다차원척도법(MDS)
- Multidimensional Scaling
- 여러 대상 간의 거리가 주어져 있을 때, 대상들을 동일한 상대적 거리를 가진 실수공간의 점들로 배치시키는 방법
- 대상들을 2-3차원 실수 공간의 점으로 대응시킬 수 있다면 이 점들을 시각화할 수 있고, 이는 관측치들 간의 전반적 관계에 대한 직관적 이해를 할 수 있게 도와줌
- 주로 자료들의 상대적 관계를 이해하는 시각화 방법의 근간으로 주로 사용됨
주성분분석(PCA)
- Principal Component Analysis
- 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환시키는 방법
- 자료의 차원을 축약시키는 데 주로 사용
- 차원을 줄여 예측모델을 만들 때도 사용함
- 희생되는 정보가 가장 적은 방향을 결정
- 스크리 그림(Scree Plot) : 각 주성분의 분산의 크기를 그림으로 표현. 주성분의 분산 감소가 급격하게 줄어들어 주성분의 개수를 늘릴 때 얻게되는 정보의 양이 상대적으로 미미한 지점에서 주성분 개수를 정하는 것도 하나의 방법임
- 주성분들이 설명하는 총 분산의 비율이 70~90% 사이가 되는 주성분의 개수를 선택하는 방법을 사용하기도 함
댓글