본문 바로가기
Data Science/Data Analytics

[ADP-12] 통계학 정의 / 모집단과 표본/ 표본추출방법 / 자료의 종류 / 확률 및 확률변수 / 점추정과 구간추정 / 가설검정 / 비모수검정

by 루크 Luke 2022. 8. 17.
반응형

통계학 정의

- 매일 발표되는 일기예보, 물가, 실업률, GNP 등과 같은 경제통계, 각 정당에 대한 지지도 조사나 가족법 개정에 대한 의식 조가와 같은 사회조사 분석 통계, 새로운 희귀병 치료제의 임상실험 결과와 같은 실험결과 분석 통계 등

- 자료로부터 유용한 정보를 이끌어 내는 학문

- 유용한 정보를 이끌어 내는 작업에는 자료의 수집과 정리, 그리고 이를 해석하는 방법 등을 모두 포함

 

모집단과 표본

- 모집단 : 우리가 알고자 하는 전체

- 모집단을 구성하는 개체를 추출단위 혹은 원소라고 함

- 모집단에 대해 조사하는 방법에는 총조사(census)와 표본조사로 나뉨

- 총조사 : 모집단의 개체 모두를 조사하는 방법, 많은 비용과 시간이 소요

- 표본조사 : 일부분만 조사하여 모집단에 대해 추론하는 것

- 표본집단 : 모집단의 일부분

- 모수 : 모집단에 대해 알고자 하는 값

- 통계량 : 모수를 추론하기 위해 구하는 표본의 값들

- 모집단은 유한 / 무한 모집단으로 나뉘는데, 무한 모집단은 개념적으로 상정된 모집단을 지칭함

 

표본 추출 방법

- 단순랜덤(simple random sampling), 계통(systematic sampling), 집락(cluster sampling), 층화(stratified sampling)

단순랜덤추출법
(simple random sampling)
N개의 원소로 구성된 모집단에서 n개의 표본을 추출할 때 각 원소에 1, 2, 3, ... N까지의 번호를 부여, 여기서 n개의 번호를 임의로 선택해 그 번호에 해당하는 원소를 표본으로 추출
계통추출법
(systematic sampling)
모집단의 모든 원소들에게 1, 2, 3, ... N의 일련번호를 부여하고 이를 순서대로 나열한 후에, K개씩 n개의 구간으로 나눈다. 첫 구간에서 하나를 임의로 선택한 후에 K개씩 띄어서 표본을 추출
집락추출법
(cluster sampling)
모집단이 몇 개의 집락(클러스터)이 결합된 형태로 구성돼 있고, 각 집단에서 원소들에게 일련번호를 부여할 수 있는 경우에 이용, 일부 집락을 랜덤으로 선택하고 선택된 각 집락에서 표본을 임의로 선택
층화추출법
(stratified sampling)
상당히 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법, 이질적인 모집단의 원소들을 서로 유사한 것끼리 몇 개의 층으로 나눈 후 각 층에서 표본을 랜덤하게 추출

- 표본조사 이외에 자료를 수집하는 방법으로 '실험'이 있음

- 실험 : 특정 목적 하에서 실험 대상에게 처리를 가한 후에 그 결과를 관측해 자료를 수집하는 방법

 

자료의 종류

- 측정 : 표본조사나 실험을 실시하는 과정에서 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하도록 관측해 자료를 얻는 것

- 측정 방법 : 명목, 순서(서열), 구간(등간), 비율

명목척도
(nominal scale)
측정 대상이 어느 집단에 속하는지 분류할 때 사용되는 척도
성별(남/여), 출생지(서울/인천...) 구분 등
순서(서열)척도
(ordinal scale)
측정 대상의 특성이 가지는 서열관계를 관측하는 척도
선택사항이 일정한 순서로 돼 있음
특정 서비스의 선호도(아주 좋음 / 좋음 / 보통 / 나쁨) 등
구간(등간)척도
(interval scale)
측정 대상이 갖고 있는 속성의 양을 측정하는 것
측정 결과가 숫자로 표현되나 해당 속성이 전혀 없는 상태인 절대적인 원점이 없음
두 관측값 사이의 비율은 별 의미가 없게 됨
온도, 지수 등
비율척도
(ratio scale)
절대적 기준인 0값이 존재하고 모든 사칙연산이 가능함
제일 많은 정보를 가지고 있는 척도
무게, 나이, 연간소득, 제품가격 등 숫자로 관측되는 일반적인 자료의 특성이 해당됨

 

확률 및 확률변수

- 확률 : 특정 사건이 일어날 가능성의 척도

- 표본공간(sample space) : 통계적 실험을 실시할 때 나타날 수 있는 모든 결과들의 집합

- 사건(event) : 표본공간의 부분집합

- 근원사건 : 사건 중에서 오직 한 개의 원소로만 이루어진 사건

- 조건부확률 : 사건 A가 일어났다는 가정하의 사건 B의 확률, P(B|A)

- 확률변수 : 특정 사건에 대해 실수값을 갖는 변수를 정의하면, 특정 사건이 일어날 확률은 그 변수가 특정값을 가질 확률로 표현할 수 있음, 특정값이 나타날 가능성이 확률적으로 주어지는 변수

- 확률변수에는 이산형 확률변수(discrete random variable)와 연속형 확률변수(continuous random variable)가 있음

이산형 확률변수
(discrete random variable)
사건의 확률이 그 사건들이 속한 점들의 확률의 합으로 표현할 수 있는 확률변수를 말함
확률이 0보다 큰 값을 갖는 점들로 확률을 표현할 수 있음
베르누이 확률분포, 이항분포, 기하분포, 다항분포, 포아송분포 등
연속형 확률변수
(continuous random variable)
사건의 확률이 그 사건 위에서 어떤 0보다 큰 값을 갖는 함수의 면접으로 표현될 수 있는 확률변수를 말함
이 함수를 확률밀도함수라고 함
사건의 확률이 확률밀도함수의 면적으로 표현되므로 한 점에서의 확률은 0이 되고, 0보다 큰 값을 갖는 사건은 구간에서의 확률값이 됨
균일분포, 정규분포, 지수분포, t분포, χ^2분포, F분포 등

 

점추정과 구간추정

1) 점추정(point estimation)

- 가장 참값이라고 여겨지는 하나의 모수의 값을 택하는 것

- '모수가 특정한 값'일 것이라고 추정하는 것

- 모집단의 모평균을 추정하기 위한 추정량(estimator)은 확률표본의 평균값인 표본평균(sample mean)이 대표적

- 모집단의 모분산을 추정하기 위한 추정량으로는 표본분산이 대표적

2) 구간추정(confidence interval estimation)

- 사실상 점추정의 정확성을 보완하는 방법이 구간추정

- 일정한 크기의 신뢰수준(confidence level)으로 모수가 특정한 구간에 있을 것이라고 선언하는 것으로,

- 구해진 구간을 신뢰구간(confidence interval)이라고 함

- 일반적으로 신뢰수준은 90%, 95%, 99%의 확률을 이용하는 경우가 많음

- 신뢰수준 95%의 의미는 한 개의 모집단에서 동일한 방법으로 동일한 자료의 개수의 확률표본을 무한히 많이 추출하여 각 확률표본마다 신뢰구간을 구하면 이 무한히 많은 신뢰구간 중에서 95%의 신뢰구간이 미지의 모수를 포함한다는 의미임

 

가설검정

- 모집단에 대한 어떤 가설을 설정한 뒤에 표본 관찰을 통해 그 가설의 채택여부를 결정하는 분석방법

- 가설 검정에서 가장 기본적인 사항은 검정하고자 하는 모집단의 모수에 대한 가설 설정임

- 가설은 귀무가설(H0, null hypothesis)과 대립가설(H1, alternative hypothesis) 2가지로 설정

- 가설검정은 표본관찰 또는 실험을 통해 귀무가설과 대립가설 중 하나를 선택하는 과정이라고 볼 수 있음

- 확실하게 증명하고 싶은 가설, 뚜렷한 증거가 있어야 채택할 수 있는 가설, 혹은 그 결과가 값비싼 가설을 대립가설(H1)으로 지정

- 대립가설과 반대의 증거를 찾기 위해 정한 가설을 귀무가설(H0)로 지정

 

- 검정에 사용되는 통계량을 '검정통계량(test statistic, T(X))'이라고 함

- 추정에 사용되는 통계량과 유사하게 모평균에 대한 검정에는 표본평균, 모분산에 대한 검정에는 표본분산이 사용됨

- 귀무가설이 사실일 때, 관측된 검정통계량의 값보다 더 대립가설을 지지하는 검정통계량이 나올 확률을 p-value라고 함

- p-value가 미리 주어진 유의수준(significance level, α)보다 작으면 귀무가설이 나올 가능성이 적다고 판단하여 귀무가설을 기각

- 귀무가설에 대한 유의수준이 있는데, 표본통계량의 p-value가 매우 작게 나온다면, 기존의 귀무가설이 틀렸다는 말이 된다고 이해.

- 유의수준은 보통 0.01, 0.05, 0.1 중 한 개의 값을 사용

- 기각역(critical region, C) : 귀무가설을 기각하는 통계량의 영역

- 가설 검정 결과와 오류

사실 \ 검정 결과 H0가 사실이라고 판정 H0가 사실이 아니라고 판정
H0가 실제로 사실임 옳은 결정 제1종 오류
H0가 실제로 사실이 아님 제2종 오류 옳은 결정

- 귀무가설이 실제로 사실인데, 귀무가설을 기각하게 되는 오류 = 제1종 오류

- 귀무가설이 사실이 아니지만, 귀무가설을 채택하게 되는 오류 = 제2종 오류

 

비모수검정

- 통계적 추론에서 모집단의 모수에 대한 검정은 모수적 방법과 비모수적 방법이 있음

- 가설의 설정에서 모수적 검정에서는 가정된 분포의 모수에 대해 가설을 설정하지만, 비모수 검정에서는 가정된 분포가 없기 때문에 가설을 단지 '분포의 형태가 동일하다' 또는 '분포의 형태가 동일하지 않다'와 같이 분포의 '형태'에 대해 설정

- 모수적 검정에서는 관측된 자료를 이용해 구한 표본평균, 표본분산 등을 이용해 검정을 실시하나 비모수 검정에서는 관측값의 절대적인 크기에 의존하지 않고 관측값들의 순위나 두 관측값 차이의 부호 등을 이용해 검정

모수적 방법
(parametric method)
비모수적 방법
(nonparametric method)
검정하고자 하는 모집단의 분포에 대한 가정을 하고, 그 가정 하에서 검정통계량과 검정통계량의 분포를 유도해 검정을 실시하는 검정방법 자료가 추출된 모집단의 분포에 대해 아무 제약을 가하지 않고 검정을 실시하는 검정방법, 관측된 자료가 특정분포를 따른다고 가정할 수 없는 경우에 이용
  - 쌍으로 관측된 표본에 대한 부호검정(sign test)
- 윌콕슨의 순위합검정(rank sum test)
- 윌콕슨의 부호순위합검정(signed rank test)
- 만-위트니의 U검정
- 런검정(run test)
- 스피어만의 순위상관계수 등

 

반응형

댓글