AYSTORY
[필기] 추론통계 본문
01. 통계적 추론
모집단에 대한 어떤 이미지의 양상을 알기 위해 통계학을 이용하여 추측하는 과정을 지칭하며 통계학의 한 부분으로서 추론 통계학이라고 불림. 이것은 기술 통계학(Descriptive Statistics)과 구별되는 개념
- 통계적 추론은 추정(estimation)과 가설검정(testing hypothesis)으로 나눌 수 있음.
- 추정(estimation)
- 표본을 통해 모집단 특성이 어떠한가에 대해 추측하는 과정
- 표본평균 계산을 통해 모집단평균을 추측해 보거나, 모집단 평균에 대한 95% 신뢰구간의 계산 과정
- 가설검정(testing hypothesis)
- 모집단의 실제값이 얼마나 되는가 하는 주장과 관련해서, 표본이 갖고 있는 정보를 이용해 가설이 올바른지 그렇지 않은지 판정하는 과정
- 추정(estimation)
02. 점추정(Point Estimate)
모수에 대한 즉 모평균이나 모표준편차 등과 같은 추정치를 이에 대응하는 통계량으로 추정하는 것
- 추정량의 선택기준
- 불편성(Unbiasedness)
- 표본 통계량의 기댓값이 모수의 실제값과 같을 때 이 추정량은 불편성 가짐.
- 효율성(Efficiency)
- 추정량 중 최소의 분산을 가진 추정량(표준 편차가 작은 추정량)이 가장 효율적
- 분산이 작다는 곧 편차가 작다. 이것은 평균으로 집중된다라고 해석이 가능하므로 추정량의 분산이 작은 것이 더 유효하다고 판단 가능
- 최소분산불편추정량(MVUE: Minimum Variance Unbiased Estimator)
- 모든 불편추정량 중 가장 작은 분산을 갖는 추정량
- 최소분산불편추정량(MVUE: Minimum Variance Unbiased Estimator)
- 일치성(Consistency)
- 표본의 크기가 증가할수록 좋은 추정값 제시. 즉 표본의 크기가 커지면 커질수록 추정량이 모수에 근접
- 충분성(Sufficiency)
- 추정량에 모수에 대하여 가장 많은 정보를 제공할 때 그 추정량은 충분추정량이 됨.
- 불편성(Unbiasedness)
- 점추정량(Point Estimator)
- 모집단의 특성을 단일값으로 추정(특정)하는 것
- 점 추정량은 모집단에서 추출한 표본공간 X1, ... , Xn의 함수
- 대표적 점추정량으로 표본평균, 표본분산 등 / 이외에도 단일값으로 표현되는 중앙값 등을 추정량으로 사용하기도 함.
- 점추정의 방법으로는 적률방법(Moment Method)과 최대우도추정법(Maximum Likelihood Function Method)이 있음.
- 모집단의 특성을 단일값으로 추정(특정)하는 것
- 적률 방법(Moment Method)
- 편향
- 평균제곱오차(MSE: Mean Square Error)
- 최대우도점추정

03. 구간추정
점추정은 아무리 좋은 추정방법을 사용한다고 하더라도 표본을 택하고 이 표본으로부터 계산된 추정값이 목표값을 정확히 추정한다고 주장할 수는 없음. 구간추정(Interval Estimation) 또는 신뢰구간(Confidence Interval) 방법을 적용하면 이러한 부분 해결이 가능함.
- 구간추정의 개념
- 점추정에 오차(error)의 개념을 도입하여 모수가 포함되는 확률변수구간을 어떤 신뢰성 아래 추정하는 것
- 모수가 있을 것으로 예상되는 구간을 정해 그 구간에 실제 모수가 있다고 예상되는 확률을 기반으로 수행
- 일반화
- 구간의 크기가 작을수록 실제모수를 좀 더 정확히 추정할 수 있으며 우리가 설정한 구간 안에 모수가 들어갈 확률을 구하여 확인하는 과정이 필요함.
- 신뢰수준(Confidence Level), 유의수준(Level of Significance)
- 구간추정에 있어 추정한 구간에 모수가 들어갈 확률 1-α (또는 100(1-α)%)를 신뢰 수준, α를 유의수준이라고 함.
- 점추정에 오차(error)의 개념을 도입하여 모수가 포함되는 확률변수구간을 어떤 신뢰성 아래 추정하는 것
- 신뢰구간(Confidence Interval) 의미
- 신뢰구간은 통계적 추정에서 사용되는 개념으로, 표본 데이터를 기반으로 모집단의 모술르 추정할 때 사용됨. 신뢰구간은 모수 추정치 주변에 구간을 형성해 모수의 값이 해당 구간에 속할 확률을 나타냄.
- 모집단에서 추출한 여러 표본들로부터 구한 신뢰구간 중 95%의 구간은 실제 모집단 모수를 포함. 이는 해당 신뢰구간이 95%의 신뢰도를 갖고있다는 의미.
- 만약 95%의 신뢰도를 가진 신뢰구간을 계산한다면, 이 구간은 표본의 평균 주변에 형성되며, 이 구간에 모집단의 평균이 속할 확률이 95%임. 이는 우리가 표본을 통해 얻은 정보를 바탕으로 모집단 평균에 대한 불확실성을 반영한 것
- 신뢰구간은 모집단 모수에 대한 불확실성을 고려하고 신뢰도를 제공함. 신뢰구간은 표본 데이터의 변동성에 기반하여 모수의 범위를 제시하므로, 추정 결과의 신뢰성 평가에 도움.
- 신뢰구간은 통계적 추정에서 사용되는 개념으로, 표본 데이터를 기반으로 모집단의 모술르 추정할 때 사용됨. 신뢰구간은 모수 추정치 주변에 구간을 형성해 모수의 값이 해당 구간에 속할 확률을 나타냄.
- 모평균의 구간추정
- 모분산의 신뢰구간
- 모비율의 신뢰구간
- 신뢰구간의 표본 크기 결정

04. 가설검정
모집단에 대해 어떤 가설을 설정하고 그 모집단으로부터 추출된 표본을 분석함으로써 그 가설이 틀리는지 맞는지 타당성 여부를 결정(검정)하는 통계적 기법. 모집단의 특성에 대한 주장은 옳을 수도 있고 틀릴 수도 있음. 객관적이고 과학적 판단을 위해서는 표본을 선택해 그 표본을 이용한 결과를 이용해 가설을 검정해야 함.
- 검정통계량(Test Statistic)
- 연구자에 의해 설정된 가설은 표본을 근거로 하여 채택여부를 결정짓게 되는데 이때 사용되는 표본통계량을 검정통계량이라 정의함.
- 가설검정(Testing Hypothesis)
- 검정통계량의 표본분포에 따라 채택여부를 결정짓는 일련의 통계적 분석과정을 가설검정이라 하며 일반적으로 몇 단계의 절차를 거쳐 검정이 수행됨.
- 가설검정의 절차
- 가설의 설정
- 집단의 특성을 파악하기 위해 표본을 이용한 의사결정은 오류의 가능성이 상존함. 따라서 가설검정은 오류의 가능성을 사전에 관리하는 것이 중요. 오류의 허용확률을 정해 놓고 그 기준에 따라 가설의 채택이나 기각을 결정함.
- 귀무가설(Null Hypothesis, H0): 현재 통념적으로 믿어지고 있는 모수에 대한 주장 또는 원래의 기준이 되는 가설
- 대립가설(Alternative Hypothesis, H1): 연구자가 모수에 대해 새로운 통계적 입증을 이루어 내고자 하는 가설
- 집단의 특성을 파악하기 위해 표본을 이용한 의사결정은 오류의 가능성이 상존함. 따라서 가설검정은 오류의 가능성을 사전에 관리하는 것이 중요. 오류의 허용확률을 정해 놓고 그 기준에 따라 가설의 채택이나 기각을 결정함.
- 유의수준 α
- Type 1 Error (제 1종 오류): 귀무가설이 참일 때 귀무가설을 기각하도록 결정하는 오류 (무죄인데 유죄라고 할 경우, 더 중요함.)
- Type 2 Error (제 2종 오류): 귀무가설이 거짓인데 귀무가설을 채택할 오류, 또는 대립가설이 참일 때 귀무가설을 채택하도록 결정하는 오류 (유죄인데 무죄라고 할 오류)
- 유의수준(Significance level): 제 1종 오류를 범할 확률의 최대 허용한계를 유의수준 또는 위험률(risk ratio)라고 함.
- 가설의 설정
- 검정통계량 및 표본분포의 결정
- 모수에 대한 정보는 표본에 함축되어 있음. 따라서 표본을 통해 가설의 채택여부를 결정짓게 되는데, 이때 사용되는 표본 통계량을 검정통계량이라 함.
- 또한 유의수준에 따른 귀무가설의 기각역을 결정하기 위해서, 귀무가설이 참일때 검정통계량의 확률분포를 알아야만 하며, 알려져 있지 않을 때에는 통계학의 극한이론에 근거하여 근사적 분포가 정해져야 함.
- 기각역 설정
- 표본에서 계산된 통계량이 가설로 설정한 모집단의 성격과 현저한 차이가 있을 경우, 모집단에 대해 설정한 귀무가설을 기각하게 됨.
- 이때 귀무가설을 기각하게 되는 검정통계량의 범위를 기각역(Critical Region, Rejection Region)이라 하며, 기각역의 경계값을 임계치라 함.
- 임계치(Critical Value): 주어진 유의수준 α에서 귀무가설의 채택과 기각에 관련된 의사결정을 할 때, 그 기준이 되는 점
- 기각역은 검정통계량의 확률분포(귀무가설이 참일때)와 유의수준 α와 대립가설의 형태(우측, 좌측 또는 양측)에 따라 단측 또는 양측 검정통계량이 설정됨.
- 양측 검정: 가설검정에서 기각영역이 양쪽에 있는 것
- 단측 검정: 가설검정에서 기각영역이 어느 한쪽에만 있게 되는 경우
- 검정통계량의 계산
- 의사결정
- 표본의 관측치로부터 계산된 검정통계량 값이 기각역에 속하면 귀무가설을 기각하며(즉, 대립가설을 채택) 그렇지 않으면 귀무가설을 채택(즉, 대립가설을 기각)함.
- 통계량의 계산과 임계치의 비교
- 임계치가 결정되면 표본에서 얻은 통계량이 기각영역에 속하는지 채택 영역에 속하는지를 검정해야 함.
- p-value
- 주어진 자료로서 귀무가설을 기각하려고할 때 필요한 최소의 유의수준을 의미하며, 다른 용어로 유의성 확률(significant probability) 또는 관측된 유의수준이라고도 함. p-값이 계산되는 경우에는 유의수준 α와 비교해 다음과 같은 결정을 할 수 있음:
- p-value < α: 귀무가설 기각
- p-value > α: 귀무가설 채택
- 주어진 자료로서 귀무가설을 기각하려고할 때 필요한 최소의 유의수준을 의미하며, 다른 용어로 유의성 확률(significant probability) 또는 관측된 유의수준이라고도 함. p-값이 계산되는 경우에는 유의수준 α와 비교해 다음과 같은 결정을 할 수 있음:
- 의사결정
- 표본의 평균 검정
- 집단크기에 따른 검정통계량의 선택
- 대표본 또는 모집단이 정규분포: Z검정
- 정규분포 따르면서 소표본: t검정
- 가설의 설정
- 귀무가설 H0: μ=μ0
- 대립가설 H1: μ>μ0 또는 μ<μ0 또는 μ≠μ0
- 검정통계량
- Z-검정 또는 t-검정 시행
- 검정: α 오류값의 Z-검정 또는 t-검정과 비교
- H1: μ>μ0 → z ≥ z_α
- H1: μ<μ0 → z ≤ -z_α
- H1: μ≠μ0 → |z| ≥ z_α/2
- t-검정인 경우, 자유도 N-1인 t-분포 사용
- 집단크기에 따른 검정통계량의 선택
- 두 독립표본의 평균차이 검정
- 대응표본의 평균차이 검정
- 단일표본 모분산에 대한 가설검정 (카이제곱 검정)
- 두 모분산비에 대한 가설 검정 (F 검정)

'빅데이터분석기사' 카테고리의 다른 글
| [필기] 분석 환경 구축 (0) | 2026.03.17 |
|---|---|
| [필기] 분석 절차 수립 (0) | 2026.03.16 |
| [필기] 기술통계 (0) | 2026.03.15 |
| [필기] 고급 데이터 탐색 (0) | 2026.03.15 |
| [필기] 데이터 탐색의 기초 (0) | 2026.03.14 |
