AYSTORY

[필기] 추론통계 본문

빅데이터분석기사

[필기] 추론통계

bye0nzn 2026. 3. 16. 11:42

01. 통계적 추론

모집단에 대한 어떤 이미지의 양상을 알기 위해 통계학을 이용하여 추측하는 과정을 지칭하며 통계학의 한 부분으로서 추론 통계학이라고 불림. 이것은 기술 통계학(Descriptive Statistics)과 구별되는 개념

  • 통계적 추론은 추정(estimation)과 가설검정(testing hypothesis)으로 나눌 수 있음.
    • 추정(estimation)
      • 표본을 통해 모집단 특성이 어떠한가에 대해 추측하는 과정
      • 표본평균 계산을 통해 모집단평균을 추측해 보거나, 모집단 평균에 대한 95% 신뢰구간의 계산 과정
    • 가설검정(testing hypothesis)
      • 모집단의 실제값이 얼마나 되는가 하는 주장과 관련해서, 표본이 갖고 있는 정보를 이용해 가설이 올바른지 그렇지 않은지 판정하는 과정

02. 점추정(Point Estimate)

모수에 대한 즉 모평균이나 모표준편차 등과 같은 추정치를 이에 대응하는 통계량으로 추정하는 것

  1. 추정량의 선택기준
    • 불편성(Unbiasedness)
      • 표본 통계량의 기댓값이 모수의 실제값과 같을 때 이 추정량은 불편성 가짐.
    • 효율성(Efficiency)
      • 추정량 중 최소의 분산을 가진 추정량(표준 편차가 작은 추정량)이 가장 효율적
      • 분산이 작다는 곧 편차가 작다. 이것은 평균으로 집중된다라고 해석이 가능하므로 추정량의 분산이 작은 것이 더 유효하다고 판단 가능
        • 최소분산불편추정량(MVUE: Minimum Variance Unbiased Estimator)
          • 모든 불편추정량 중 가장 작은 분산을 갖는 추정량
    • 일치성(Consistency)
      • 표본의 크기가 증가할수록 좋은 추정값 제시. 즉 표본의 크기가 커지면 커질수록 추정량이 모수에 근접
    • 충분성(Sufficiency)
      • 추정량에 모수에 대하여 가장 많은 정보를 제공할 때 그 추정량은 충분추정량이 됨. 
  2. 점추정량(Point Estimator)
    • 모집단의 특성을 단일값으로 추정(특정)하는 것
      • 점 추정량은 모집단에서 추출한 표본공간 X1, ... , Xn의 함수
      • 대표적 점추정량으로 표본평균, 표본분산 등 / 이외에도 단일값으로 표현되는 중앙값 등을 추정량으로 사용하기도 함.
      • 점추정의 방법으로는 적률방법(Moment Method)과 최대우도추정법(Maximum Likelihood Function Method)이 있음.
  3. 적률 방법(Moment Method)
  4. 편향
  5. 평균제곱오차(MSE: Mean Square Error)
  6. 최대우도점추정

03. 구간추정

점추정은 아무리 좋은 추정방법을 사용한다고 하더라도 표본을 택하고 이 표본으로부터 계산된 추정값이 목표값을 정확히 추정한다고 주장할 수는 없음. 구간추정(Interval Estimation) 또는 신뢰구간(Confidence Interval) 방법을 적용하면 이러한 부분 해결이 가능함.

  1. 구간추정의 개념
    • 점추정에 오차(error)의 개념을 도입하여 모수가 포함되는 확률변수구간을 어떤 신뢰성 아래 추정하는 것
      • 모수가 있을 것으로 예상되는 구간을 정해 그 구간에 실제 모수가 있다고 예상되는 확률을 기반으로 수행
    • 일반화
      • 구간의 크기가 작을수록 실제모수를 좀 더 정확히 추정할 수 있으며 우리가 설정한 구간 안에 모수가 들어갈 확률을 구하여 확인하는 과정이 필요함.
    • 신뢰수준(Confidence Level), 유의수준(Level of Significance)
      • 구간추정에 있어 추정한 구간에 모수가 들어갈 확률 1-α (또는 100(1-α)%)를 신뢰 수준, α를 유의수준이라고 함.
  2. 신뢰구간(Confidence Interval) 의미
    • 신뢰구간은 통계적 추정에서 사용되는 개념으로, 표본 데이터를 기반으로 모집단의 모술르 추정할 때 사용됨. 신뢰구간은 모수 추정치 주변에 구간을 형성해 모수의 값이 해당 구간에 속할 확률을 나타냄. 
      • 모집단에서 추출한 여러 표본들로부터 구한 신뢰구간 중 95%의 구간은 실제 모집단 모수를 포함. 이는 해당 신뢰구간이 95%의 신뢰도를 갖고있다는 의미.
    • 만약 95%의 신뢰도를 가진 신뢰구간을 계산한다면, 이 구간은 표본의 평균 주변에 형성되며, 이 구간에 모집단의 평균이 속할 확률이 95%임. 이는 우리가 표본을 통해 얻은 정보를 바탕으로 모집단 평균에 대한 불확실성을 반영한 것
    • 신뢰구간은 모집단 모수에 대한 불확실성을 고려하고 신뢰도를 제공함. 신뢰구간은 표본 데이터의 변동성에 기반하여 모수의 범위를 제시하므로, 추정 결과의 신뢰성 평가에 도움.
  3. 모평균의 구간추정
  4. 모분산의 신뢰구간
  5. 모비율의 신뢰구간
  6. 신뢰구간의 표본 크기 결정

04. 가설검정

모집단에 대해 어떤 가설을 설정하고 그 모집단으로부터 추출된 표본을 분석함으로써 그 가설이 틀리는지 맞는지 타당성 여부를 결정(검정)하는 통계적 기법. 모집단의 특성에 대한 주장은 옳을 수도 있고 틀릴 수도 있음. 객관적이고 과학적 판단을 위해서는 표본을 선택해 그 표본을 이용한 결과를 이용해 가설을 검정해야 함.

  • 검정통계량(Test Statistic)
    • 연구자에 의해 설정된 가설은 표본을 근거로 하여 채택여부를 결정짓게 되는데 이때 사용되는 표본통계량을 검정통계량이라 정의함.
  • 가설검정(Testing Hypothesis)
    • 검정통계량의 표본분포에 따라 채택여부를 결정짓는 일련의 통계적 분석과정을 가설검정이라 하며 일반적으로 몇 단계의 절차를 거쳐 검정이 수행됨.
  1. 가설검정의 절차
    • 가설의 설정
      • 집단의 특성을 파악하기 위해 표본을 이용한 의사결정은 오류의 가능성이 상존함. 따라서 가설검정은 오류의 가능성을 사전에 관리하는 것이 중요. 오류의 허용확률을 정해 놓고 그 기준에 따라 가설의 채택이나 기각을 결정함.
        • 귀무가설(Null Hypothesis, H0): 현재 통념적으로 믿어지고 있는 모수에 대한 주장 또는 원래의 기준이 되는 가설
        • 대립가설(Alternative Hypothesis, H1): 연구자가 모수에 대해 새로운 통계적 입증을 이루어 내고자 하는 가설
    • 유의수준 α
      • Type 1 Error (제 1종 오류): 귀무가설이 참일 때 귀무가설을 기각하도록 결정하는 오류 (무죄인데 유죄라고 할 경우, 더 중요함.)
      • Type 2 Error (제 2종 오류): 귀무가설이 거짓인데 귀무가설을 채택할 오류, 또는 대립가설이 참일 때 귀무가설을 채택하도록 결정하는 오류 (유죄인데 무죄라고 할 오류)
      • 유의수준(Significance level): 제 1종 오류를 범할 확률의 최대 허용한계를 유의수준 또는 위험률(risk ratio)라고 함. 
  2. 검정통계량 및 표본분포의 결정
    • 모수에 대한 정보는 표본에 함축되어 있음. 따라서 표본을 통해 가설의 채택여부를 결정짓게 되는데, 이때 사용되는 표본 통계량을 검정통계량이라 함.
    • 또한 유의수준에 따른 귀무가설의 기각역을 결정하기 위해서, 귀무가설이 참일때 검정통계량의 확률분포를 알아야만 하며, 알려져 있지 않을 때에는 통계학의 극한이론에 근거하여 근사적 분포가 정해져야 함.
  3. 기각역 설정
    • 표본에서 계산된 통계량이 가설로 설정한 모집단의 성격과 현저한 차이가 있을 경우, 모집단에 대해 설정한 귀무가설을 기각하게 됨.
    • 이때 귀무가설을 기각하게 되는 검정통계량의 범위를 기각역(Critical Region, Rejection Region)이라 하며, 기각역의 경계값을 임계치라 함.
      • 임계치(Critical Value): 주어진 유의수준 α에서 귀무가설의 채택과 기각에 관련된 의사결정을 할 때, 그 기준이 되는 점
    • 기각역은 검정통계량의 확률분포(귀무가설이 참일때)와 유의수준 α와 대립가설의 형태(우측, 좌측 또는 양측)에 따라 단측 또는 양측 검정통계량이 설정됨.
      • 양측 검정: 가설검정에서 기각영역이 양쪽에 있는 것
      • 단측 검정: 가설검정에서 기각영역이 어느 한쪽에만 있게 되는 경우
  4. 검정통계량의 계산
    • 의사결정
      • 표본의 관측치로부터 계산된 검정통계량 값이 기각역에 속하면 귀무가설을 기각하며(즉, 대립가설을 채택) 그렇지 않으면 귀무가설을 채택(즉, 대립가설을 기각)함.
    • 통계량의 계산과 임계치의 비교
      • 임계치가 결정되면 표본에서 얻은 통계량이 기각영역에 속하는지 채택 영역에 속하는지를 검정해야 함.
    • p-value
      • 주어진 자료로서 귀무가설을 기각하려고할 때 필요한 최소의 유의수준을 의미하며, 다른 용어로 유의성 확률(significant probability) 또는 관측된 유의수준이라고도 함. p-값이 계산되는 경우에는 유의수준 α와 비교해 다음과 같은 결정을 할 수 있음:
        • p-value < α: 귀무가설 기각
        • p-value > α: 귀무가설 채택
  5. 표본의 평균 검정
    • 집단크기에 따른 검정통계량의 선택
      • 대표본 또는 모집단이 정규분포: Z검정
      • 정규분포 따르면서 소표본: t검정
    • 가설의 설정
      • 귀무가설 H0: μ=μ0
      • 대립가설 H1: μ>μ0 또는 μ<μ0 또는 μ≠μ0
    • 검정통계량
      • Z-검정 또는 t-검정 시행
    • 검정: α 오류값의 Z-검정 또는 t-검정과 비교
      • H1: μ>μ0 → z ≥ z_α
      • H1: μ<μ0 z -z_α
      • H1: μμ0 → |z| ≥ z_α/2
      • t-검정인 경우, 자유도 N-1인 t-분포 사용
  6. 두 독립표본의 평균차이 검정
  7. 대응표본의 평균차이 검정
  8. 단일표본 모분산에 대한 가설검정 (카이제곱 검정)
  9. 두 모분산비에 대한 가설 검정 (F 검정)

'빅데이터분석기사' 카테고리의 다른 글

[필기] 분석 환경 구축  (0) 2026.03.17
[필기] 분석 절차 수립  (0) 2026.03.16
[필기] 기술통계  (0) 2026.03.15
[필기] 고급 데이터 탐색  (0) 2026.03.15
[필기] 데이터 탐색의 기초  (0) 2026.03.14