AYSTORY
[필기] 기술통계 본문
01. 데이터 요약
기술 통계(Descriptive Statistics)는 분석에 필요한 데이터를 요약하여 묘사, 설명하는 통계기법.
분석을 위해서 단순히 데이터를 정리하는 행위 자체는 의미가 없음. 분석 전 데이터의 특성을 찾아내서 그 특성의 정량화를 통한 체계적 요약이 필요함.
| 중심화 경향 (Central Tendency) | 관찰 또는 수집된 데이터의 물리적 상대적 위치에 대한 정리 요약 |
| 분산도 경향 (Degree of Dispersion) | 데이터들이 흩어진 정도에 대한 기술 및 요약 |
| 자료의 분포형태 (Shape of Distribution, Skewness) | 자료의 분포가 대칭인지 치우쳐 있는지에 대한 기술 및 요약 |
분석대상이 되는 데이터의 단순 정리가 아닌 데이터의 분포가 가지는 특성을 찾아내서 본격적인 분석 이전에 기본적인 특징을 수치적으로 정량화하여 기술함.
02. 표본추출
- 모집단(Population)
- 표본(Sample)
- 표본추출(Sampling)
- 전수조사와 표본조사
- 전수조사: 관심의 대상이 되는 모집단 전체를 대상으로 조사하는 것
- ex) 인구조사 등
- 인력과 예산이 비교적 많이 소요됨.
- 현실적으로 집단 내 모든 단위를 조사하는 것은 불가능한 경우가 많기 때문에, 대부분의 통계조사는 표본조사에 의해 이루어짐.
- 표본조사: 관심의 대상이 되는 모집단에서 표본을 추출하여 표본을 대상으로 조사를 시행하는 것
- 일부의 표본으로 조사분석을 시행하고 모집단 전체의 분석결과로 사용이 가능
- 전수조사에 비해 비용 절감
- 조사결과의 신속성
- 조사규모가 크지않기 때문에 심도 있는 조사 가능
- 관리가 비교적 잘 되어 정확성이 높음.
- 전수조사: 관심의 대상이 되는 모집단 전체를 대상으로 조사하는 것
- 표본추출 오차 (Sampling Bias, Sampling Error)
- 표본에서 선택된 대상이 모집단의 특성을 과잉 대표하거나 최소 대표할 때 발생
- 과잉 대표
- 중복선택 등의 원인으로 모집단이 반복, 중복된 데이터만으로 규정되는 현상 지칭
- 최소 대표
- 실제모집단의 대표성을 나타낼 표본이 아닌 다른 데이터가 표본이 되는 현상
- 표본추출 시 표본의 크기(Sample Size)보다는 대표성을 갖는 표본 추출하는 것이 가장 중요
- 확률 표본추출 기법
- 모집단에 속하는 모든 추출단위에 대해 사전에 일정한 추출확률이 주어지는 표본추출법
- 모든 표본들의 추출확률을 사전에 알 수 있음.
- 표본자료로부터 얻어지는 추정량의 통계적 정확도를 확률적으로 나타낼 수 있음.
- 단순무작위 추출(Simple Random Sampling)
- 통계조사에서 가장 기본이 되는 표본추출법
- 모집단으로부터 무작위 추출하고 독립적 선택으로 편향성을 제거하여 난수를 이용하는 것이 기본
- 추출 모집단에 대해 사전지식이 많지 않은 경우 시행하는 방법
- 계통추출(Systematic Sampling)
- 모집단에서 추출간격(Sampling Interval)을 설정하여 간격 사이에서 무작위로 추출하는 방법
- 만일 전체 모집단이 N개인 집단에서 K(<N)라는 추출간격으로 뽑는다면 N/K 수만큼 표본이 선택됨.(1/K 계통추출법)
- 층화추출(Stratified Sampling)
- 모집단을 서로 겹치지 않게 여러 층(strata)으로 나누어 분할된 층별로 배정된 표본을 단순 임의 추출법에 따라 추출하는 방법
- 각 집단별 분석이 필요한 분석의 경우나 모집단 전체에 대한 특성치의 효율적 추정(추론)이 필요한 경우 시행
- ex) 모집단 남녀 성비가 3:2이면 표본의 성비도 3:2가 되도록 뽑는 경우
- 특징
- 단순임의추출법에 비해 추정의 정도를 높일 수 있음.
- 전체 모집단에 대한 추정뿐 아니라 각 층별 추정결과도 얻을 수 있음.
- 모집단을 효과적으로 층화할 경우 임의표본에서 구한 추정량보다 오차가 적게 되어 추정의 정도를 높일 수 있음.
- 표본의 대표성 제고 및 조사관리가 편리하고, 조사비용이 절감됨.
- 층화변수
- 모집단을 몇 개의 층으로 나누려고 할 때 각 추출단위가 어느 층에 속하는지를 구분하기 위해 기준으로 사용되는 변수
- 사전에 모집단 단위들의 정보를 쉽게 알 수 있으면서도 조사하고자 하는 주변수와 밀접한 관련이 있는 보조 변수가 되어야 함.
- 질적 층화변수: 변수 값에 따라 층 구분
- 양적 층화변수: 층의 경계점을 나누는 방법 필요
- 층화변수가 양적 변수인 경우 층의 최적경계점(optimum point of stratification)
- 모집단을 n개의 층으로 나누려면 n-1개의 경계점 결정해야 함.
- 추정값의 분산을 최소화시킬 수 있도록 경계점 결정
- ex) 여론조사에서 층화변수 선택시 성별, 지역, 연령, 학력 등을 기준으로
- 표본의 배분
- 각 층 내 추출단위들의 수: 많으면 크게 늘림.
- 각 층 내 변동의 정도: 변동의 정도가 커지면 크게 늘림.
- 각 층에서 추출단위를 조사하는데 드는 비용: 비용증가 시 줄임.
- 표본 배분의 방법 예시
- 비례배분법
- 각 층 내의 추출단위 수에 비례하여 표본크기 배분
- 층 내 변동과 조사비용은 고려하지 않고 층의 크기만을 고려한 방법
- 일반적으로 여론조사, 의식조사 등에 많이 활용
- 네이만배분법
- 각 층의 크기와 층별 변동의 정도를 동시에 고려한 표본배정 방법
- 변동이 큰 층에 대해서는 상대적으로 많은 표본 배정
- 최적배분법
- 추정량의 분산을 최소화시키거나 주어진 분산의 범위 하에서 비용을 최소화
- 비례배분법
- 군집추출(Cluster Sampling)
- 모집단을 차이가 없는 여러 개 군집으로 나누어 군집의 단위 일부 또는 전체에 대한 분석 시행
- 모집단에 대한 구체적인 추출 방법론을 정하기 어려운 경우 사용하면 편리함.
- 표본의 크기가 같은 경우 단순 임의추출에 비해 표본 오차가 증대할 가능성이 있음.
- 모집단에 속하는 모든 추출단위에 대해 사전에 일정한 추출확률이 주어지는 표본추출법
- 비확률 표본추출 기법
- 각 추출단위들이 표본에 추출될 확률을 객관적으로 나타낼 수 없는 표본추출법
- 일반적으로 모집단을 정확히 규정지을 수 없는 경우, 표본오차가 큰 문제가 되지 않는 경우, 본 조사에 앞서서 진행되는 새로운 개념에 대한 탐색적 연구 등에 사용
- 비용, 시간, 조사의 편리함 때문에 자주 사용
- 간편추출법(편의추출법, Convenience Sampling)
- 응답자 선정하는 데 있어서 조사원 개인의 자의적 판단에 따라 간편한 방법으로 표본을 추출하는 방법
- 얻어진 표본이 목표모집단을 얼마나 잘 대표하는지 알 수 없고, 얻어진 통계치에 대한 통계적 정확성을 평가할 수 없음.
- ex) 어떤 특정장소를 지나가는 사람들을 대상으로 여론조사를 하는 경우
- 판단추출법(Judgement Sampling)
- 조사자가 나름의 지식과 경험에 의해 모집단을 가장 잘 대표한다고 여겨지는 표본을 주관적으로 선정하는 방법
- 판단추출법에 의한 표본은 조사자의 주관적 판단에 의해 표본이 추출되기 때문에 그 표본을 통해 얻은 추정치의 정확성에 대해 객관적으로 평가할 수 없음.
- 표본의 크기가 작은 경우 조사의 오차를 좌우하는 요인은 추정량의 분산이 될 수 있음.
- ex) 어느 교육연구소의 연구원이 전체 학생들의 평균성적을 알아보기 위해 전체 학생들의 성적을 대표한다고 생각되는 몇 학교를 나름대로 선택하는 경우
- 할당추출법(Quota Sampling)
- 조사목적과 밀접하게 관련되어 있는 조사대상자의 연령이나 성별과 같은 변수값에 따라 모집단을 부분집단으로 구분하고, 모집단의 부분집단별 구성비율과 표본의 부분집단별 구성비율이 유사하도록 표본을 선정하는 방법
- 비용이 적게 들고 손쉽기 때문에 단기간에 조사를 해야하는 경우에 알맞은 방법
- ex) 어느 대학에서 학생 서비스 만족도를 조사하고자 한다면 기존의 자료에 의거하여 각 학과별, 학년별, 성별 구성비율을 알아본 다음, 그 비율에 따라 표본을 학과별, 학년별, 성별로 할당
- 눈덩이추출법(Snowball Sampling)
- 접근이 어렵거나 추출틀(Sampling Frame)의 작성이 곤란한 특정 집단에 대한 조사에서 사용되는 방법
- 먼저 해당 집단에 속하는 것을 사전에 알고 있는 사람들을 대상으로, 해당 집단에 속하는 다른 사람들을 소개받아서 조사를 진행하는 방법
- (이와 같은 소개과정을 통해 표본은 눈덩이처럼 점점 커지게 됨.)
- ex) 폭력조직원들의 약물사용 실태를 조사할 경우, 대학교수들의 금융투자자산에 대한 인식 조사를 할 경우
- 각 추출단위들이 표본에 추출될 확률을 객관적으로 나타낼 수 없는 표본추출법
03. 확률분포
- 기술통계: 분석에 필요한 데이터를 요약해 묘사, 설명하는통계기법
- 추측(추론)통계: 표본에 내포되어 있는 정보를 이용하여 모집단에 대한 과학적인 추론을 하는 통계기법
- 확률의 개념
- 통계적 현상
- 불확정 현상을 반복해 관찰하거나 혹은 집단 안에서 대량으로 관찰하여 그 고유의 법칙성을 찾아내는 것이 가능한 현상
- 확률 실험
- 통계적 확률
- 일반적인 자연 현상이나 사회 현상에서 일어날 가능성이 동일한 경우가 많지 않아서 수학적 확률로 구할 수 없는 경우가 대부분임.
- 이러한 경우 사건이 일어나는 확률을 상대도수에 의해 추정함.
- 즉, n회의 시행에서 문제의 사건이 r회 일어났다고 하면 상대도수는 r/n으로 정의할 수 있으며,
- 이와 같이 추정되는 확률을 통계적 확률이라고 함.
- 사건(Event)
- 동일한 상태로 여러 차례 반복할 수 있는 실험이나 관측 → 시행
- 시행의 결과로서 나타나는 것 → 사건
- 표본공간(Sample Space)
- 통계적 실험에서 모든 발생 가능한 실험결과들의 집합
- 확률의 기본성질
- 어떤 사건 A가 발생할 확률은 항상 0 이상
- 표본공간 S 사건이 발생할 확률은 1이다 (사건은 무조건 표본공간 내에서 발생)
- ... 등등 (내가 이미 알고 있는 지식)
- 조건부 확률
- 사건 B가 일어났다는 조건하에서 다른 사건 A가 일어날 확률
- 결합 확률(확률의 곱셈)
- 사건 A와 B가 동시에 발생하는 확률로 이를 확률의 곱셈 법칙이라고 함.
- 총확률정리(Total Probability Rule)
- 임의의 사건 B의 확률을 k개의 조건부 확률을 이용해 구하는 것
- 베이지안 정리(베이즈 정리, Baye's Theorem)
- 총확률정리를 이용해 임의의 사건 B의 확률을 k개의 조건부 확률을 이용해 계산하면 베이지안 법칙을 이용해 표본공간을 분할하는 k개의 상호 배타적인 사건 A1, ... , Ak에 대한 사후확률(Posterior Probability)을 구할 수 있음.
- 통계적 현상
- 확률변수
- 확률변수(Random Variable)
- 사건의 시행의 결과(확률)를 하나의 수치로 대응시킬 때의 값(확률값)
- 확률변수의 종류
- 이산확률변수(Discrete Random Variable)
- 연속확률변수(Continuous Random Variable)
- 확률변수(Random Variable)
- 확률분포
- 수치로 대응된 확률변수의 개별 값들이 가지는 확률값의 분포
- 이산확률분포(Discrete Probability Distribution)
- 확률질량함수(Probability Mass Function)
- 연속확률분포(Continuous Probability Distribution)
- 확률밀도함수(Probability Density Function)
- 확률분포함수(Probability Distribution Function, 확률함수)
- 이산확률분포함수(Discrete Probability Distribution Function)
- 확률변수가 이산적인 확률분포를 갖는 함수
- 연속확률분포함수(Continuous Probability Distribution Function)
- 확률변수가 연속적인 확률분포를 갖는 함수
- 이산확률분포함수(Discrete Probability Distribution Function)
- 확률변수의 기댓값과 분산
- 기댓값(Expected Value)
- 이산확률변수의 기댓값
- 연속확률변수의 기댓값
- 기댓값의 성질
- 선형성: E(aX+b) = aE(x) + b
- 덧셈법칙: E(X+Y) = E(X) + E(Y)
- 곱셈법칙
- E(XY) ≠ E(X)E(Y): 일반적으로 두 확률변수는 곱셈법칙 성립 X
- E(XY) = E(X)E(Y) : 단, 두 확률변수 X와 Y가 독립이면 성립 O
- 분산(Variance)
- 이산확률변수의 분산
- 연속확률변수의 분산
- 분산의 성질
- Var(aX) = a² Var(X)
- Var(X+b) = Var(X)
- Var(X+Y) = Var(X) + Var(Y) + 2Cov(X,Y)
- 기댓값(Expected Value)
- 이산확률분포의 종류
- 베르누이 분포(Bernoulli Distribution, X~Bern(x,p))
- 결과가 성공 아니면 실패, 두 가지로 귀결되어 나오는 이산확률분포
- 이항분포(Binomial Distribution, X~B(n,p))
- 베르누이 시행을 n번 독립적으로 시행할 때 성공횟수를 X로 정의한 이산확률분포
- 다항분포(Multinomial Distribution)
- 여러 개의 값을 가질 수 있는 독립 확률변수들에 대한 확률분포로, 여러 번의 독립적 시행에서 각각의 값이 특정 횟수가 나타날 확률을 정의하는 분포
- 포아송분포(Poisson Distribution)
- 단위 시간 안에 어떤 사건이 몇 번 발생할 것인지를 표현하는 이산확률분포
- 단위공간이나 면적 등에도 적용 가능
- ex) 특정 시간대에 은행창구에 도착한 고객의 수, 책 한페이지당 오탈자의 수, 하루동안 걸려오는 전화의 수 등
- X를 단위시간당 발생건수라고 하면 포아송분포를 평균사건 발생수 λ에 의해 유도되므로, 포아송분포는 기댓값과 분산이 동일하게 정의됨.
- 포아송분포의 근사
- 이항분포는 n과 p라는 두 개의 모수에 유도되지만, 포아송분포는 λ(평균 사건 발생수) 하나로 정의되므로 이상분포를 포아송분포로 근사시켜 확률을 구하는 경우도 있음. 경험적으로 이항확률변수 X는 n이 무한히 커지고 성공확률 p가 매우 작다면(n≥30, p≤0.05) λ=np(이항분포의 기댓값)으로 될 수 있고 포아송분포를 따름.
- 기하분포(Geometric Distribution)
- 베르누이 시행에서 처음 성공까지 시도한 횟수를 분포화한 이산확률분포의 한 종류
- 음이항분포(Negative Binomial Distribution)
- x번의 베르누이 시행에서 k번째 성공할 때까지 계속 시행하는 실험에서의 확률을 나타내는 이산확률분포
- 전체 x번의 시행에서 생각해보면 x-1까지 k-1개의 성공이 있어야 함.
- 이 경우 실패 갯수는 (x-1)-(k-1)=x-k가 됨.
- 초기하분포(Hypergeometric Distribution)
- 비복원 추출에서 N개 중 n개를 선택했을 때, 원하는 것 k개가 뽑힐 확률을 나타내는 이산확률분포
- 베르누이 분포(Bernoulli Distribution, X~Bern(x,p))
- 연속확률분포의 종류
- 연속균등분포(Continuous Uniform Distribution, X~U(a,b))
- 분포가 특정 범위 내에서 균등하게 나타나 있을 경우
- 두 개의 매개변수 a, b를 받으며, 이때 [a,b] 범위에서 균등한 확률을 가짐.
- 지수분포(Exponential Distribution, X~Exp(β))
- 사건이 서로 독립적일 때, 일정 시간동안 발생하는 사건의 횟수가 포아송분포를 따른다면, 다음 사건이 일어날 때까지의 대기시간(β)에 대한 확률이 따르는 분포
- 즉, 포아송 과정에서 한 개의 사건이 발생할 때까지의 대기 시간 의미
- 특징
- 포아송분포와의 관계: 포아송분포는 단위시간당 발생하는 사건 횟수를 관측함. 반면 지수분포는 사건이 일어날 때까지 대기 시간을 관측하는데 관심이 있는 것. 즉, 지수분포는 대기시간, 포아송분포는 횟수
- 지수분포의 무기억성질(Memoryless Property)
- X~Exp(β)일 때 어떤 수 a, b에 대해
- P(X>a+b | X>a) = P(X>b)가 성립하는데
- 이 성질을 지수분포의 무기억 성질이라고 함.
- P(X>a+b | X>a) 고려 시 이전의 a에 대한 확률값은 고려대상이 안되며 결국 P(X>b)만 고려하면 된다는 의미
- X~Exp(β)일 때 어떤 수 a, b에 대해
- 정규분포(Normal Distribution, X~N(μ,σ²))
- 표본을 통한 통계적 추정 및 가설검정이론의 핵심
- 특징
- 평균을 중심으로 대칭이며 종모양(bell-shaped)인 확률밀도함수의 그래프
- 모양과 위치는 평균과 표준편차에 의해 완전히 결정
- 분포의 평균과 표준편차가 어떤 값을 갖더라도, 정규곡선과 X축 사이의 전체면적은 1
- 정규확률변수(Normal Random Variable)는 평균 주위의 값을 많이 취하며 평균으로부터 좌우로 표준편차의 3배 이상 떨어진 값은 거의 취하지 X
- 표준정규분포(Standard Normal Distribution, X~N(0,1))
- 평균 μ=0, 표준편차 σ=1이 되도록 표준화한 정규분포
- 감마분포(Gamma Distribution)
- 두 개의 매개변수를 받으며 양의 실수를 가질 수 있음.
- 지수분포나 포아송분포 등의 매개변수와 연관이 있는 분포로 포아송과정(Θ=1/λ)에서 k개의 사건이 발생할 때까지의 대기시간으로 확률변수 X를 정의
- 사건의 횟수(λ)가 포아송분포를 따른다면, 다음 사건까지의 대기 시간은 Θ=1/λ
- 모수는 k>0, Θ>0
- 특징
- (k,Θ) = (1,Θ) 경우의 감마분포는 지수분포와 동일
- 카이제곱분포(Chi-Squared Distribution, X~x²(k))
- k개의 서로 독립적인 표준정규확률 변수를 각각 제곱한 다음 합해서 얻어지는 분포
- 자유도(df, Degree of Freedom)
- k를 지칭하는 것, 카이제곱분포의 매개변수
- 기댓값 k
- 분산 2k
- 특징
- (k/2,Θ) = (k/2,2) 경우의 감마분포가 카이제곱분포가 됨.
- 카이제곱분포는 신뢰구간이나 가설 검정에서 많이 사용
- 스튜던트 t 분포(Student t-Distribution, X~t(n-1))
- 정규분포의 평균 측정 시 주로 사용하는 분포
- 분포의 모양은 Z-분포와 유사함.
- 종 모양으로서 t=0에 대하여 대칭을 이루는 데 t-곡선의 모양을 결정하는 것은 자유도
- 자유도: 표본 크기 n에서 1을 뺀 것
- F 분포(F Distribution, X~F(k1, k2))
- 두 개의 확률 변수 V1, V2의 자유도가 각각 k1, k2이고 서로 카이제곱분포를 따른다고 할 때, 자유도가 k1, k2인 F-분포를 따름.
- F 분포는 F 검정이나 분산분석 등에 주로 사용되는 분포함수
- 연속균등분포(Continuous Uniform Distribution, X~U(a,b))
04. 표본분포(Sampling Distribution, Finite-sample Distribution)
크기 n의 확률표본의 확률변수의 분포.
하나의 표본으로부터 계산된 통계량은 여러 가지가 있으나 평균을 가장 많이 사용하므로 평균을 사용한 표본분포를 대표적으로 기술함.
- 모집단의 분포와 표본분포
- 모집단의 모수(parameter)
- 모집단의 특성을 나타내는 특성값 → 모수
- 표본의 통계량
- 모집단의 모수(parameter)
- 표본평균의 표본분포
- 모집단으로부터 표본을 추출하였을 때 얻을 수 있는 모든 표본평균값을 확률변수로 하는 확률분포
- 표본평균의 표본분포 통계량
- 표본평균의 표본분포 평균
- 표본평균의 표본분포 분산(표준편차)
- 표준오차(Standard Error of the Mean)
- 중심극한정리 (Central Limit Theorem)
- 동일한 확률분포를 가진 독립 확률변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까우진다는 정리
- 린데베르그 - 레비(Lindeberg-Levy) 중심극한정리
- 만약 확률변수 X1, ... , Xn들이 서로 독립이고 같은 확률분포를 가지며 그 확률분포의 평균과 표준편차가 유한하다면 평균 Sn = (X1 + ... + Xn) / n의 분포는 기댓값 μ, 표준편차 σ/√n인 정규분포 N(μ, σ²/n)에 수렴함.
- 중심극한정리의 의미
- 모집단의 분포가 무엇이든 상관없이 표본의 수가 큰 표본분포들의 표본평균의 분포가 정규분포를 이룸.
- 정규분포는 다시 표준정규분포로 변환이 가능하므로 우리가 알고 있는 표준정규분포의 각종 결과를 이용하여 추정(판단)
- 린데베르그 - 레비(Lindeberg-Levy) 중심극한정리
- 동일한 확률분포를 가진 독립 확률변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까우진다는 정리
- 표본평균의 표준화
- 표본평균의 구간확률
- 표준화 Z를 통해서 표본 평균을 표준화한 후 표준정규분포표를 이용해 확률 찾으면 됨.
- 표본평균의 구간확률
- 표본비율(Sample Proportion)
- 크기가 N인 모집단으로부터 표본크기가 n인 표본을 추출 시 이 표본을 구성하는 n개의 개체들을 통해 조사하고자 하는 결과가 성공 또는 실패로 구분될 때, 표본을 구성하는 n개의 개체 중 성공으로 나타나는 개체 수의 비율
- 모비율: 모집단에서 성공으로 나타나는 개체 수의 비율, 모집단의 특성
- 표본비율의 표본분포(Sampling Distribution of Sample Proportion)
- 표본으로 추출될 가능성이 있는 모든 표본들에 대한 표본비율 값의 확률분포
- 모비율과 비슷한 표본비율을 가진 표본들이 추출될 가능성은 매우 클 것으로 기대되지만 반대의 경우는 희박해질 것이 예상될 때, 이렇게 표본으로 추출될 가능성이 있는 모든 표본비율의 값을 표본분포라 정의함.
- 표본분포에서의 평균과 표준오차
- 표준오차는 표본분포의 퍼짐 정도를 나타내며, 작을수록 표본평균이 모집단 평균에 가까워지므로, 더 정확한 추정
- 표본비율의 표본분포
- 표본비율의 표준화는 표본평균의 표준화와 동일개념
- 표본으로 추출될 가능성이 있는 모든 표본들에 대한 표본비율 값의 확률분포


'빅데이터분석기사' 카테고리의 다른 글
| [필기] 분석 절차 수립 (0) | 2026.03.16 |
|---|---|
| [필기] 추론통계 (0) | 2026.03.16 |
| [필기] 고급 데이터 탐색 (0) | 2026.03.15 |
| [필기] 데이터 탐색의 기초 (0) | 2026.03.14 |
| [필기] 분석 변수 처리 (0) | 2026.03.14 |
