AYSTORY

[필기] 고급 분석기법 본문

빅데이터분석기사

[필기] 고급 분석기법

bye0nzn 2026. 3. 20. 16:08
범주형 자료분석
다변량 분석
시계열 분석
베이즈 기법
딥러닝 분석
비정형 데이터 분석
앙상블 분석

01. 범주형 자료분석

  1. 범주형 자료분석의 통계적 정의
    • 범주형 자료분석은 변수들이 이산형 변수일 때 주로 사용하는 분석
    • 예; 두 제품 간 선호도가 성별에 따라 연관이 있는지 여부를 판단하고자 하는 경우, 각 집단 간의 비율차이가 있는지 확인하기 위한 경우 등에 주로 사용
  2. 자료의 분석
    1. 자료의 형태에 따른 범주형 자료 분석 방법
      • (독립변수) - (종속변수) - (분석방법) - (예제) 
      • 범주형 - 범주형 - 빈도분석, 카이제곱 검정, 로그선형모형 - 지역별 선호정당
      • 연속형 - 범주형 - 로지스틱 회귀분석 - 소득에 따른 결혼의 선호도
      • 범주형 - 연속형 - T검정(2그룹), 분반분석(2그룹 이상) - 지역별 가계수입의 차이
      • 연속형 - 연속형 - 상관분석, 회귀분석 
    2. 분할표
      • 범주형데이터가 각 변수에 따라서 통계표 형태로 정리되어 쓴 것
        • 차원(Dimensionality): 분할표 구성에 관계뙨 변수의 수로 정의
        • 수준(Level): 범주형 변수가 갖는 범주의 수
      • 2차원 분할표 상의 비율 비교
        • 비율의 차이(Difference of Proportions): D = a1 - a2
          • 범위는 -1 ~ 1 사이를 취하며 동질 또는 독립인 경우 D = 0
        • 상대적 위험도(Relative Risk): RR = a1 / a2
          • 범위는 0 ~ ∞ 이며 동질 또는 독립인 경우 RR = 1
        • 오즈비(Odds Ratio): OR = {a1 / (1-a1)] / {a2 / (1-a2)}
          • 범위는 0 ~ ∞ 이며 동질 또는 독립인 경우 OR = 1
    3. 빈도분석
      • 질적자료를 대상으로 빈도와 비율을 계산할 때 쓰임.
      • 데이터에 질적/양적 자료가 많을 때 질적자료를 대상으로 오류가 있는지 확인 가능
    4. 로지스틱 회귀분석
      • 분석하고자 하는 대상들이 두 집단 또는 그 이상의 집단으로 나누어진 경우 개별 관측치들이 어느 집단으로 분류될 수 있는지 분석할 때 사용
    5. 교차분석 또는 카이제곱검정(Chi-Square Test)
      • 두 범주형 변수가 서로 상관이 있는지 독립인지를 판단하는 통계적 검정방법
    6. t - 검정
      • 독립변수가 범주형(두 개의 집단)이고 종속변수가 연속형인 경우 사용되는 검정 방법으로 두 집단간의 평균 비교 등에 사용됨.
    7. 분산분석
      • 독립변수가 범주형(두 개 이상 집단)이고 종속변수가 연속형인 경우 사용되는 검정 방법
      • 두 집단간 분산 비교 등에 사용

02. 다변량분석(Multivariate Analysis)

- 다변량분석은 조사 중인 각 개인 혹은 대상물에 대한 다수의 측정치를 동시에 분석하는 모든 통계적 방법
- 많은 다변량분석 기법은 일변량(다변량)분석과 이변량분석의 확장형태라 할 수 있음.

 

  1. 용어
    • 종속 기법(Dependence Methods)
      • 변수들을 종속변수와 독립변수로 구분 → 독립변수들이 종속변수에 미치는 영향력 분석하는 기법
    • 상호의존적 기법(Interdependence Methods)
      • 분석할 변수들을 종속변수와 독립변수로 구분하지 않고 전체를 대상으로 하는 분석
    • 명목 척도(Nomial Scale)
      • 단지 분류만을 위해 사용된 숫자 → 숫자 그 자체는 전혀 의미가 없는 측정단위
    • 순위 척도(Ordinal Scale)
      • 선호되는 순위를 나타낸 숫자 → 숫자 그 자체는 전혀 의미가 없는 측정단위
    • 등간 척도(Interval Scale)
      • 측정된 숫자 자체와 숫자의 차이는 의미를 가지나 숫자의 비율은 의미를 가지지 못하는 측정단위
    • 비율 척도(Ratio Scale)
      • 측정된 숫자와 그 간격이 의미를 가질 뿐만 아니라 숫자의 비율마저도 의미를 가지는 가장 높은 측정단위
    • 정량적 자료(Metric Data)
      • 등간척도나 비율척도로 측정된 자료 → 양적자료 도는 모수화된 자료라고도 함.
    • 비정량적 자료(Nonmetric Data)
      • 명목척도나 순위척도로 측정된 자료 → 질적자료 또는 비모수화된 자료라고도 함.
    • 변량(Variable)
      • 변수(Variable)들이 연구자의 실험대상인 표본으로부터 수집한 자료를 그대로 나타내는 반면,
      • 변량(Variate)은 이러한 변수들을 일종의 통계적인 방법으로 가중치를 두어 변수들의 합이 형태로 나타낸 새로운 변수
  2. 다변량분석기법의 종류
    • 다중회귀분석(Multi Regression)
      • 하나의 계량적 종속변수와 하나 이상의 계량적 독립변수 간 관련성 있다고 가정되는 연구문제에 적합한 분석기법
      • 다수의 독립변수의 변화에 따른 종속변수의 변화 예측
    • 다변량분산분석, 다변량공분산분석
      • 다변량분산분석(Multivariate ANOVA)
        • 두 개 이상의 범주형 독립변수와 다수의 계량적 종속변수 간 관련성을 동시에 알아볼 때 이용되는 통계적 방법
        • 두 개 이상의 계량적 종속변수에 대한 각 집단의 반응치의 분산에 대한 가설을 검증하는 데 유용
      • 다변량공분산분석(Multivariate ANCOVA)
        • 실험에서 통제되지 않은 독립변수들의 종속변수들에 대한 효과 제거하기 위해 다변량분산분석과 함께 이용
    • 정준상관분석(Canonical Analysis)
      • 하나의 계량적 종속변수와 다수의 계량적 독립변수 간 관련성을 조사하는 다중회귀분석을 논리적으로 확대시킨 것
      • 종속변수군과 독립변수군 간의 상관을 가장 크게 하는 각 변수군의 선형조합을 찾아내는 일
      • 기본원리
        • 종속변수군과 독립변수군 간 상관을 가장 크게 하는 각 변수군의 선형조합을 찾아내는 일
    • 요인분석(Factor Analysis) ★
      • 많은 수의 변수들 간 상호관련성을 분석하고, 이들 변수들을 어떤 공통 요인들로 설명하고자 할 때 이용되는 기법
      • 즉, 많은 수의 원래 변수들을 이보다 적은 수의 요인으로 요약하기 위한 분석법
      • 주요 목표
        • 변수 간 상관 관계 파악
        • 변수의 차원 축소
        • 요인 해석
      • 주로 PCA나 최대우도법 기반으로 수행됨. 
      • 종류
        • 탐색적 요인분석: 연구자가 가설적 요인을 설정하지 않고 얻어진 자료에 근거해 경험적으로 요인의 구조를 파악
        • 확인적 요인분석: 연구자가 사전에 요인의 구조를 가설적으로 설정하고 이를 검증
    • 군집분석(Cluster Analysis)
      • 집단에 관한 사전정보가 전혀 없는 각 표본에 대하여 그 분류체계를 찾을 때, 다시 말해 각 표본을 표본들 간 유사성에 기초해 한 집단에 분류시키고자 할 때 사용되는 기법 →  판별분석과 달리 군집분석에서는 집단이 사전에 정의 X 
      • 단계
        1. 몇 개의 집단이 존재하는가 알아보기 위해 각 표본들 간 유사성 혹은 연관성 조사
        2. 첫 번째 단계에서 정의된 집단에 어떤 표본을 분류해 넣거나 혹은 그 소속 예측
        3. 두 번째 단계에는 군집기법에 의해 나타난 그룹들에 대해 판별분석을 적용
    • 다중판별분석(Multi Discriminant Analysis)
      • 종속변수가 남/녀와 같이 두 개의 범주로 나뉘어져있거나, 상/중/하와 같이 두 개 이상의 범주로 나눠져 있을 경우, 
      • 즉 종속변수가 비계량적 변수일 경우 다중판별분석 이용됨.
      • 주목적은, 집단 간의 차이 판별 + 어떤 사례가 여러 개의 계량적 독립변수에 기초하여 특정 집단에 속할 가능성을 예측하는 데 있음.
    • 다차원척도법(MDS: Multi-Dimensional Scaling)
      • 다차원 관측값 또는 개체들 간 거리 또는 비유사성 이용 → 개체들을 원래의 차원보다 낮은 차원의 공간상에 위치시켜 개체들 사이의 구조 또는 관계를 쉽게 파악하고자 함. 

03. 시계열분석

- 시계열 자료(data)를 분석하고 여러 변수들 간 인과관계 분석하는 방법론
- 경제학에서도 매우 많이 쓰이는 방법론으로 계량경제학이나 금융, 거시경제분석에 사용함.

 

  1. 시계열 자료
    • 시간의 흐름에 따라 관측되는 데이터
    • 미래에 대해 예측 또는 제어하는 것이 주 이용목적
      • 이산 시계열: 관측값들이 이산적인 형태로 분리되어 존재
      • 연속 시계열: 관측값들이 연속적으로 연결된 형태의 자료
      • 시차(Time Log): 한 관측시점과 다른 관측시점 사이의 간격
  2. 시계열자료의 성분
    • 불규칙 성분(Irregular Component): 시간에 따른 규칙적인 움직임이 없는(무관하게) 랜덤하게 변화하는 변동성분
    • 체계적 성분(Systemic Component): 시간에 다른 규칙이 존재하는 변동성분
      • 추세성분(Trend Component): 관측값이 지속적 증가 / 감소하는 추세 포함
      • 계절성분(Seasonal Component): 주기적 성분에 의한 변동을 갖는 형태(계절, 월, 주, 년 등)
      • 순환성분(Cyclical ~): 주기적 변화를 가지나 계절적인 것이 아닌 주기가 긴 변동을 갖는 형태(경기 대순환, Business Cycle)
      • 복합성분: 추세성분과 계절성분을 동시에 갖는 경우
      • 자기상관성(Autocorrelation): 시계열 데이터에서 시차값들 사이에 선형관계를 보이는 것 → 자기상관
      • 백색잡음(White Noise): 자기 상관성 없는 시계열 데이터, 아무런 패턴이 남아있지 않은 무작위한 움직임을 보이는 데이터
  3. 정상성(Stationarity)
    • 시계열 데이터가 평균과 분산이 일정한 경우
    • 평균이 일정
      • 모든 시점에 대해 평균이 일정
      • 시계열 데이터가 평균이 일정하지 않으면 차분(difference)을 통해 정상성을 가지도록 함.
    • 분산이 일정
      • 모든 시점에서 분산이 일정
      • 시계열 데이터가 분산이 일정하지 않으면 변환(transformation)을 통해 정상성 갖도록 함.
    • 공분산의 경우도 단지 시차에만 의존하며 특정시점에는 의존 X
  4. 정상성을 갖는 시계열 자료의 특징
    • 정상시계열은 어떤 시점에서 평균분산 그리고 특정시차가 일정한 경우의 공분산이 도잉ㄹ
    • 항상 평균회귀 경향이 있으며 평균 주변의 변동을 대체로 일정한 폭
    • 정상성을 가지는 시계열의 경우, 특정기간에서 얻은 정보를 다른 시기에서도 사용이 가능한 정보로 일반화가 가능하지만 아닌 경우는 일반화가 힘듦.
  5. 시계열자료의 분석 방법
    • 분석 방법 개요
      • 예측(Forecast) 목적
        • 단순 방법
          • 추세분석 이동평균
          • 평활법(Smoothing Method)
          • 분해법(Decomposition Method)
        • 모형 기반
          • 자기회귀모형(AR: AutoRegressive Model)
          • 자기회귀이동평균모형(ARMA: AutoRegressive Moving Average Model)
          • 자기회귀누적이동평균모형(ARIMA: AutoRegressive Integrated Moving Average Model)
      • 이해와 제어의 목적
        • 스펙트럼분석
        • 개입분석(Intervention Analysis)
    • 단순 방법
      • 이동평균법(Moving Average Method)
        • 과거로부터 현재까지 시계열 자료를 대상으로 일정기간(관측기간)을 시계열을 이동하면서 평균을 계산하는 방법 → 추세 파악하여 시계열의 다음기간을 예측하는데 사용
      • 지수평활법(Exponential Smoothing Method)
        • 이동평균법과 달리 관찰기간의 제한이 없이 모든 시계열 데이터를 사용하며 최근 시계열에 더 많은 가중치를 주며 추세를 찾는 방법
        • 단기간에 발생하는 불규칙 변동을 평활하는데 주로 사용 → 지수평활계수의 효과로 과거 데이터일수록 가중치를 적게 배당
      • 분해법
        • 시계열자료의 성분 분류대로 시계열 데이터를 분해
        • 시계열이 체계적 성분과 불규칙적 성분으로 이루어져 있다는 가정하에 체계적 성분을 시계열로부터 분리하여 분석/예측을 목적으로 하는 기법
        • 시계열자료로부터 계절적 특성, 추세/순환 성분을 분리하여 시계열의 장기적 추이 분석, 불규칙성분으로부터 불규칙성이 발생한 시점을 찾는 것
    • 모형에 의한 방법
      • 자기회귀모형(AR)
        • 현재 값이 이전의 값들에 의존하는 선형회귀 모형
        • 시계열 데이터의 패턴과 추세를 파악하는 데 사용
        • 시계열 데이터 예측, 변동성 모델링, 이상 탐지 등 다양한 분야에서 활용됨.
      • 자기회귀이동평균모형(ARMA)
        • AR과 이동평균모형(MA)를 결합한 형태
        • 시계열 데이터의 자기 상관과 이동평균 구조를 설명하는데 사용
        • 시계열 데이터의 자기상관 구조와 이동평균 구조를 동시에 고려 → 데이터 모델링
        • 과거 값들과 이전 예측 오차들이 현재 값을 예측하는데 어떤 영향을 미치는지 알 수 있음.
        • 주요 특징
          • AR(p) 구성요소: AR의 구성요소는 현재 값이 p개의 이전 값에 의존하는 선형회귀 모형
          • MA(q) 구성요소: MA 구성요소는 현재 값이 q개의 이전 예측 오차에 의존하는 선형회귀 모형
          • 백색 잡음: 예측 오차를 백색 잡음으로 가정
        • ARMA(p,q)로 표현 → p는 AR 구성요소의 차수, q는 MA 구성요소의 차수
          • 예; ARMA(1,1) 모형은 자기회귀 모형에서 이전 1개 값에 의존하고, 이동평균 모형에서 이전 1개 예측 오차에 의존하는 모형
      • 자기회귀누적이동평균모형(ARIMA)
        • 비정상적 시계열 데이터를 정상성을 가진 시계열 데이터로 변환한 후, AR과 MA를 결합해 모델을 구축함.
        • 시계열 데이터의 경향성, 계절성, 잔차 구조 등 설명하는데 사용
        • AR, MA, 데이터의 차분(Differencing)을 결합한 형태로 정의
        • 주요 특징
          • AR(p) 구성요소: 현재 값이 p개의 이전 값에 의존하는 선형회귀 모형
          • MA(q) 구성요소: 현재 값이 q개의 이전 예측 오차에 의존하는 선형회귀 모형
          • 차분: 원래 시계열 데이터의 차분을 포함함. 차분은 현재 값과 이전 값의 차이를 계산해 시계열 데이터의 경향성을 제거하는 과정 → 데이터의 정상성을 가진 시계열로 변환해 모델링
        • ARIMA(p, d, q)로 표현 → p는 AR 구성요소의 차수, q는 MA 구성요소의 차수, d는 차분의 차수
          • 예; ARIMA(1,1,1) 모형은 자기회귀 모형에서 이전 1개 값에 의존, 이동평균 모형에서 이전 1개 예측 오차에 의존, 1차 차분을 통해 정상성을 가진 모형

04. 베이즈 기법

  1. 베이즈 추론(베이지안 추론, Bayesian Inference)
    • 확률론적 의미해석(조건부 확률)
    • 베이즈 기법의 개념
  2. 회귀분석모델에서 베이즈 기법의 적용
    • 선형회귀분석모델(Linear Regression)
      • 추정치와 실제의 차이(loss)를 최소화하는 것
    • 베이지안 확률론의 적용개념
  3. 분류에서 베이즈 기법의 적용
    • 나이브 베이즈 분류(Naive Bayes Classification)
      • 특성들 사이의 독립을 가정하는 베이즈 정리를 적용한 확률 분류기 지칭
      • 분류기를 만들 수 있는 간단한 기술 → 단일 알고리즘을 통한 훈련이 아닌 일반적인 원칙에 근거한 여러 알고리즘들을 이용해 훈련
    • 나이브 베이즈의 장점
      • 일부 확률모델에서 나이브 베이즈 분류 → 지도 학습 환경에서 매우 효율적으로 훈련 가능
      • 분류에 필요한 파라미터를 추정하기 위한 트레이닝 데이터 양이 매우 적음.
      • 간단한 디자인과 단순한 가정에도 불구하고, 많은 복잡한 실제 상황에서 잘 작동함.
    • 나이브 베이즈 분류기의 생성(확률모델)
    • 이벤트 모델
      • 클래스의 사전확률은 각 클래스 간 동일하다고 가정할 수 있음.
      • 사전확률과 특성의 분포에 대한 가정들을 기반으로 데이터를 설명하고 예측하는 것이 목표
      • 종류
        • 가우시안 나이브 베이즈: 연속적 값을 지닌 데이터 처리할 때, 각 클래스의 연속적 값 벡터들이 가우시안 분포를 따른다고 가정
        • 다항분포 나이브 베이즈: 특성 벡터들이 다항분포에 의해 생성된 이벤트의 경우 사용함.
        • 베르누이 나이브 베이즈: 특성 벡터들이 독립적인 이진 변수로 표현될 경우 사용함.

05. 딥러닝 분석

  1. 딥러닝 분석의 개념
    • 인공신경망(ANN)
      • 문제점
        • 계산속도 저하
        • 초기치 의존성
        • 과적합 문제
    • 딥러닝
      • 여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화 시도하는 기계학습 알고리즘의 집합
      • 원리
        • 기존에는 신경망의 학습수준을 높이기 위해 하나의 은닉층에 은닉노드를 3개가 아니라 10개, 100개 이런 식으로 동일 레이어 내 수직으로 쭉 늘려놓기만 했었는데, 은닉층 자체를 여러 개로 만들어 여러 단계를 거치도록 신경망 구성 → 정확도 향상
  2. 딥러닝 분석 알고리즘
    • 심층 신경망(DNN: Deep Neural Network)
      • 입력층과 출력층 사이에 여러 개의 은닉층들로 이뤄진 인공 신경망
    • 합성곱 신경망(CNN)
      • 최소한의 전처리를 사용하도록 설계된 다계층 퍼셉트론의 한 종류
    • 순환 신경망(RNN)
      • 순방향 신경망(Food forward Neural Network)과 달리, 임의의 입력을 처리하기 위해 신경망 내부의 메모리 활용 가능
      • 기존의 뉴럴 네트워크와 다른 점은 '기억'을 갖고 있다는 점 → 네트워크의 기억은 지금까지의 입력 데이터를 요약한 정보
    • 심층 신뢰 신경망(DBN: Deep Belief Network)
      • 기계학습에서 사용되는 그래프 생성 모형
      • 선행학습을 통해 초기 가중치를 학습한 후 역전파 혹은 다른 판별 알고리즘을 통해 가중치의 미조정 가능
        • 훈련용 데이터가 적을 때 굉장히 유용한데, 이는 훈련용 데이터가 적을수록 가중치의 초기값이 결과적인 모델에 끼치는 영향이 세지기 때문.

06. 비정형 데이터 분석

  1. 비정형 데이터
    • 데이터 수집의 난이도
      • 정형 데이터: 하
      • 반정형 데이터: 중 (보통 API 형태로 제공 → 데이터 처리 기술 요구)
      • 비정형 데이터: 상 (텍스트 마이닝 혹은 파일 → 파일을 데이터 형태로 파싱해야해서 수집 데이터 처리가 어려움.)
    • 데이터 처리의 아키텍처
      • 정형 데이터: 일반적
      • 반정형 데이터: 데이터의 메타구조 해석 → 정형 데이터 형태로 바꿀 수 있는 아키텍처 구조 수정
      • 비정형 데이터: 텍스트나 파일을 파싱 → 메타구조를 갖는 데이터셋 형태로 바꾸고 정형 데이터 형태의 구조로 만들 수 있도록 아키텍처 구조 수정
    • 데이터의 잠재적 가치
      • 정형 데이터: 하
      • 반정형 데이터: 중
      • 비정형 데이터: 상 
  2. 비정형 데이터 분석
    • 비정형 데이터 분석의 기본 원리
      • 비정형 데이터의 내용 파악과 비정형 데이터 속 패턴 발견을 위해 데이터 마이닝, 텍스트 분석, 비표준 텍스트 분석 등과 같은 다양한 기법을 사용
      • 비정형 데이터를 정련 과정을 통해 정형데이터로 만든 후 → 분류, 군집화, 회귀 분석, 요약, 이상감지 분석 등의 데이터 마이닝을 통해 의미있는 정보 발굴
    • 데이터 마이닝
      • 통계적 규칙이나 패턴을 분석하여 가치있는 정보를 추출하는 과정
      • 적용 분야
        • 분류
        • 군집화
        • 연관성: 동시에 발생한 사건 간 관계 정의
        • 연속성: 특정 기간에 걸쳐 발생하는 관계 규명 기간의 특성을 제외하면 연관성 분석과 유사
        • 예측
    • 텍스트 마이닝
      • 전통적 데이터 마이닝의 한계를 벗어난 방법
      • 인간의 언어로 이루어진 비정형 텍스트 데이터들을 자연어 처리방식을 이용 → 대규모 문서에서 정보 추출, 연계성 파악, 분류 및 군집화, 요약 등을 통해 데이터의 숨겨진 의미 발견하는 기법
      • 자연어 처리
        • 인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 모사할 수 있도록 연구하고 이를 구현하는 인공지능의 주요 분야 중 하나
      • Text to Vector 변환 기법
        • 텍스트를 벡터로 변환하는 기법은 단어나 문장을 수치적인 형태로 표현 → 기계학습 알고리즘에 적용하기 쉽게 
        • Bag-of-Words(BoW)
          • 텍스트를 단어들의 집합으로 간주하고, 각 단어의 등장 빈도를 계산 → 벡터로 표현하는 기법 
          • 문서 내에 각 단어의 등장 횟수나 이진 플래그 등을 벡터의 원소로 활용
          • 단어 순서나 문맥 정보는 고려하지 않고, 단어들의 출현 빈도에만 집중
        • TF-IDF(Term Frequency-Inverse Document Frequency)
          • 단어의 빈도와 문서의 역문서 빈도를 고려 → 단어를 벡터로 표현하는 기법
          • 각 문서에서의 단어 빈도를 TF로 표현, 전체 문서 집합에서의 단어의 등장 빈도를 IDF라고 표현.
          • 특정 문서에 자주 등장하는 단어는 해당 문서에서 중요한 단어로 간주
          • 전체 문서에서 널리 등장하는 단어는 중요성이 감소
        • Word Embeddings(단어 임베딩)
          • 단어를 고정 크기의 실수 벡터로 표현하는 방법
          • 단어 간 의미적 유사성을 보존하려는 목적으로 개발
          • 단어 간 관계를 벡터 공간에서 표현
        • Sentence Embeddings(문장 임베딩)
          • 텍스트의 문장을 고정 크기의 벡터로 표현
          • 워드 임베딩을 사용 → 문장의 의미를 벡터로 변환하건, 사전 훈련된 모델을 사용하여 문장을 벡터로 변환
          • 대표적 기법; Universal Sentence Encoder, BERT, GPT 등
    • 웹 마이닝
      • 데이터 마이닝 기술의 응용분야
      • 인터넷을 통해 웹자원으로부터 의미있는 패턴, 프로파일, 추세 등 발견하는 것
    • 오피니언 마이닝
      • 어떤 사안이나 인물, 이슈, 이벤트 등과 관련된 원천 데이터에서 의견이나 평가, 태도, 감정 등과 같은 주관적인 정보를 식별하고 추출하는 것
    • 리얼리티 마이닝
      • 사람들이 매일 사용하는 스마트폰 등의 기계나 모션센서 등의 행동 → 비정형 데이터 추출

07. 앙상블 분석

  1. 앙상블 분석의 정의
    • 학습 모형들을 조합 → 하나의 최종 모형을 만드는 개념
    • 약학습기(약분류기, Weak Learner)
      • 무작위 선정이 아닌 성공확률이 높은, 즉 오차율이 일정 이하인 학습 규칙
    • 강학습기(강분류기, Strong Learner)
      • 약학습기로부터 만들어내는 강력한 학습 규칙
  2. 앙상블 분석의 이해
    • 다양한 약학습기를 통해 강학습기를 만들어가는 과정
    • 장점
      • 정확성 향상
      • 과적합 방지
      • 분산 감소
      • 다양한 모델 적용 가능
    • 단점
      • 계산 복잡성 증가
      • 해석 어려움
      • 구현 복잡성
  3. 앙상블 분석 종류
    • 보팅(Voting)
      • 투표를 통해 결정하는 방식
      • 배깅(Bagging)과 투표방식이라는 점에서 유사하지만 사용법에 차이가 있음.
        • 보팅; 서로 다른 여러 학습 모델을 조합해서 사용함. 서로 다른 알고리즘이 도출해 낸 결과물에 대하여 최종 투표하는 방식 → 최종 결과 선택
        • 배깅; 같은 알고리즘 내에서 다른 sample 데이터 조합 사용함.
      • 하드 보팅(Hard Voting); 결과물에 대한 최종 값을 투표해서 결정하는 방식
      • 소프트 보팅(Soft Voting); 최종 결과물이 나올 확률 값을 다 더해서 최종 결과물에 대한 각각의 확률을 구한 뒤 최종 값을 도출해내는 방법
    • 부스팅(Boosting)
      •  가중치 활용 → 연속적인(Sequential) 약학습기를 생성하고 이를 통해 강학습기 만드는 방법
      • 순차적 학습 → 가중치 부여해서 오차 보완해 나감. 하지만 병렬 처리에 어려움이 있고, 시간도 오래걸림.
    • 배깅(Bagging: Bootstrap Aggregation)
      • 샘플을 여러 번 뽑아 각 모델을 학습시켜 결과물을 집계하는 방법
      • 우선, 데이터로부터 부트스트랩을 함. → 부트스트랩한 데이터로 모델의 학습을 거침. → 학습된 모델의 결과를 집계하여 최종 결과값 구함. 
        • 범주형 자료 - 투표 방식으로 결과를 집계(전체 모델에서 예측한 값 중 가장 많은 값을 최종 예측값으로 선정)
        • 연속형 자료 - 평균으로 집계(각각의 결정 트리 모델이 예측한 값에 평균을 취해 최종 배깅 모델의 예측값 결정)
      • 간단하면서도 강력한 방법이며 배깅을 활용한 모델 → 랜덤 포레스트
    • 스태킹(Stacking)
      • 앙상블 학습의 한 종류
      • 여러 개의 다른 모델 조합 → 예측 성능 향상
    • 앙상블 모형의 최적화
      • 다양한 알고리즘과 모델 사용
      • 개별 모델의 다양성 확보
      • 하이퍼파라미터 최적화
      • 교차 검증을 통한 성능 평가
      • 앙상블 크기 결정
      • 앙상블 멤버 간 상관 관계 정리

08. 비모수 통계

  1. 모수(매개변수, 파라미터) 정의
    • 수학과 통계학에서 어떠한 시스템이나 함수의 특정한 성질을 나타내는 변수
  2. 비모수 통계의 개념
    • 모수에 대한 가정을 전제로 하지 않고 모집단의 형태에 관계없이 주어진 데이터에서 직접 확률을 계산 → 통계학적 검정
  3. 비모수 통계법의 사용조건
    1. 자료가 나타내는 모집단의 형상이 정규분포가 아닐 때
    2. 자료가 나타내는 현상이 정규분포로 적절히 변환되지 못할 때
    3. 자료의 표본이 적을 때
    4. 자료들이 서로 독립적일 때
    5. 변인의 척도가 명명척도나 서열척도일 때
  4. 비모수 통계의 특징
    • 가정을 만족시키지 못한 상태 → 그대로 모수 통계분석을 함으로써 발생할 수 있는 오류 줄임.
    • 질적척도로 측정된 자료도 분석이 가능함.
    • 비교적 신속하고 쉽게 통계량을 구할 수 있으며 결과에 대한 해석 및 이해 또한 쉬움.
    • 많은 표본을 추출하기 어려운 경우에 사용하기 적합함.
  5. 비모수적 통계 검정법
    • 비모수검정은 데이터가 특정 분포를 따른다는 가정 없이 수행되는 통계적 검정 방법
    • 데이터 분포가 알려져 있지 않거나, 데이터가 정규분포를 따르지 않는 경우에 유용
    • 장점
      • 유연성
      • 적용 범위 넓음.
      • 순위 사용
    • 단점
      • 효율성 저하
      • 큰 표본 필요
    • 부호검정(Sign Test)
      • 데이터의 순서나 크기에 대한 가정을 하지 않으며, 관측값들의 부호만을 활용 → 검정 수행
    • 윌콕슨 부호순위(Wilcoxon Signed-Rank) 검정
      • 크거나 작음을 나타내는 부호뿐 아니라 관측치 간 차이의 크기 순위까지를 고려해 검정
      • 두 관련 샘플 또는 짝지어진 샘플 간 차이 비교
      • 주로 동일한 대상에 대해 두 번 측정한 데이터 비교 시 사용
    • 만-위트니 U(Mann-Whitney U) 검정
      • 두 집단 간 중심위치 비교하기 위해 사용하는 검정 방법
      • 두 독립 샘플의 중앙값 비교
      • 주로 두 그룹 간 차이 비교 시 사용
    • 크루스칼-왈리스(Kruskal-Wallis) 검정
      • 3개 이상 집단의 중앙값 차이 검정
      • 세 개 이상의 독립 샘플 간 차이 비교
      • 일원배치법의 비모수 대안으로 사용
    • 프리드만 검정(Friedman Test)
      • 세 개 이상의 관련 샘플 간 차이 비교
      • 반복측정 분산분석의 비모수 대안으로 사용
    • 카이제곱 검정
      • 명목 데이터의 기대빈도와 관찰빈도 간의 차이 비교

 

'빅데이터분석기사' 카테고리의 다른 글

[필기] 분석모형 개선  (0) 2026.03.21
[필기] 분석모형 평가  (0) 2026.03.21
[필기] 분석기법  (1) 2026.03.20
[필기] 분석 환경 구축  (0) 2026.03.17
[필기] 분석 절차 수립  (0) 2026.03.16