AYSTORY
bye0nzn
AYSTORY
[필기] 고급 분석기법 본문
빅데이터분석기사
[필기] 고급 분석기법
bye0nzn
2026. 3. 20. 16:08
범주형 자료분석
다변량 분석
시계열 분석
베이즈 기법
딥러닝 분석
비정형 데이터 분석
앙상블 분석
01. 범주형 자료분석
- 범주형 자료분석의 통계적 정의
- 범주형 자료분석은 변수들이 이산형 변수일 때 주로 사용하는 분석
- 예; 두 제품 간 선호도가 성별에 따라 연관이 있는지 여부를 판단하고자 하는 경우, 각 집단 간의 비율차이가 있는지 확인하기 위한 경우 등에 주로 사용
- 자료의 분석
- 자료의 형태에 따른 범주형 자료 분석 방법
- (독립변수) - (종속변수) - (분석방법) - (예제)
- 범주형 - 범주형 - 빈도분석, 카이제곱 검정, 로그선형모형 - 지역별 선호정당
- 연속형 - 범주형 - 로지스틱 회귀분석 - 소득에 따른 결혼의 선호도
- 범주형 - 연속형 - T검정(2그룹), 분반분석(2그룹 이상) - 지역별 가계수입의 차이
- 연속형 - 연속형 - 상관분석, 회귀분석
- 분할표
- 범주형데이터가 각 변수에 따라서 통계표 형태로 정리되어 쓴 것
- 차원(Dimensionality): 분할표 구성에 관계뙨 변수의 수로 정의
- 수준(Level): 범주형 변수가 갖는 범주의 수
- 2차원 분할표 상의 비율 비교
- 비율의 차이(Difference of Proportions): D = a1 - a2
- 범위는 -1 ~ 1 사이를 취하며 동질 또는 독립인 경우 D = 0
- 상대적 위험도(Relative Risk): RR = a1 / a2
- 범위는 0 ~ ∞ 이며 동질 또는 독립인 경우 RR = 1
- 오즈비(Odds Ratio): OR = {a1 / (1-a1)] / {a2 / (1-a2)}
- 범위는 0 ~ ∞ 이며 동질 또는 독립인 경우 OR = 1
- 빈도분석
- 질적자료를 대상으로 빈도와 비율을 계산할 때 쓰임.
- 데이터에 질적/양적 자료가 많을 때 질적자료를 대상으로 오류가 있는지 확인 가능
- 로지스틱 회귀분석
- 분석하고자 하는 대상들이 두 집단 또는 그 이상의 집단으로 나누어진 경우 개별 관측치들이 어느 집단으로 분류될 수 있는지 분석할 때 사용
- 교차분석 또는 카이제곱검정(Chi-Square Test)
- 두 범주형 변수가 서로 상관이 있는지 독립인지를 판단하는 통계적 검정방법
- t - 검정
- 독립변수가 범주형(두 개의 집단)이고 종속변수가 연속형인 경우 사용되는 검정 방법으로 두 집단간의 평균 비교 등에 사용됨.
- 분산분석
- 독립변수가 범주형(두 개 이상 집단)이고 종속변수가 연속형인 경우 사용되는 검정 방법
- 두 집단간 분산 비교 등에 사용
02. 다변량분석(Multivariate Analysis)
- 다변량분석은 조사 중인 각 개인 혹은 대상물에 대한 다수의 측정치를 동시에 분석하는 모든 통계적 방법
- 많은 다변량분석 기법은 일변량(다변량)분석과 이변량분석의 확장형태라 할 수 있음.
- 용어
- 종속 기법(Dependence Methods)
- 변수들을 종속변수와 독립변수로 구분 → 독립변수들이 종속변수에 미치는 영향력 분석하는 기법
- 상호의존적 기법(Interdependence Methods)
- 분석할 변수들을 종속변수와 독립변수로 구분하지 않고 전체를 대상으로 하는 분석
- 명목 척도(Nomial Scale)
- 단지 분류만을 위해 사용된 숫자 → 숫자 그 자체는 전혀 의미가 없는 측정단위
- 순위 척도(Ordinal Scale)
- 선호되는 순위를 나타낸 숫자 → 숫자 그 자체는 전혀 의미가 없는 측정단위
- 등간 척도(Interval Scale)
- 측정된 숫자 자체와 숫자의 차이는 의미를 가지나 숫자의 비율은 의미를 가지지 못하는 측정단위
- 비율 척도(Ratio Scale)
- 측정된 숫자와 그 간격이 의미를 가질 뿐만 아니라 숫자의 비율마저도 의미를 가지는 가장 높은 측정단위
- 정량적 자료(Metric Data)
- 등간척도나 비율척도로 측정된 자료 → 양적자료 도는 모수화된 자료라고도 함.
- 비정량적 자료(Nonmetric Data)
- 명목척도나 순위척도로 측정된 자료 → 질적자료 또는 비모수화된 자료라고도 함.
- 변량(Variable)
- 변수(Variable)들이 연구자의 실험대상인 표본으로부터 수집한 자료를 그대로 나타내는 반면,
- 변량(Variate)은 이러한 변수들을 일종의 통계적인 방법으로 가중치를 두어 변수들의 합이 형태로 나타낸 새로운 변수
- 다변량분석기법의 종류
- 다중회귀분석(Multi Regression)
- 하나의 계량적 종속변수와 하나 이상의 계량적 독립변수 간 관련성 있다고 가정되는 연구문제에 적합한 분석기법
- 다수의 독립변수의 변화에 따른 종속변수의 변화 예측
- 다변량분산분석, 다변량공분산분석
- 다변량분산분석(Multivariate ANOVA)
- 두 개 이상의 범주형 독립변수와 다수의 계량적 종속변수 간 관련성을 동시에 알아볼 때 이용되는 통계적 방법
- 두 개 이상의 계량적 종속변수에 대한 각 집단의 반응치의 분산에 대한 가설을 검증하는 데 유용
- 다변량공분산분석(Multivariate ANCOVA)
- 실험에서 통제되지 않은 독립변수들의 종속변수들에 대한 효과 제거하기 위해 다변량분산분석과 함께 이용
- 정준상관분석(Canonical Analysis)
- 하나의 계량적 종속변수와 다수의 계량적 독립변수 간 관련성을 조사하는 다중회귀분석을 논리적으로 확대시킨 것
- 종속변수군과 독립변수군 간의 상관을 가장 크게 하는 각 변수군의 선형조합을 찾아내는 일
- 기본원리
- 종속변수군과 독립변수군 간 상관을 가장 크게 하는 각 변수군의 선형조합을 찾아내는 일
- 요인분석(Factor Analysis) ★
- 많은 수의 변수들 간 상호관련성을 분석하고, 이들 변수들을 어떤 공통 요인들로 설명하고자 할 때 이용되는 기법
- 즉, 많은 수의 원래 변수들을 이보다 적은 수의 요인으로 요약하기 위한 분석법
- 주요 목표
- 변수 간 상관 관계 파악
- 변수의 차원 축소
- 요인 해석
- 주로 PCA나 최대우도법 기반으로 수행됨.
- 종류
- 탐색적 요인분석: 연구자가 가설적 요인을 설정하지 않고 얻어진 자료에 근거해 경험적으로 요인의 구조를 파악
- 확인적 요인분석: 연구자가 사전에 요인의 구조를 가설적으로 설정하고 이를 검증
- 군집분석(Cluster Analysis)
- 집단에 관한 사전정보가 전혀 없는 각 표본에 대하여 그 분류체계를 찾을 때, 다시 말해 각 표본을 표본들 간 유사성에 기초해 한 집단에 분류시키고자 할 때 사용되는 기법 → 판별분석과 달리 군집분석에서는 집단이 사전에 정의 X
- 단계
- 몇 개의 집단이 존재하는가 알아보기 위해 각 표본들 간 유사성 혹은 연관성 조사
- 첫 번째 단계에서 정의된 집단에 어떤 표본을 분류해 넣거나 혹은 그 소속 예측
- 두 번째 단계에는 군집기법에 의해 나타난 그룹들에 대해 판별분석을 적용
- 다중판별분석(Multi Discriminant Analysis)
- 종속변수가 남/녀와 같이 두 개의 범주로 나뉘어져있거나, 상/중/하와 같이 두 개 이상의 범주로 나눠져 있을 경우,
- 즉 종속변수가 비계량적 변수일 경우 다중판별분석 이용됨.
- 주목적은, 집단 간의 차이 판별 + 어떤 사례가 여러 개의 계량적 독립변수에 기초하여 특정 집단에 속할 가능성을 예측하는 데 있음.
- 다차원척도법(MDS: Multi-Dimensional Scaling)
- 다차원 관측값 또는 개체들 간 거리 또는 비유사성 이용 → 개체들을 원래의 차원보다 낮은 차원의 공간상에 위치시켜 개체들 사이의 구조 또는 관계를 쉽게 파악하고자 함.
03. 시계열분석
- 시계열 자료(data)를 분석하고 여러 변수들 간 인과관계 분석하는 방법론
- 경제학에서도 매우 많이 쓰이는 방법론으로 계량경제학이나 금융, 거시경제분석에 사용함.
- 시계열 자료
- 시간의 흐름에 따라 관측되는 데이터
- 미래에 대해 예측 또는 제어하는 것이 주 이용목적
- 이산 시계열: 관측값들이 이산적인 형태로 분리되어 존재
- 연속 시계열: 관측값들이 연속적으로 연결된 형태의 자료
- 시차(Time Log): 한 관측시점과 다른 관측시점 사이의 간격
- 시계열자료의 성분
- 불규칙 성분(Irregular Component): 시간에 따른 규칙적인 움직임이 없는(무관하게) 랜덤하게 변화하는 변동성분
- 체계적 성분(Systemic Component): 시간에 다른 규칙이 존재하는 변동성분
- 추세성분(Trend Component): 관측값이 지속적 증가 / 감소하는 추세 포함
- 계절성분(Seasonal Component): 주기적 성분에 의한 변동을 갖는 형태(계절, 월, 주, 년 등)
- 순환성분(Cyclical ~): 주기적 변화를 가지나 계절적인 것이 아닌 주기가 긴 변동을 갖는 형태(경기 대순환, Business Cycle)
- 복합성분: 추세성분과 계절성분을 동시에 갖는 경우
- 자기상관성(Autocorrelation): 시계열 데이터에서 시차값들 사이에 선형관계를 보이는 것 → 자기상관
- 백색잡음(White Noise): 자기 상관성 없는 시계열 데이터, 아무런 패턴이 남아있지 않은 무작위한 움직임을 보이는 데이터
- 정상성(Stationarity)
- 시계열 데이터가 평균과 분산이 일정한 경우
- 평균이 일정
- 모든 시점에 대해 평균이 일정
- 시계열 데이터가 평균이 일정하지 않으면 차분(difference)을 통해 정상성을 가지도록 함.
- 분산이 일정
- 모든 시점에서 분산이 일정
- 시계열 데이터가 분산이 일정하지 않으면 변환(transformation)을 통해 정상성 갖도록 함.
- 공분산의 경우도 단지 시차에만 의존하며 특정시점에는 의존 X
- 정상성을 갖는 시계열 자료의 특징
- 정상시계열은 어떤 시점에서 평균분산 그리고 특정시차가 일정한 경우의 공분산이 도잉ㄹ
- 항상 평균회귀 경향이 있으며 평균 주변의 변동을 대체로 일정한 폭
- 정상성을 가지는 시계열의 경우, 특정기간에서 얻은 정보를 다른 시기에서도 사용이 가능한 정보로 일반화가 가능하지만 아닌 경우는 일반화가 힘듦.
- 시계열자료의 분석 방법
- 분석 방법 개요
- 예측(Forecast) 목적
- 단순 방법
- 추세분석 이동평균
- 평활법(Smoothing Method)
- 분해법(Decomposition Method)
- 모형 기반
- 자기회귀모형(AR: AutoRegressive Model)
- 자기회귀이동평균모형(ARMA: AutoRegressive Moving Average Model)
- 자기회귀누적이동평균모형(ARIMA: AutoRegressive Integrated Moving Average Model)
- 이해와 제어의 목적
- 스펙트럼분석
- 개입분석(Intervention Analysis)
- 단순 방법
- 이동평균법(Moving Average Method)
- 과거로부터 현재까지 시계열 자료를 대상으로 일정기간(관측기간)을 시계열을 이동하면서 평균을 계산하는 방법 → 추세 파악하여 시계열의 다음기간을 예측하는데 사용
- 지수평활법(Exponential Smoothing Method)
- 이동평균법과 달리 관찰기간의 제한이 없이 모든 시계열 데이터를 사용하며 최근 시계열에 더 많은 가중치를 주며 추세를 찾는 방법
- 단기간에 발생하는 불규칙 변동을 평활하는데 주로 사용 → 지수평활계수의 효과로 과거 데이터일수록 가중치를 적게 배당
- 분해법
- 시계열자료의 성분 분류대로 시계열 데이터를 분해
- 시계열이 체계적 성분과 불규칙적 성분으로 이루어져 있다는 가정하에 체계적 성분을 시계열로부터 분리하여 분석/예측을 목적으로 하는 기법
- 시계열자료로부터 계절적 특성, 추세/순환 성분을 분리하여 시계열의 장기적 추이 분석, 불규칙성분으로부터 불규칙성이 발생한 시점을 찾는 것
- 모형에 의한 방법
- 자기회귀모형(AR)
- 현재 값이 이전의 값들에 의존하는 선형회귀 모형
- 시계열 데이터의 패턴과 추세를 파악하는 데 사용
- 시계열 데이터 예측, 변동성 모델링, 이상 탐지 등 다양한 분야에서 활용됨.
- 자기회귀이동평균모형(ARMA)
- AR과 이동평균모형(MA)를 결합한 형태
- 시계열 데이터의 자기 상관과 이동평균 구조를 설명하는데 사용
- 시계열 데이터의 자기상관 구조와 이동평균 구조를 동시에 고려 → 데이터 모델링
- 과거 값들과 이전 예측 오차들이 현재 값을 예측하는데 어떤 영향을 미치는지 알 수 있음.
- 주요 특징
- AR(p) 구성요소: AR의 구성요소는 현재 값이 p개의 이전 값에 의존하는 선형회귀 모형
- MA(q) 구성요소: MA 구성요소는 현재 값이 q개의 이전 예측 오차에 의존하는 선형회귀 모형
- 백색 잡음: 예측 오차를 백색 잡음으로 가정
- ARMA(p,q)로 표현 → p는 AR 구성요소의 차수, q는 MA 구성요소의 차수
- 예; ARMA(1,1) 모형은 자기회귀 모형에서 이전 1개 값에 의존하고, 이동평균 모형에서 이전 1개 예측 오차에 의존하는 모형
- 자기회귀누적이동평균모형(ARIMA)
- 비정상적 시계열 데이터를 정상성을 가진 시계열 데이터로 변환한 후, AR과 MA를 결합해 모델을 구축함.
- 시계열 데이터의 경향성, 계절성, 잔차 구조 등 설명하는데 사용
- AR, MA, 데이터의 차분(Differencing)을 결합한 형태로 정의
- 주요 특징
- AR(p) 구성요소: 현재 값이 p개의 이전 값에 의존하는 선형회귀 모형
- MA(q) 구성요소: 현재 값이 q개의 이전 예측 오차에 의존하는 선형회귀 모형
- 차분: 원래 시계열 데이터의 차분을 포함함. 차분은 현재 값과 이전 값의 차이를 계산해 시계열 데이터의 경향성을 제거하는 과정 → 데이터의 정상성을 가진 시계열로 변환해 모델링
- ARIMA(p, d, q)로 표현 → p는 AR 구성요소의 차수, q는 MA 구성요소의 차수, d는 차분의 차수
- 예; ARIMA(1,1,1) 모형은 자기회귀 모형에서 이전 1개 값에 의존, 이동평균 모형에서 이전 1개 예측 오차에 의존, 1차 차분을 통해 정상성을 가진 모형
04. 베이즈 기법
- 베이즈 추론(베이지안 추론, Bayesian Inference)
- 확률론적 의미해석(조건부 확률)
- 베이즈 기법의 개념
- 회귀분석모델에서 베이즈 기법의 적용
- 선형회귀분석모델(Linear Regression)
- 추정치와 실제의 차이(loss)를 최소화하는 것
- 베이지안 확률론의 적용개념
- 분류에서 베이즈 기법의 적용
- 나이브 베이즈 분류(Naive Bayes Classification)
- 특성들 사이의 독립을 가정하는 베이즈 정리를 적용한 확률 분류기 지칭
- 분류기를 만들 수 있는 간단한 기술 → 단일 알고리즘을 통한 훈련이 아닌 일반적인 원칙에 근거한 여러 알고리즘들을 이용해 훈련
- 나이브 베이즈의 장점
- 일부 확률모델에서 나이브 베이즈 분류 → 지도 학습 환경에서 매우 효율적으로 훈련 가능
- 분류에 필요한 파라미터를 추정하기 위한 트레이닝 데이터 양이 매우 적음.
- 간단한 디자인과 단순한 가정에도 불구하고, 많은 복잡한 실제 상황에서 잘 작동함.
- 나이브 베이즈 분류기의 생성(확률모델)
- 이벤트 모델
- 클래스의 사전확률은 각 클래스 간 동일하다고 가정할 수 있음.
- 사전확률과 특성의 분포에 대한 가정들을 기반으로 데이터를 설명하고 예측하는 것이 목표
- 종류
- 가우시안 나이브 베이즈: 연속적 값을 지닌 데이터 처리할 때, 각 클래스의 연속적 값 벡터들이 가우시안 분포를 따른다고 가정
- 다항분포 나이브 베이즈: 특성 벡터들이 다항분포에 의해 생성된 이벤트의 경우 사용함.
- 베르누이 나이브 베이즈: 특성 벡터들이 독립적인 이진 변수로 표현될 경우 사용함.
05. 딥러닝 분석
- 딥러닝 분석의 개념
- 인공신경망(ANN)
- 딥러닝
- 여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화 시도하는 기계학습 알고리즘의 집합
- 원리
- 기존에는 신경망의 학습수준을 높이기 위해 하나의 은닉층에 은닉노드를 3개가 아니라 10개, 100개 이런 식으로 동일 레이어 내 수직으로 쭉 늘려놓기만 했었는데, 은닉층 자체를 여러 개로 만들어 여러 단계를 거치도록 신경망 구성 → 정확도 향상
- 딥러닝 분석 알고리즘
- 심층 신경망(DNN: Deep Neural Network)
- 입력층과 출력층 사이에 여러 개의 은닉층들로 이뤄진 인공 신경망
- 합성곱 신경망(CNN)
- 최소한의 전처리를 사용하도록 설계된 다계층 퍼셉트론의 한 종류
- 순환 신경망(RNN)
- 순방향 신경망(Food forward Neural Network)과 달리, 임의의 입력을 처리하기 위해 신경망 내부의 메모리 활용 가능
- 기존의 뉴럴 네트워크와 다른 점은 '기억'을 갖고 있다는 점 → 네트워크의 기억은 지금까지의 입력 데이터를 요약한 정보
- 심층 신뢰 신경망(DBN: Deep Belief Network)
- 기계학습에서 사용되는 그래프 생성 모형
- 선행학습을 통해 초기 가중치를 학습한 후 역전파 혹은 다른 판별 알고리즘을 통해 가중치의 미조정 가능
- 훈련용 데이터가 적을 때 굉장히 유용한데, 이는 훈련용 데이터가 적을수록 가중치의 초기값이 결과적인 모델에 끼치는 영향이 세지기 때문.
06. 비정형 데이터 분석
- 비정형 데이터
- 데이터 수집의 난이도
- 정형 데이터: 하
- 반정형 데이터: 중 (보통 API 형태로 제공 → 데이터 처리 기술 요구)
- 비정형 데이터: 상 (텍스트 마이닝 혹은 파일 → 파일을 데이터 형태로 파싱해야해서 수집 데이터 처리가 어려움.)
- 데이터 처리의 아키텍처
- 정형 데이터: 일반적
- 반정형 데이터: 데이터의 메타구조 해석 → 정형 데이터 형태로 바꿀 수 있는 아키텍처 구조 수정
- 비정형 데이터: 텍스트나 파일을 파싱 → 메타구조를 갖는 데이터셋 형태로 바꾸고 정형 데이터 형태의 구조로 만들 수 있도록 아키텍처 구조 수정
- 데이터의 잠재적 가치
- 정형 데이터: 하
- 반정형 데이터: 중
- 비정형 데이터: 상
- 비정형 데이터 분석
- 비정형 데이터 분석의 기본 원리
- 비정형 데이터의 내용 파악과 비정형 데이터 속 패턴 발견을 위해 데이터 마이닝, 텍스트 분석, 비표준 텍스트 분석 등과 같은 다양한 기법을 사용
- 비정형 데이터를 정련 과정을 통해 정형데이터로 만든 후 → 분류, 군집화, 회귀 분석, 요약, 이상감지 분석 등의 데이터 마이닝을 통해 의미있는 정보 발굴
- 데이터 마이닝
- 통계적 규칙이나 패턴을 분석하여 가치있는 정보를 추출하는 과정
- 적용 분야
- 분류
- 군집화
- 연관성: 동시에 발생한 사건 간 관계 정의
- 연속성: 특정 기간에 걸쳐 발생하는 관계 규명 기간의 특성을 제외하면 연관성 분석과 유사
- 예측
- 텍스트 마이닝
- 전통적 데이터 마이닝의 한계를 벗어난 방법
- 인간의 언어로 이루어진 비정형 텍스트 데이터들을 자연어 처리방식을 이용 → 대규모 문서에서 정보 추출, 연계성 파악, 분류 및 군집화, 요약 등을 통해 데이터의 숨겨진 의미 발견하는 기법
- 자연어 처리
- 인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 모사할 수 있도록 연구하고 이를 구현하는 인공지능의 주요 분야 중 하나
- Text to Vector 변환 기법
- 텍스트를 벡터로 변환하는 기법은 단어나 문장을 수치적인 형태로 표현 → 기계학습 알고리즘에 적용하기 쉽게
- Bag-of-Words(BoW)
- 텍스트를 단어들의 집합으로 간주하고, 각 단어의 등장 빈도를 계산 → 벡터로 표현하는 기법
- 문서 내에 각 단어의 등장 횟수나 이진 플래그 등을 벡터의 원소로 활용
- 단어 순서나 문맥 정보는 고려하지 않고, 단어들의 출현 빈도에만 집중
- TF-IDF(Term Frequency-Inverse Document Frequency)
- 단어의 빈도와 문서의 역문서 빈도를 고려 → 단어를 벡터로 표현하는 기법
- 각 문서에서의 단어 빈도를 TF로 표현, 전체 문서 집합에서의 단어의 등장 빈도를 IDF라고 표현.
- 특정 문서에 자주 등장하는 단어는 해당 문서에서 중요한 단어로 간주
- 전체 문서에서 널리 등장하는 단어는 중요성이 감소
- Word Embeddings(단어 임베딩)
- 단어를 고정 크기의 실수 벡터로 표현하는 방법
- 단어 간 의미적 유사성을 보존하려는 목적으로 개발
- 단어 간 관계를 벡터 공간에서 표현
- Sentence Embeddings(문장 임베딩)
- 텍스트의 문장을 고정 크기의 벡터로 표현
- 워드 임베딩을 사용 → 문장의 의미를 벡터로 변환하건, 사전 훈련된 모델을 사용하여 문장을 벡터로 변환
- 대표적 기법; Universal Sentence Encoder, BERT, GPT 등
- 웹 마이닝
- 데이터 마이닝 기술의 응용분야
- 인터넷을 통해 웹자원으로부터 의미있는 패턴, 프로파일, 추세 등 발견하는 것
- 오피니언 마이닝
- 어떤 사안이나 인물, 이슈, 이벤트 등과 관련된 원천 데이터에서 의견이나 평가, 태도, 감정 등과 같은 주관적인 정보를 식별하고 추출하는 것
- 리얼리티 마이닝
- 사람들이 매일 사용하는 스마트폰 등의 기계나 모션센서 등의 행동 → 비정형 데이터 추출
07. 앙상블 분석
- 앙상블 분석의 정의
- 학습 모형들을 조합 → 하나의 최종 모형을 만드는 개념
- 약학습기(약분류기, Weak Learner)
- 무작위 선정이 아닌 성공확률이 높은, 즉 오차율이 일정 이하인 학습 규칙
- 강학습기(강분류기, Strong Learner)
- 앙상블 분석의 이해
- 다양한 약학습기를 통해 강학습기를 만들어가는 과정
- 장점
- 정확성 향상
- 과적합 방지
- 분산 감소
- 다양한 모델 적용 가능
- 단점
- 앙상블 분석 종류
- 보팅(Voting)
- 투표를 통해 결정하는 방식
- 배깅(Bagging)과 투표방식이라는 점에서 유사하지만 사용법에 차이가 있음.
- 보팅; 서로 다른 여러 학습 모델을 조합해서 사용함. 서로 다른 알고리즘이 도출해 낸 결과물에 대하여 최종 투표하는 방식 → 최종 결과 선택
- 배깅; 같은 알고리즘 내에서 다른 sample 데이터 조합 사용함.
- 하드 보팅(Hard Voting); 결과물에 대한 최종 값을 투표해서 결정하는 방식
- 소프트 보팅(Soft Voting); 최종 결과물이 나올 확률 값을 다 더해서 최종 결과물에 대한 각각의 확률을 구한 뒤 최종 값을 도출해내는 방법
- 부스팅(Boosting)
- 가중치 활용 → 연속적인(Sequential) 약학습기를 생성하고 이를 통해 강학습기 만드는 방법
- 순차적 학습 → 가중치 부여해서 오차 보완해 나감. 하지만 병렬 처리에 어려움이 있고, 시간도 오래걸림.
- 배깅(Bagging: Bootstrap Aggregation)
- 샘플을 여러 번 뽑아 각 모델을 학습시켜 결과물을 집계하는 방법
- 우선, 데이터로부터 부트스트랩을 함. → 부트스트랩한 데이터로 모델의 학습을 거침. → 학습된 모델의 결과를 집계하여 최종 결과값 구함.
- 범주형 자료 - 투표 방식으로 결과를 집계(전체 모델에서 예측한 값 중 가장 많은 값을 최종 예측값으로 선정)
- 연속형 자료 - 평균으로 집계(각각의 결정 트리 모델이 예측한 값에 평균을 취해 최종 배깅 모델의 예측값 결정)
- 간단하면서도 강력한 방법이며 배깅을 활용한 모델 → 랜덤 포레스트
- 스태킹(Stacking)
- 앙상블 학습의 한 종류
- 여러 개의 다른 모델 조합 → 예측 성능 향상
- 앙상블 모형의 최적화
- 다양한 알고리즘과 모델 사용
- 개별 모델의 다양성 확보
- 하이퍼파라미터 최적화
- 교차 검증을 통한 성능 평가
- 앙상블 크기 결정
- 앙상블 멤버 간 상관 관계 정리
08. 비모수 통계
- 모수(매개변수, 파라미터) 정의
- 수학과 통계학에서 어떠한 시스템이나 함수의 특정한 성질을 나타내는 변수
- 비모수 통계의 개념
- 모수에 대한 가정을 전제로 하지 않고 모집단의 형태에 관계없이 주어진 데이터에서 직접 확률을 계산 → 통계학적 검정
- 비모수 통계법의 사용조건
- 자료가 나타내는 모집단의 형상이 정규분포가 아닐 때
- 자료가 나타내는 현상이 정규분포로 적절히 변환되지 못할 때
- 자료의 표본이 적을 때
- 자료들이 서로 독립적일 때
- 변인의 척도가 명명척도나 서열척도일 때
- 비모수 통계의 특징
- 가정을 만족시키지 못한 상태 → 그대로 모수 통계분석을 함으로써 발생할 수 있는 오류 줄임.
- 질적척도로 측정된 자료도 분석이 가능함.
- 비교적 신속하고 쉽게 통계량을 구할 수 있으며 결과에 대한 해석 및 이해 또한 쉬움.
- 많은 표본을 추출하기 어려운 경우에 사용하기 적합함.
- 비모수적 통계 검정법
- 비모수검정은 데이터가 특정 분포를 따른다는 가정 없이 수행되는 통계적 검정 방법
- 데이터 분포가 알려져 있지 않거나, 데이터가 정규분포를 따르지 않는 경우에 유용
- 장점
- 단점
- 부호검정(Sign Test)
- 데이터의 순서나 크기에 대한 가정을 하지 않으며, 관측값들의 부호만을 활용 → 검정 수행
- 윌콕슨 부호순위(Wilcoxon Signed-Rank) 검정
- 크거나 작음을 나타내는 부호뿐 아니라 관측치 간 차이의 크기 순위까지를 고려해 검정
- 두 관련 샘플 또는 짝지어진 샘플 간 차이 비교
- 주로 동일한 대상에 대해 두 번 측정한 데이터 비교 시 사용
- 만-위트니 U(Mann-Whitney U) 검정
- 두 집단 간 중심위치 비교하기 위해 사용하는 검정 방법
- 두 독립 샘플의 중앙값 비교
- 주로 두 그룹 간 차이 비교 시 사용
- 크루스칼-왈리스(Kruskal-Wallis) 검정
- 3개 이상 집단의 중앙값 차이 검정
- 세 개 이상의 독립 샘플 간 차이 비교
- 일원배치법의 비모수 대안으로 사용
- 프리드만 검정(Friedman Test)
- 세 개 이상의 관련 샘플 간 차이 비교
- 반복측정 분산분석의 비모수 대안으로 사용
- 카이제곱 검정
- 명목 데이터의 기대빈도와 관찰빈도 간의 차이 비교