AYSTORY
카테고리
검색하기
bye0nzn
AYSTORY
[필기] 분석모형 평가 본문
빅데이터분석기사
[필기] 분석모형 평가
bye0nzn
2026. 3. 21. 15:26
Part 04. 빅데이터 결과 해석
Ch 01. 분석모형 평가 및 개선
오차행렬 평가 지표 검증과 검정 정확도 정밀도 재현율 F1-score ROC K-fold
01. 평가 지표
지도학습 - 분류모델 평가 지표
분석모형의 답과 실제 답과의 관계 오차행렬을 통해 모델 평가
TP: 실제 True → True 라고 예측
FP: 실제 False → True라고 예측
FN: 실제 True → False라고 예측
TN: 실제 False → False라고 예측
오차행렬(Confusion Matrix)
훈련을 통한 예측 성능을 측정하기 위해 예측 값과 실제 값을 비교하기 위한 표
정확도(Accuracy)
Accuracy = (TP + TN) / (TP + FP + TN + FN)
정밀도(Precision): Positive로 예측한 대상 중 실제로 Positive인 값의 비율
Precision = TP / (TP + FP)
재현율(Recall, 민감도): 실제 Positive인 대상 중에 Positive로 정확하게 예측한 값의 비율
F1-score: 정밀도와 재현율 결합한 조화평균 지표 → 값이 클수록 모형이 정확
F1 = 2 / ( 1/recall + 1/precision )
ROC(Receiver Operating Characteristic) 곡선
FPR(False Positive Rate, 1 - 특이도)이 변할 때 TPR(True Positive Rate, 민감도)이 어떻게 변화하는지 나타내는 곡선
특이도 = TN / (TN + FP)
FPR = 1 - 특이도
X축에 FPR, y축에 TPR을 나타내며, 임계값을 1~0 범주 이내 값으로 조정
FPR = FP / (FP + TN), TPR = TP / (TP + FN)
AUC(Area Under Curve): 평가모델의 ROC 곡선의 하단 면적
0~1 사이의 값, 분류 모델의 성능을 종합적으로 평가하는 지표
1에 가까울수록 분류 모델의 성능이 우수함.
지도학습 - 회귀모델 평가 지표
SSE(Sum Squared Error): 실제값과 예측값 차이를 제곱하여 더한 값
MSE(Mean Squared Error): 실제값과 예측값 차이의 제곱에 대한 평균을 취한 값, 평균제곱 오차
RSME(Root Mean Squared Error): MSE에 루트를 취한 값, 평균제곱근 오차
MAE(Mean Absolute Error): 실제값과 예측값의 절대 오차의 평균값
MPE(Mean Percentage Error): 실제값과 예측값의 상대적 오차를 백분율로 표현
결정계수 R²: 회귀모형이 실제값에 대해 얼마나 잘 적합하는지에 대한 비율
Adjusted R²(수정된 결정계수): 다변량 회귀분석에서 독립변수가 많아질수록 결정계수가 높아지는데 이를 보완한 결정계수로 표본크기(n)와 독립변수의 개수(p)를 추가적으로 고려해 분모에 위치시킴으로써 결정계수 값의 증가도 보정
MSPE(Mean Square Percentage Error): MSE를 퍼센트로 변환한 값
MAPE(Mean Absolute Percentage Error): MAE를 퍼센트로 변환한 값
RMSLE(Root Mean Squared Logarithmic Error): RMSE에 로그를 취한 값, 이상치에 덜 민감
AIC(Akaike Information Criterion): 최애 우도에 독립변수의 개수에 대한 손실(penalty)분을 반영하는 목적으로 모형과 데이터의 확률 분포 차이를 측정하는 것으로 AIC 값이 낮을수록 모형의 적합도가 높아짐.
BIC(Bayes Information Criteria): AIC와 동일 목적이나 주어진 데이터에서 모형의 우도를 측정하기 위한 값에서 유도된 지표로 변수 개수가 많을수록 AIC보다 더 페널티를 가하는 성격
비지도학습 - 군집분석 평가 지표
비지도학습은 지도학습과 달리 실측자료에 라벨링이 없으므로 모델에 대한 성능평가가 어려움.
실루엣 계수(Silhouette Coefficient)
a(i)는 i번째 개체와 같은 군집에 속한 요소들 간 거리들의 평균
b(i)는 i번째 개체가 속한 군집과 가장 가까운 이웃군집을 선택 계산한 값
a(i) = 0 이면 하나의 군집에서 모든 개체들이 붙어있는 경우, 실루엣 지표가 0.5보다 크면 적절한 군집 모델
s(i) = {b(i) - a(i)} / max{a(i), b(i)}
Dunn Index
군집 간 거리의 최소값을 분자, 군집 내 요소 간 거리의 최대값을 분모로 하는 지표
군집 간 거리는 멀수록 군집 내 분산은 작을수록 좋은 군집화
Dunn Index 값은 클수록 좋음.
I(C) = min {dc(Ci, Cj)} / max {△(cl)}
02. 분석모형 진단
정규성 가정
통계적 검정, 회귀분석 등 분석을 진행하기 전에 데이터가 정규분포를 따르는지를 검정 하는 것으로 데이터 자체의 정규성을 확인하는 과정
중심극한정리(Central Limit Theorem)
동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 이론
이때 표본분포의 평균은 모집단의 모평균과 동일하며 표준편차는 모집단의 모표준편차를 표본 크기의 제곱근으로 나눈 것
정규성 검정 종류
샤피로 - 윌크 검정(Shapiro-Wilk Test): 표본수(n)가 2000개 미만인 데이터셋에 적합
콜모고로프 스미르노프 검정(Kolmogorove-Smirnov Test): 표본수(n)가 2000개 초과인 데이터셋에 적합
Q-Q 플롯(Quantile-Quantile Plot): 데이터 셋이 정규분포를 따르는지 판단하는 시각적 분석 방법으로 표본수(n)가 소규모일 경우 적합
잔차 진단
최적의 회귀선은 실측치와 예측치의 차이인 잔차를 가장 작게 해주는 선
잔차의 정규성 진단
신뢰구간 추정과 가설검증을 정확히 하기 위해 Q-Q Plot과 같은 시각화 도표를 통해 정규분포와 잔차의 분포를 비교
잔차의 등분산성 진단
잔차의 분산이 특정 패턴 없이 순서와 무관하게 일정한지 등분산성 진단
잔차의 독립성 진단
잔차의 독립성: 자기상관 여부를 판단하는 것
시점 순서대로 그래프를 그리거나 더빈-왓슨 검정(Durbin-Watson Test)으로 패턴이 없다면 독립성을 충족
만일 독립성이 위배된다면 시계열 분석을 통해 회귀분석 진행
03. k - 폴드 교차검증(k - fold Cross Validation)
고정된 훈련 데이터셋과 테스트 검증 데이터셋으로 평가를 하여 반복적으로 튜닝하게 될 시 테스트 데이터셋에 과적합되어버리는 결과가 생길 수 있는데 이를 방지하고자 나온 방법
전체 데이터셋을 k개의 서브셋으로 분리하여 그 중에 k-1개를 훈련 데이터로 사용하고 1개의 서브셋은 검증 데이터로 사용
홀드아웃기법(Holdout Method)
일반적으로 훈련데이터셋과 테스트 검증 데이터셋으로 구분 → 훈련 데이터로 모델을 학습하고 테스트 데이터로 성능을 증가시키는 방법 사용
동일한 테스트 데이터를 계속 사용한다면 모델이 테스트 데이터에 과적합하게 됨.
이를 개선하기 위해 훈련/검증/테스트 데이터를 일정 비율로 지정한 뒤 먼저 훈련 데이터로 학습하되 훈련 데이터 냉서 일정 부문 검증 데이터를 두어 학습과정에서 모델 성능을 높이는 검증을 진행하며 최종적으로 테스트 데이터를 통해 성능을 평가함.
04. 적합도 검정(Goodness of fit Test)
- 데이터가 가정된 확률에 적합하게 따르는지, 즉 데이터 분포가 특정 분포함수와 얼마나 맞는지를 검정하는 방법 - 일반적인 적합도 검정 방법으로 정규성 검정 이 있으며, 모집단의 분포를 정규분포로 가정하는 분석기법(t-Test, ANOVA, 회귀분석)이 적용될 시 데이터가 정규분포를 따르는가를 확인할 때 사용됨. - 그 외에 카이제곱 검정, 콜모고로프 스미르노프 검정 이 있음.
카이제곱 검정
k가 나와야 할 횟수의 기댓값 mₖ와 실제 나온 횟수 xₖ 의 차이를 이용
콜모고로프 스미르노프 검정(K-S Test: Kolmogorov - Smirnov Test)
관측된 표본분포와 가정된 분포사이의 적합도를 검사하는 누적분포함수의 차이를 이용한 검정법
연속형 데이터에도 적용 가능
관측된 자료의 크기를 나열하고, 관측치들의 누적확률을 구하여 가정된 분포의 누적확률과 비교하는 순서로 진행