AYSTORY

[필기] 분석모형 개선 본문

빅데이터분석기사

[필기] 분석모형 개선

bye0nzn 2026. 3. 21. 16:21
과적합 방지
매개변수 최적화
초매개변수
성능평가지표

01. 과대적합 방지

훈련 시에는 높은 성능을 보이지만, 테스트 데이터에 대해서는 낮은 성능을 보여주는 과대적합을 방지하고, 일반화된 모델을 생성하기 위해 다음과 같은 방향을 제시함.

 

  1. 모델의 낮은 복잡도
    • 훈련데이터를 더 많이 획득할 수 없다면 정규화, 드롭아웃 등을 활용해 적절한 복잡도를 가진 모델을 자동으로 탐색함.
    • 학습을 하면서 지속적으로 바뀌는 가중치 매개변수가 아닌, 상수값인 하이퍼파라미터(학습률, 각 층의 뉴런수 등)는 과대적합의 위험을 줄이기 위해 제약을 가하는 규제의 양을 결정하는 인수로, 큰 값을 지정할수록 복잡도가 낮은 모델을 얻게 됨.
    • 드롭아웃(Dropout)
      • 신경망 모델에서 은닉층의 뉴런을 임의로 삭제하면서 학습하는 방법
      • 훈련 시에는 삭제할 뉴런을 선택하며 테스트 시 모든 뉴런에 신호를 전달, 각 뉴런의 출력에 훈련 때 삭제한 비율 곱해서 전달
  2. 가중치 감소
    • 학습과정에서 큰 가중치에 대해서는 큰 패널티를 부과해 가중치 절대값을 가능한 작게 만듦.
    • 규제란 과대적합이 되지 않도록 모델을 강제로 제한하는 의미로 L1, L2 규제가 있음.
      • L2 규제
        • 손실함수에 가중치에 대한 L2 norm의 제곱을 더한 페널티 부여해 가중치 값을 비용함수 모델에 비해 작게 만들어냄.
        • 손실함수가 최소가 되는 가중치 값인 중심 점을 찾아 큰 가중치를 제한하는데 람다로 규제의 강도를 크게 하면 가중치는 0에 가까워짐. 
        • 회귀 모델에 L2 규제 적용 → Ridge 모델
      • L1 규제
        • L2 규제의 가중치 제곱을 절대값으로 바꾸는 개념
        • 손실함수에 가중치의 절대값인 L1 norm을 추가 적용하여, 희소한 특성 벡터가 되어 대부분의 특성 가중치를 0으로 만듦.
  3. 편향 - 분산 트레이드 오프
    • 과대적합과 과소적합 사이의 적절한 편향 - 분산 트레이드 오프, 절충점을 찾음.

02. 매개변수 최적화

- 신경망 학습의 목표는 손실 함수의 값을 최대한 낮추는 매개변수를 찾는 것
- 매개변수의 최적값을 찾는 과정을 매개변수 최적화라고 함.

 

  1. 확률적 경사 하강법 (SGD: Stochastic Gradient Descent)
    • 최적의 매개변수 값을 찾기 위해 매개변수에 대한 손실함수의 기울기를 이용함.
    • 손실함수의 기울기를 따라 조금씩 아래로 내려가다 최종적으로 손실함수가 가장 작은 지점에 도달하도록 하는 알고리즘
      • 데이터 전체를 선택하는 배치 경사 하강법과 비교하면, 랜덤으로 선택한 하나의 데이터로만 계산하는 단순하고 명확한 구조가 장점
        • 최소값인 (0,0)까지 지그재그로 이동, 매개변수가 방향에 따라 다른 기울기를 갖는 비등방성 함수인 경우 비효율적인 움직임을 보임.
      • 해당 알고리즘 수식은 갱신할 가중치 매개변수인 W, dL/dw, 매개변수에 대한 손실함수의 기울기와 학습률(η)로 설명함.
  2. 모멘텀(Momentum)
    • 미분계수가 0인 지점에서 더 이상 이동하지 않는 한계점을 가진 확률적 경사 하강법에 속도 개념인 기울기 방향으로 힘을 받으면 물체가 가속되는 관성 물리법칙 적용
    • v(속도)항에 기울기 값이 누적되고, 누적된 값이 가중치 갱신에 영향을 주면서 이 기울기 값으로 인해 빠른 최적점 수렴이 가능함.
  3. AdaGrad(Adaptive Gradient)
    • 개별 매개변수에 적응적으로 학습률을 조정하면서 학습을 진행하는 알고리즘
    • 첫 부분에서는 크게 학습하다가 최적점에 가까울수록 학습률을 점차 줄여가며 조금씩 작게 학습시킴.
  4. Adam(Adaptive Moment Estimation)
    • 모멘텀과 AdaGrad를 결합한 방법론 
    • 학습률, 일차 모멘텀 계수, 이차 모멘텀 계수의 3가지 초매개변수들을 설정함.
  5. 초매개변수(하이퍼파라미터, HyperParameter) 최적화
    • 사람이 직접 설정해주어야 하는 매개변수
    • 뉴런의 수, 학습률, 배치 크기, 은닉층 개수 등
      • 학습률(Learning Rate: 기울기 방향으로 얼마나 빠르게 이동할지 결정함. 학습률이 작으면 학습 시간이 길어지고 학습률이 커지면 발산해 학습이 제대로 이루어지지 않을 수 있음.
      • 미니배치 크기: 전체 훈련데이터 셋을 신경망에 넣게 되면 리소스가 비효율적으로 사용되고 시간이 오래 걸리므로 배치 개념 사용 → 미니배치는 전체 학습 데이터를 주어진 배치 크기로 나눈 것으로 미니배치 크기가 큰 경우 병렬연산 구조를 사용할 때 효과적일 수 있으며, 크기가 작으면 더 많은 가중치 업데이트할 수 있음.
      • 훈련 반복(Epoch) 횟수: 전체 훈련 데이터 셋이 신경망을 통과한 횟수로, 1Epoch는 1회 학습으로 통과했다는 뜻, 학습의 조기 종료를 결정하는 변수
      • 이터레이션: 하나의 미니배치를 학습할 때 1 iteration으로 1회 매개변수(파라미터) 업데이트가 진행됨. 미니배치 개수와 이터레이션 개수는 동일함.
      • 은닉층 개수
        • 은닉층 수가 많아질수록 특정 훈련데이터에 더 최적화 가능
        • 모든 은닉층들의 뉴런 개수를 동일하게 유지하는 것이 같은 은닉층 개수에 뉴런의 개수를 가변적으로 하는 것보다 효과적
        • 첫번째 은닉층에 있는 뉴런의 개수가 입력층에 있는 뉴런의 개수보다 큰 것이 효과적인 경우가 많음.

03. 분석모형 융합

  1. 앙상블 학습
    • 배깅
      • 복원 추출 방법으로 데이터를 샘플링, 모델링한 후 전체 결합해 결과를 평균하는 기법
    • 부스팅
      • 순서대로 모델들을 진행하는 방법으로 이전 분류기의 학습 결과에 따라 다음 분류기의 학습 데이터의 샘플 가중치(잘못 분류한 데이터와 이용하지 않은 데이터에 대한 가중치)를 조정해 학습을 진행
    • 랜덤포레스트
      • 배깅을 적용한 의사결정나무
  2. 결합분석 모형
    • 두 종류 이상의 결과변수를 동시에 분석할 수 있는 방법
    • 결과 변수 간의 유의성, 관련성 설명 가능

04. 최종모형 선정

최종 모형을 선정하기 위해 분석모형 평가지표들을 활용, 구축된 부문별 여러 모형을 비교해 선택

 

  1. 회귀모형에 대한 주요 성능평가지표
    • SSE(Sum Squared Error): 실제값과 예측값 차이를 제곱하여 더한 값
    • 결정계수 R²: 회귀모형이 실제값에 얼마나 잘 적합하는지에 대한 비율
    • MAE(Mean Absolute Error): 실제값과 예측값의 차이의 절대값을 합한 평균값
    • MAPE(Mean Absolute Percentage Error): MAE 계산 시 실제값에 대한 상대적 비율 고려
  2. 분류모형에 대한 주요 성능평가지표
    • 특이도(Specificity)
      • 음성 중 맞춘 음성의 수
      • TN / (TN + FP)
    • 정밀도(Precision)
      • 양성 판정 수 중 실제 양성 수
      • 해당 클래스 예측 샘플 중 실제 속한 샘플 수의 비율
      • TP / (TP + FP)
    • 재현율(Recall)
      • 통계용어로 민감도(Sensitivity)
      • 전체 양성 수에서 검출 양성 수(양성 중 맞춘 양성의 수)
      • 실제 속한 샘플 중 특정 클래스에 속한다고 예측한 표본 수 비율
      • TP / (TP + FN)
    • 정확도(Accuracy)
      • 전체 수 중에서 양성과 음성을 맞춘 수
      • 전체 샘플 중 맞게 예측한 샘플 수 비율
      • (TP + TN) / (TP + TN + FP + FN)
  3. 비지도학습 모형에 대한 주요 성능평가지표
    • 군집분석
      • 군집타당성지표(Clustering Validity Index)로 군집 간 분산과 군집 내 분산으로 (1) 군집 간 거리 (2) 군집의 지름 (3) 군집의 분산 등을 고려함.
    • 연관분석
      • 연관규칙에서 지지도와 신뢰도가 모두 최소도보다 높은 것으로 평가하며 일반적으로 최소 지지도를 정한 뒤 이에 대한 이하를 버리고 그 중 신뢰도가 어느정도 높은 결과들을 가져옴.

'빅데이터분석기사' 카테고리의 다른 글

[필기] 분석결과 해석  (0) 2026.03.22
[필기] 분석모형 평가  (0) 2026.03.21
[필기] 고급 분석기법  (0) 2026.03.20
[필기] 분석기법  (1) 2026.03.20
[필기] 분석 환경 구축  (0) 2026.03.17