AYSTORY

[필기] 분석기법 본문

빅데이터분석기사

[필기] 분석기법

bye0nzn 2026. 3. 20. 03:16

Chapter 02. 분석기법 적용

회귀분석
로지스틱 회귀분석
의사결정나무
인공신경망
딥러닝
SVM
연관성 분석 군집 분석

01. 분석기법 개요

  1. 학습 유형에 따른 데이터 분석 모델
    • 학습 유형에 따라 데이터 분석 모델은 지도 / 비지도 / 준지도 / 강화학습으로 분류
    • 지도학습
      • 입력값이 주어질 때 정답이 무엇인지 알려주면서 컴퓨터 학습
      • 대표적으로 분류(Classification)와 회귀(Regression)로 구분
        • 분류 → 이진분류 / 다중분류
          • 의사결정트리(분류), 랜덤 포레스트, 인공신경망(지도학습), 서포트벡터머신(SVM), 로지스틱 회귀분석
        • 회귀
          • 의사결정트리(회귀), 선형회귀분석, 다중회귀분석
      • 예; 손글씨로 작성된 숫자 이미지 데이터 분류
    • 비지도학습
      • 정답이 없는 데이터를 컴퓨터 스스로 학습하여 숨겨진 의미, 패턴을 찾아내고 구조화
      • 예; USArrests 미국 주별 강력 범죄율 군집분석
      • 종류; 군집분석(Clustering), 연관성분석(Association Analysis), 인공신경망(Neural Networks), 오토인코더(Auto-encoder) 등
    • 준지도학습
      • 정답이 있는 데이터와 정답이 없는 데이터를 동시에 학습에 사용
      • 레이블이 된 소수의 데이터만으로 부분학습모델을 만들고, 이 모델을 사용해서 나머지 레이블이 없는 데이터에 레이블을 생성한 후 지도학습 수행함.
      • 종류; 셀프 트레이닝, GAN 등
        • 셀프 트레이닝: 정답이 있는 데이터로 모델을 학습한 뒤 정답이 없는 데이터를 예측하여 이 중에서 가장 확률값이 높은 데이터들만 정답 데이터로 다시 가져가는 방식을 반복하는 것으로 높은 확률값이 나오는 데에 가중치를 주는 간단한 기법
        • GAN(Generative Adversarial Networks): 생성모델(generative model)과 판별모델(distriminative model)이 존재하여 생성모델에서 데이터 분포 법칙에 따라 데이터를 생성하면 판별 모델에서는 이를 판별하는 방식으로 학습 진행
          • 비유: 위조지폐범(진짜 같은 화폐를 만들어 경찰 속이려 함) vs. 경찰(진짜와 가짜 화폐 판별함으로써 위조지폐범 검거하고자 함) → 이러한 경쟁적 학습이 지속되면 위조지폐범이 진짜와 거의 흡사한 수준의 위조지폐 만들게 됨.
    • 강화학습
      • 주어진 상황에서 보상을 최대화하도록 에이전트를 학습하는 기법
      • 종류; Q-Learning, 정책경사(PG; Policy Gradient)
  2. 데이터분석 알고리즘과 분야
    • 업리프트 모델링 - 단계적 추정, 예측 분석
      • A/B테스트와 같이 환경이나 조건을 달리한 후에 적당한 그룹을 선택 → 마케팅이나 신용 관리, 채널, 가격 선택, 고객 이탈 관리 등 다양한 분야에 사용
    • 생존분석 - 의료 통계, 설비 분야 사건 예측
    • 회귀분석 - 예측, 추정 분석
      • 로지스틱 회귀분석 → 이진분류에 자주 활용
    • 시각화 - 원인과 관계 분석
    • 기초통계 - 기초 통계현황 파악
    • 부스팅, 배깅 - 분류 분석
    • 시계열분석 - 시간상의 예측(이자율)
    • 요인분석 - 차원축소
    • 텍스트 마이닝 - 감성 분석
    • 의사결정 나무, 랜덤포레스트 - 분류
    • 신경 회로망 - 예측 분석
    • 군집분석 - 독립변수들만의 분류, 그룹화
    • 추천-협업 필터링 - 아이템과 이용자 간 상호 분석 통한 추천
    • 앙상블 기법 - 추정, 예측, 규범 등의 결합 분석
    • 소셜네트워크 분석 - 관계망 분석
    • 서포트벡터머신(SVM) - 분류 분석
    • 주성분분석 - 원인분석, 차원축소

02. 회귀분석

특정 변수가 다른 변수에 어떤 영향을 미치는지 수학적 모형으로 설명, 예측하는 기법
독립변수로 종속변수를 예측하는 기법
  • 독립변수: 입력값 / 원인 설명 변수
  • 종속변수: 결과값 / 효과 설명 변수
  • 회귀선(회귀계수): 독립변수가 주어질 때 종속변수의 기댓값 → 일반적으로 최소제곱법 이용
    • 최소제곱법(최소자승법): 잔차(residual, 관측값 y와 예측값 y 간의 차이) 제곱의 합이 최소가 되도록하는 직선 찾기
  • 회귀 분석 모형 진단
    1. 적합도 검정: 추정된 회귀식이 표본의 실제값을 얼마나 잘 설명하는지에 대해 확인하는 방법(R²가 대표적)
    2. 변수 영향력 분석: 종속변수에 독립변수들이 얼마큼 영향력 미치는지 회귀변수의 통계적 유의성 검정, 회귀 계수 추정치에 대한 표준오차와 신뢰구간 검증 등으로 확인 
  1. 선형회귀분석
    • 종속변수 y와 한 개 이상의 독립변수 x와의 선형 상관성을 파악하는 회귀분석 기법으로 종속변수와 독립변수 모두 연속형 변수여야 함.
    • 단순 선형회귀분석: 가장 단순한 분석, 한개의 종속변수 y와 한 개의 독립변수 x로, 두 개의 변수 사이의 관계 분석
    • 다중 선형회귀분석: 독립변수가 두 개 이상이고 종속변수가 y 하나인 선형회귀분석
    • 기본가정
      • 선형성
      • 잔차 정규성: 잔차의 기댓값은 0이며 정규분포 이룸.
      • 잔차 독립성
      • 잔차 등분산성
      • 다중 공산성: 다중 회귀분석 수행 시 3개 이상의 독립변수 간 상관관계로 인한 문제가 없어야 함.
    • 일반화 선형모형(GLM: Generalized Linear Model)
      • 선형회귀모형의 확장형태, 종속변수가 정규분포를 따르지 않는 경우도 적용 가능한 통계 모형
      • 선형예측변수와 링크하수 사용 → 종속변수와의 관계 설명
      • 선형회귀, 로지스틱회귀, 포아송회귀 등 다양한 특수한 경우의 모델이 포함됨.
      • 구성요소
        • 선형예측변수(Linear Predictor): 독립변수와 모수를 결합한 선형 식
        • 연결함수(Link Function): 선형예측변수와 종속변수 간 관계 나타내는 함수
        • 확률분포: GLM은 종속 변수가 특정 확률분포 따른다고 가정함. (일반적으로, GLM은 이산확률분포인 이항/포아송 분포, 이항 분포와 같은 확률 분포 가정)
  2. 로지스틱 회귀분석(Logistic Regression)
    • 단순 로지스틱 회귀분석: 종속변수가 이항형 문제(범주의 개수가 두 개인 경우)인 회귀분석
    • 다중 로지스틱 회귀분석: 종속변수가 이항형 문제가 아닌 두 개 이상의 범주를 가지게 될 경우의 회귀분석
      • 승산(odds): 임의의 사건 A가 발생하지 않을 확률 대비 일어날 확률의 비율
  3. 회귀분석 장단점
    • 장점: 크기 관계 없이 계수들에 대한 명료한 해석과 손쉬운 통계적 유의성 검증 가능
    • 단점: 선형적 관계로 데이터가 구성 → 적용 가능

03. 의사결정나무(Decision Tree)

나무 모양으로 나타내어 전체 자료를 몇 개의 소집단으로 분류(classification)하거나 예측(prediction) 수행 기법
  • 상위노드로부터 하위노드로 트리구조 형성 → 매 단계마다 분류 변수와 분류 기준값 선택 중요
  1. 의사결정나무 구성
    1. Root Node(뿌리 마디, 뿌리 노드)
    2. Internal Node(중간 마디)
    3. Terminal Node(끝 마디, 잎 노드)
    4. Child Node(자식 마디)
    5. Parent Node(부모 마디)
    6. Branch(가지): 하나의 마디로부터 끝 마디까지 연결된 마디
    7. Depth(깊이)
  2. 의사결정나무 종류
    • 목표변수가 이산형인 경우의 분류나무 / 연속형인 경우의 회귀나무로 구분
      • 분류나무 - 이산형 목표변수: 목표변수 범주에 속하는 빈도 기반 입력 데이터 분류 클래스
      • 회귀나무 - 연속형 목표변수: 목표변수 평균/표준편차 기반 예측된 결과 → 특정 의미 지니는 실수값 출력
    • 분류나무: 이산형(범주형) 목표변수에 따른 빈도 기반 분리 
      • 상위 노드에서 가지 분할을 진행할 때 카이제곱 통계량(불순도 함수)의 p-value, 지니 지수(Gini Index, 불순도 함수), 엔트로피 지수(Entropy Index, 불순도 함수) 등이 분리 기준으로 활용
    • 회귀나무: 연속형(수치형) 목표변수에 따른 평균/표준편차 기반 분리
      • 상위 노드에서 가지분할을 진행 → F-통계량의 p-value, 분산의 감소량 등이 분리 기준으로 활용
        • 분산의 감소량이 최대화가 될수록 낮은 이질성, 순수도가 높아지는 방향으로 가지분할 진행됨.
  3. 의사결정나무 분석 과정
    1. 변수 선택: 목표변수와 관련된 설명(독립) 변수들 선택
    2. 의사결정나무 형성: 분석목적 → 적절한 분리기준, 정지규칙, 평가기준 등으로 
      • 최대 깊이: 트리 깊이가 지정된 최대값에 도달하면 분할 정지
      • 최소 샘플 수: 가지 끝 노드에 속한 샘플 수가 정해진 값보다 작다면 분할 정지
      • 불순도 감소: 불순도를 감소시키는 최소량 지정 → 이 값보다 작은 불군도 감소가 있으면 분할 정지
    3. 가지치기: 부적절한 나뭇가지 제거 → 오버피팅 막고 일반화 성능 높임.
    4. 모형 평가 및 예측
      • 정보 획득(Information Gain)
        • 정보이론에서 순도가 증가하고 불확실성이 감소하는 것
        • 현재 노드의 불순도와 자식노드의 불순도 차이 의미
      • 재귀적 분기(Recursive Partitioning) 학습
        • 분기 전보다 분기 후 각 영역의 정보 획득량이 높아지도록 입력 변수 영역 구분 → 사전에 설정한 기준을 만족할 때까지 분기 반복
    5. 가지치기: 평가용 데이터 활용
      • 에러감소 가지치기: 분할/결합 전.후 오류 비교 → 오류 줄지 않을 때까지 반복
      • 룰 포스트 가지치기: 나무구조를 뿌리 노드부터 잎 노드까지 경로의 형태로 변환 → 정확도 낮은 순 제거
    6. 타당성 평가
    7. 해석 및 예측
  4. 의사결정나무 대표적 알고리즘
    • CART(Classfication and Regression Trees)
      • 일반적으로 활용
      • 불순도 측도로 범주형 / 이산형 → 지니 지수를, 연속형 → 분산 감소량을 이용한 binary split(이진 분류) 활용
    • C4.5 / C5.0
      • 범주형/이산형 목표변수에만 활용 → 불순도 측도로 엔트로피 지수 활용
      • 범주의 수만큼 분리가 일어남. → 각 마디에서 다지분리(multiple split) 가능
    • CHAID(Chi-squared Automatic Interaction Detection)
      • 범주형/이산형 목표변수와 연속형 목표변수에 활용
      • 불순도 측도로 카이제곱 통계량을 활용
      • 가지치기하지 않고 적당한 크기에서 성장을 중지하며 분리변수의 범주마다 마디를 형성하는 다지분리(multiple split) 가능
    • 랜덤포레스트
      • 부트스트래핑 기반 샘플링을 활용한 의사결정나무 생성 이후 배깅 기반 나무들을 모아 앙상블 학습 → 숲 형성하게 되면 이를 랜덤 포레스트라고 일컫음.
      • 부트스트래핑(Bootstrapping)
        • 단순 복원 임의추출법(랜덤 샘플링) → 크기가 동일한 여러 개의 표본자료 생성
      • 배깅(Bagging: Bootstrap Aggregating)
        • 여러 부트스트랩 자료를 생성해 학습하는 모델링 → 분류기 생성 후 그 결과 앙상블
      • 부스팅(Boosting)
        • 가중치 활용 → 약분류기를 강분류기로 만드는 방법
        • 순차적으로 분류 모델들이 틀린 곳에 집중하여 새로운 분류 규칙을 생성
  5. 의사결정나무의 장단점
    • 장점
      • 연속형, 범주형 변수 모두 적용, 변수 비교 가능
      • 규칙 이해 easy
      • 데이터 → 규칙 도출에 유용 → DB 마케팅, CRM, 시장조사, 기업 부도/환율 예측 등 다양한 분야에서 활용
    • 단점
      • 트리구조가 복잡할 시 예측/해석력 떨어짐.
      • 데이터 변형에 민감

04. 인공신경망 (ANN; Artificial Neural Network)

  1. 인공신경망 특징
    • 인간의 두뇌 신경세포인 뉴런을 기본으로 한 기계학습 기법
    • 신경망 모형 구축 시 고려 사항
      • 범주형 변수: 일벙 빈도 이상의 값으로 비슷하고 범주가 일정한 구간이어야 함.
      • 연속형 변수: 입력변수 값들의 범위가 큰 차이가 없어 표준화가 가능한 경우에 더 적합함.
  2. 인공신경망의 발전
    • 기존 신경망 다층 퍼셉트론이 가진 문제
      • 사라지는 경사도(Vanishing  Gradient): 신경망 층수 늘릴 때 데이터가 사라져 학습이 잘 안됨.
      • Overfitting
    • 딥러닝의 등장
  3. 인공신경망의 원리
    • 지도학습의 경우 하나의 뉴런은 입력값(X)과 목표 출력값(Y)이 있을 때 다음 뉴런으로 전달 → 적절 출력 값 생성하기 위해 가중치 W를 곱한 값에 편향을 더해 이를 조정하며 학습, 최적화 과정 거치게 되며 최종적으로 활성화 함수 활용
    • 비지도학습, 강화학습 기반 → 다양한 인공신경망 모델로 구현
    • 뉴런 간 연결 방법
      • 층간 연결: 서로 다른 층에 존재하는 뉴런과 연결
      • 층내 연결: 동일 층 내 뉴런과 연결
      • 순환 연결: 어떤 뉴런의 출력이 자기 자신에게 입력되는 연결
  4. 학습
    • 손실 함수
      • 신경망이 출력한 값과 실제 값의 오차에 대한 함수
    • 평균제곱 오차(MSE: Mean Squared Error)
      • 인공신경망의 출력값과 사용자가 원하는 출력값 사이의 차이를 오차로 사용 → 각 거리 차이를 제곱해 합산 후 평균
    • 교차엔트로피 오차(CEE; Cross Entropy Error)
      • 분류 부문 → t값이 원-핫 인코딩 벡터, 모델의 출력값에 자연로그 적용, 곱함.
    • 학습 알고리즘
      1. 미니배치
      2. 기울기 산출(경사법 → 가중치 매개변수의 기울기를 미분해 구함.)
      3. 매개변수 갱신
    • 오차역전파(Back Propagation)
      • 가중치 매개변수 기울기를 미분을 통해 진행하는 것은 시간 소모가 크므로 오차를 출력층에서 입력층으로 전달, 연쇄법칙을 활용한 역전파 → 가중치와 편향을 계산, 업데이트
      • 신경망 각 계층에서의 역전파 처리는 덧셈노드, 곱셈노드의 연산 역전파처리, 활성화 함수인 Relu 계층, Sigmoid 계층, Affine 계층, Softmax-with-Loss 등이 있음.
    • 활성(활성화) 함수
      • Sigmoid 활성화 함수(이진분류)
        • 참에 가까워지면 0.5~1 사이의 값
        • 거짓이면 0~0.5 사이 값 
      • Relu 활성화 함수(이진분류)
        • Sigmoid의 Gradient Vanishing 문제 해결
        • 0보다 크면 입력값 그대로 출력
        • 0 이하의 값만 0으로 출력
    • 과대적합(과적합, Overfitting)
      • 해결방안: 가중치 감소(Weight Decay), 드롭아웃(Dropout), 하이퍼파라미터 최적화 방법
        1. 가중치 감소
          • LASSO: L1 규제(정규화)
          • Ridge: L2 규제(정규화)
        2. 드롭아웃
        3. 초매개변수(하이퍼파라미터) 최적화 방법
          • 적절한 튜닝 → 최적화된 하이퍼파라미터 도출 → 과적합 방지
          • 하이퍼파라미터는 모델의 구조와 학습 알고리즘에 영향을 주는 변수 → 사용자가 직접 설정해야 하며, 최적의 값은 데이터셋과 모델에 따라 다를 수 있음.
          • 하이퍼파라미터 최적화 수행 방법
            1. Grid Search(모든 조합 시도)
            2. Random Search
            3. Bayesian optimization
            4. 자동화된 방법(AutoML 등)
    • 기울기 소실(Vanishing Gradient)
      • 해결 방안
        • ReLU 함수 사용
        • LSTM(Long Short-Term Memory)
          • RNN 구조의 변형 → 주로 시퀀스 길이가 길거나 장기의존성이 있는 데이터에 사용, 기억 셀과 게이트라는 요소를 추가해서 복잡한 시퀀스를 학습하고 과거의 데이터 패턴을 잡아내는데 매우 효과적
        • GRU(Gated Recurrent Unit)
          • 여러 게이트와 기억 매커니즘을 활용 → LSTM과 비슷한 성능을 보이며 더 단순한 구조로 연산 비용 절감
        • 배치 정규화(Batch Normalization)
  5. 딥러닝 모델 종류
    1. CNN(합성곱 신경망 모델)
      • 인접하는 계층의 모든 뉴런과 결합된 fully-connected을 구현한 Affine 계층을 사용 → 모든 입력 데이터들을 동등한 뉴런으로 처리함.
      • 특징 추출 과정; Convolution layer과 Pooling layer로 나뉘어짐. → 입력 데이터를 필터가 순회하며 합성곱 계산한 → Feature Map 생성
        • 합성곱 계층
        • 풀링 계층
          • 입력데이터의 채널 수가 변화되지 않도록 2차원 데이터의 세로 및 가로 방향의 공간을 줄이는 연산 
          • Max Pooling, Average Pooling 등
      • 합성곱 연산의 필요 요소
        • Padding
          • 합성곱 연산 반복 수행 시 출력크기가 1이 되어 더 이상 연산을 진행하기 어려운 상태를 사전 예방하기 위한 조치 → 출력크기 조절하는 방법
          • 연산 전 입력데이터 주위를 0 또는 1로 채워 출력 데이터 크기를 입력 데이터 크기와 동일 설정
        • Stride
          • 필터를 적용하는 위치 간격
          • Stride가 커지면 → 필터 윈도우가 적용되는 간격이 넓어져 출력 데이터 크기 줄어듦.
    2. RNN(Recurrent Neural Network)
      • 순서를 가진 데이터 입력 → 단위 간 연결이 시퀀스 따라 방향성 그래프 형성하는 신경네트워크 모델
        • CNN과 달리 중간층(은닉층)이 순환구조 → 동일한 가중치 공유
        • 가중치와 편향에 대한 오차함수 미분 계산학 위해 SGD(확률적 경사하강법) 이용
      • 가중치 업데이트를 위해 과거시점까지 역전파하는 BPTT(Back Propagation Through Time) 활용
    3. LSTM(Long Short-Term Memory Network)
      • RNN 단점 보완하기 위해 변형된 알고리즘 → 보통 신경망 대비 4배 이상 파라미터를 보유하여 많은 단계를 거치더라도 오랜 시간동안 데이터 잘 기억
      • Input Gate - Output Gate - Forget Gate 구조 → 가중치 곱한 후 활성화 함수 거치지 않고 컨트롤 게이트 통해 상황에 맞게 값 조절
      • 은닉층 이외 셀(C, Cell)이라는 층을 구성하는데 셀은 장기 메모리를 기억하는 셀 → 망각 게이트와 입력 게이트를 과거와 현재 상태의 셀로 조합, 과거정보를 얼마나 망각할 지 현재 정보를 얼마나 반영할지 결정
    4. 오토인코더(Auto-encoder)
      • 대표적 비지도학습 모델
      • 다차원 데이터 → 저차원 → 고차원 ; 특징점 찾아냄.
      • 세부 종류
        • 디노이징(Denoising) 오토인코더: 손상 있는 입력값 받아도 손상 제거하고 원본 데이터를 출력값으로 만듦.
        • 희소(Sparse) 오토인코더: 은닉층 중 매번 일부 노드만 학습 → 과적합 문제 해결
        • VAE(Variational Auto-Encoder): 확률분포 학습 → 데이터 생성
      • 주로 데이터 압축, 저차원화를 통한 데이터 관찰, 배경잡음 억제 등으로 활용
    5. GAN
      • 판별자 네트워크
        • 랜덤 노이즈 m개 생성 → 생성자 네트워크에 전달 → 변환된 데이터 m개와 진짜 데이터 m개 획득.
        • 2m개 데이터 이용 →  판별자 네트워크의 정확도 최대화하는 방향으로 학습 
      • 생성자 네트워크
        • 랜덤 노이즈 m개 재생성 → 생성자가 판별자의 정확도를 최소화하도록 학습
      • 기본적으로 두 모델 간 균형있는 경쟁이 필요하나 한쪽으로 역량이 치우치는 경우 성능이 제약 → 개선한 모델: DCGAN(Deep Convolutional GAN)
  6. 인공신경망 장단점
    • 장점
      • 비선형적 예측 가능
      • 다양한 데이터 유형, 새로운 학습 환경, 불완전 데이터 입력 등에도 적용 가능
    • 단점
      • 데이터 커질수록 학습 시간 비용 기하급수적으로 커짐.
      • 모델에 대한 설명기능이 떨어지나 Explainable AI 등 대체안 연구되고 있음.

05. 서포트벡터머신(SVM: Support Vector Machine)

지도학습 기법으로 고차원 또는 무한 차원 공간 → 초평면을 찾아 이용해 분류와 회귀 수행
두 카테고리 중 어느 하나에 속한 데이터 집합이 주어졌을 때, 주어진 데이터 집합을 바탕으로 하여 새로운 데이터가 어느 카테고리에 속할지 판단하는 비확률적 이진 선형 분류 모델을 만드는 기법

 

  1. SVM 주요 요소
    1. 벡터: 점들 간 Class
    2. 결정영역: 클래스들 잘 분류하는 선
    3. 초평면(Hyperplane): 서로 다른 분류에 속한 데이터들 간 거리를 가장 크게 하는 분류 선
    4. 서포트벡터(Support Vector): 두 클래스 사이에 위치한 데이터 포인트들
    5. 마진(Margin): 서포트벡터를 지나는 초평면 사이의 거리
  2. SVM 핵심 특징
    1. '여백(마진) 최대화' → 일반화 능력의 극대화 추구
    2. 초평면의 마진은 각 서포트 벡터를 지나는 초평면 사이의 거리
  3. SVM 장단점
    • 장점
      • 다양한 라이브러리 → 사용 easy / 분류, 회귀 예측 문제에 동시 활용 가능
      • 신경망 기법에 비해 적은 데이터 → 학습 가능 / 과대적합, 과소적합 정도 덜함.
    • 단점
      • 이진분류만 가능 → 데이터 많을 시 모델 학습 시간 오래 소요
      • 각 분류에 대한 SVM 모델 구축이 필요함.

06. 연관성 분석

- 둘 이상의 거래, 사건에 포함된 항목들의 관련성을 파악하는 탐색적 데이터 분석 기법
- 컨텐츠 기반 추천의 기본 방법론
- 그룹에 대한 특성 분석 → 군집분석과 병행 가능
- 장바구니 분석이라고도 불림.

 

  1. 연관규칙(Associatino Rule) 순서
    1. 데이터 간 규칙 생성: if 조건절 → 결과절
    2. 어떤 규칙이 데이터 특성에 부합되는지 기준 설정
      • 지지도(Support): 데이터 전체에서 해당 물건 → 고객이 구입한 확률
      • 신뢰도(Confidence): 어떤 데이터를 구매했을 때 다른 제품이 구매될 조건부 확률
      • 향상도(Lift): 두 물건의 구입 여부가 독립인지 판단 / 1: 상호독립적, 1보다 크면: 양의 상관관계, 1보다 작으면: 음의 상관관계
    3. 규칙의 효용성 평가(실제 규칙 생성)
  2. 아프리오리(Apriori) 알고리즘
    • 모든 항목집합에 대한 지지도 계산하는 대신, 최소 지지도 이상의 빈발항목집합만 찾아냄 → 연관규칙 계산
      • 최소지지도 이상의 한 항목집합이 빈발(frequent) → 항목집합의 모든 부분집합은 역시 빈발한목집합으로 연관규칙 계산에 포함
      • 최소지지도 미만의 한 항목집합이 비빈발(infrequent) → 항목집합을 포함하는 모든 집합을 비빈발항목집합으로 pruning(가지치기)
      • 이후 최소신뢰도 기준 적용 → 최소 신뢰도 미달하는 연관규칙은 다시 제거 → 반복작업 수행, 새로운 연관규칙이 없을 때까지 진행
  3. 연관성분석 장단점
    • 장점
      • 분석 결과 이해 easy
      • 실제 적용 용이
    • 단점
      • 품목이 많아질수록 연관성 규칙이 더 많이 발견되나 의미성에 대해 사전 판단 필요
      • 상당 수의 계산과정 필요

07. 군집분석(Cluster Analysis)

- 비지도학습의 일종
- 주어진 각 개체들의 유사성 분석 → 높은 대상끼리 일반화된 그룹으로 분류 

 

  1. 군집분류 시 기본적인 가정
    • 하나의 군집 내에 속한 개체들의 특성 동일
    • 군집 개수, 구조 관게없이 개체 간 거리 기준 → 분류
    • 개별 군집의 특성은 군집에 속한 개체들의 평균값으로 나타냄.
  2. 군집분석의 척도
    • 거리는 값이 작을수록 두 고나찰치가 유사함 의미
    • 유사성은 값이 클수록 두 관찰치가 서로 유사함 의미
    • 유클리드 거리
      • 2차원 공간에서 두 점간의 거리로 두 점을 잇는 가장 짧은 거리
    • 맨해튼 거리(Manhattan Dist.)
      • 사각형 격자, 블록으로 이뤄진 지도에서 출발점~도착점까지 최단거리
      • 공간벡터 사이에 차원 실수를 직교 좌표계에 일정한 좌표축의 점 위에 투영한 선분길이합으로 각 변수 값 차이의 절대값의 합 
      • 택시 거리, 시가지 거리, 민코프스키 거리 적용 → L1 거리로도 통칭
    • 민코프스키 거리(Minkowski Dist.)
      • m차원 민코프스키 공간에서의 거리
      • m=1일 때 맨해튼 거리와 동일
      • m=2일 때 유클리드 거리와 동일
    • 마할라노비스 거리(Manhalanobis Dist.)
      • 두 특징 간 나타나는 데이터의 방향성과 상관도 나타낸 공분산 행렬(Covariance Matrix) 개념 적용 → 정규 분포에서 특정 값이 얼마나 평균에서 멀리 있는지 나타낸 거리
    • 자카드 거리(Jaccard Dist.)
      • 비교 대상인 두 개의 객체를 특징들의 집합으로 간주하며 범주형 데이터에서 비유사성 측정하는 지표
  3. 군집분석의 종류
    • 병합 방식 - N 군집에서 시작, 하나의 군집이 남을 때까지 순차적으로 유사한 군집들 병합
    • 분할 방식 - 전체 하나의 군집에서 시작 ~ N 군집으로 분할
    • 계층적 군집분석
      • 계층화된(상위-하위 그룹) 구조 → 군집 형성 
      • 군집 수 명시 필요 X, 덴드로그램을 통해 결과 표현 시각화
      • 계층적 병합 군집화
        • N개의 군집으로 시작 ~ 가장 근접하고 유사한 두 개의 군집들이 1개 군집으로 병합
        • 가장 거리가 짧은 두 개의 군집들이 순차적으로 병합
      • 최단 연결법(single-link)
        • 군집과 군집/데이터 간 거리 중 최단거리 값 → 거리로 산정
      • 최장 연결법(complete-link)
        • 군집과 군집/데이터 간 거리 중 최장거리 값 → 거리로 산정
      • 평균 연결법(average-link)
        • 군집과 군집/데이터 간 거리 중 평균거리 값 → 거리로 산정
      • Ward 연결법
        • 군집 내 편차들의 제곱합을 고려한 군집 내 거리 기준
    • 비계층적 군집분석(분할적 군집)
      • 사전 군집 수로 표본을 나누며 레코드(군집)들을 정해진 군집에 할당
      • K-평균(K-means) 군집 분석
        • 군집 내부 분산 최소화 → 각 사례를 군집들 중 하나에 할당
        • 개별유형의 특징 파악 및 좌표 기반 군집 분석으로 대용량 데이터 처리/분산처리에 용이함.
      • 밀도 기반 클러스터링(DBSCAN)
        • 개체들의 밀도 계산을 기반 → 밀접하게 분포된 개체들끼리 그룹화
        • 파라미터로 밀도계산 범위(epsilon)와 하나의 그룹으로 묶는 최소 개체수(minPts)가 필요함.
        • 이상치들은 충분한 고려없이 제외 가능하며 유형 간 밀도 차이가 뚜렷하지 않을 때 추천
      • 확률 분포 기반 클러스터링(Gaussian Mixture Model)
        • 전체 데이터의 확률 분포가 가우시안 분포 조합으로 이뤄졌음을 가정하고, 각 분포에 속할 확률이 높은 데이터들 간 군집 형성
        • 개별 데이터가 정규 분포 상에서 어떤 분포에 속할지 더 높은 확률로 배정된 부문으로 군집화
  4. 군집분석 장단점
    • 장점
      • 다양한 데이터 형태에 적용 가능
      • 특정 변수에 대한 정의가 필요하지 않는 적용이 용이한 탐색적 기법
    • 단점
      • 초기 군집 수, 관측치간의 거리 등의 결정에 따라 결과 바뀔 수 있음.
      • 사전 주어진 목표가 없으므로 결과 해석이 어려움.

 

'빅데이터분석기사' 카테고리의 다른 글

[필기] 분석모형 평가  (0) 2026.03.21
[필기] 고급 분석기법  (0) 2026.03.20
[필기] 분석 환경 구축  (0) 2026.03.17
[필기] 분석 절차 수립  (0) 2026.03.16
[필기] 추론통계  (0) 2026.03.16