AYSTORY

[필기] 데이터 정제 본문

빅데이터분석기사

[필기] 데이터 정제

bye0nzn 2026. 3. 11. 14:21

01. 데이터에 내재된 변수의 이해

  • 데이터 관련 정의
    • 데이터(Data): 이론을 세우는 기초가 되는 사실 또는 자료
    • 단위(Unit): 관찰되는 항목 또는 대상 지칭
    • 관측값(Observation): 각 조사 단위별 기록정보 또는 특성
    • 변수(Variable): 각 단위에서 측정된 특성 결과
    • 원자료(Raw data): 표본에서 조사된 최초의 자료
  • 데이터 종류
    • 단변량자료(Univariate Data): 자료의 특성을 대표하는 특성 변수가 하나인 자료
    • 다변량자료(Multivariate Data): 자료의 특성을 대표한느 특성 변수가 두 가지 이상인 자료
    • 질적자료(Qualitative Data): 정석적 또는 범주형 자료, 자료를 범주의 형태로 분류
      • 명목자료(Nomial Data): 측정대상이 범주나 종류에 대해 구분되어지는 것을 수치 또는 기호로 분류
      • 서열자료(Ordial Data): 명목자료와 비슷하나 수치와 기호가 서열을 나타내는 자료
    • 수치자료(Quantitative Data): 정량적 또는 연속형 자료, 숫자의 크기에 의미 부여할 수 있는 자료
      • 구간자료(Interval Data): 명목자료, 서열자료의 의밀르 포함하면서 숫자로 표현된 변수에 대해서 변수 간 관계까 산술적 의미를 갖는 자료
      • 비율자료(Ratio Data): 명목자료, 서열자료, 구간자료의 의미를 다 가지는 자료, 수치화된 변수에 비율의 개념을 도입
    • 시계열자료(Time Series Data): 일정한 시간간격 동안 수집된, 시간개념이 포함된 자료
      • ex) 일별 주식 가격
    • 횡적자료(Cross Sectional Data): 횡단면자료, 특정 단일 시점에서 여러 대상으로부터 수집된 자료. 즉, 한 개의 시점에서 여러 대상으로부터 취합하는 자료
    • 종적자료(Longitudinal Data): 시계열자료와 횡적자료의 결합으로 여러 개체를 여러 시점에서 수집한 자료
  • 데이터 정제
    • 필요성
      • 데이터로부터 원하는 결과나 분석을 얻기 위해서
    • 정제과정을 거치지 않은 데이터의 문제점
      • 일관성 X → 분석 처리에 어려움
      • 신뢰성 저하 발생 가능성
    • 데이터 정제의 과정(Processing)
      • 다양한 매체로부터 데이터 수집, 원하는 형태로 변환, 원하는 장소에 저장, 저장된 데이터 활용가능성을 타진하기 위한 품질확인, 필요한 시기와 목적에 따라 사용이 원활하도록 관리의 과정 필요
      • 비정형 데이터의 경우 기본적으로 구조화된 정형 데이터로의 변환을 수행하고 변환된 데이터에서 결측치나 오류의 수정 과정을 거침.
      • 데이터의 수집 / 데이터 변환 / 데이터 교정 / 데이터 통합
      • 집계(Aggregation)
        • 데이터 요약하거나 그룹화 → 통계적 정보를 얻는 과정
        • 데이터 합계, 평균, 중앙값, 최소/최대값, 최빈값 등 → 데이터 특성 파악
      • 일반화(Generalization)
        • 데이터 변환 과정에서 데이터의 일반적 특성이나 패턴을 추출하는 작업
        • 데이터 단순히 변환하는 것 이상으로, 데이터 복잡성을 감소시키고 중요한 특징 감소시킴. 
        • ex) 이미지 처리에서 일반화는 주어진 이미지에서 특징을 추출하여 일반적 패턴을 학습하는 과정 → 새로운 이미지에서도 유사한 패턴 인식
      • 정규화(Nomalizatino)
        • 데이터를 일정 범위로 조정하여 상대적 크기 차이를 제거하고 데이터를 표준화하는 작업
        • 일반적으로 수치형 데이터에 적용하며, 데이터를 일반적인 형태로 변환하여 분석과 모델링에 적용하기 쉽게 함.
        • Min-Max 정규화, Z-score 정규화 등과 같은 방법
        • 데이터의 상대적 비교를 용이하게 하고, 이상치에 대한 영향을 완화하는 것이 주목적
      • 평활화(Smoothing)
        • 데이터 변동을 줄이고 노이즈 제거 → 데이터의 추세나 패턴을 부드럽게 만드는 기술
        • 데이터 시계열 분석, 데이터 시각화, 데이터 예측 등 다양한 분야에서 사용
        • 주로 이동평균법, 지수평활법, Savitzky-Golay 필터법 등
    • 데이터 정제의 전처리·후처리
      • 전처리(Pre Processing): 데이터 저장 전의 처리과정, 대상 데이터와 입수 방법 결정 및 저장방시 장소 선정
      • 후처리(Post Processing): 저장 후 처리를 지칭, 저장 데이터의 품질 관리 등의 과정 포함

02. 데이터 결측값 처리

 

데이터 분석에서 결측치(결측값, Missing Data)는 데이터가 없음을 의미함.

  • 결측치 임의 제거 시: 분석 데이터의 직접손실로 분석에 필요한 유의수준 데이터 수집에 실패할 가능성 발생
  • 결측치 임의 대체 시: 데이터 편향(bias)이 발생하여 분석 결과 신뢰성 저하 가능성
  • 결측 데이터의 종류
    • 완전 무작위 결측(MCAR: Missing Completely At Random)
      • 어떤 변수상에서 결측 데이터가 관측된 혹은 관측되지 않는 다른 변수와 아무런 연관이 없는 경우
      • 변수상 발생한 결측이 다른 데이터에 영향 X
    • 무작위 결측(MAR: Missing At Radom)
      • 변수상 결측 데이터가 관측된 다른 변수와 연관되어 있지만 그 자체가 비관측값들과는 연관되지 않은 경우
      • 결측이 특정 변수와 관련되어 발생하지만 그 결과에는 영향 X
    • 비 무작위 결측(NMAR: Not Missing At Random)
      • 어떤 변수의 결측 데이터가 MCAR 또는 MAR이 아닌 결측데이터로 정의하는 즉, 결측변수값이 결측여부(이유)와 관련이 있는 경우
      • 결측이 다른 변수와 연관
나이대별(X), 성별(Y)과 체중(Z) 분석에 대한 모델링을 가정해 보면
1) X, Y, Z와 관계없이 Z가 없는 경우: 데이터 누락(응답없음) → MCAR
2) 여성(Y)은 체중 공개를 꺼려하는 경향: Z가 누락될 가능성이 Y에만 의존 → MAR
3) 젊은(X) 여성(Y)의 경우, 체중 공개를 꺼리는 경우가 더 높음 → MAR
4) 무거운/가벼운 사람들은 체중 공개 가능성이 적음 → Z가 누락될 가능성이 Z값 자체에 관찰되지 않는 값에 달림. (NMAR) 
  • 결측값 유형의 분석 및 대치
    • 결측치 처리를 위해 실제 데이터셋에서 결측치가 어떤 유형으로 분류되는지 분석하고 분석 결과에 따라 결측치 처리방법의 선택이 필요
    • 일반적으로 결측, 무응답 자료를 분석할 때에는 완적 무작위 결측(MCAR)으로 처리. 즉, 불완전 자료는 무시하고 완전히 관측된 자료만 표준적 분석 시행. 
    • 결측치 존재하는 데이터를 이용한 분석은 효율성, 자료처리의 복잡성, 편향 문제 고려해야 함.
    • 단순 대치법(Simple Imputation)
      • 기본적으로 결측치에 대해 MCAR 또는 MAR로 판단하고 이에 대한 처리하는 방법
      • 완전 분석(Completes Analysis)
        • 불완전 자료 완전하게 무시
        • 분석 용이성 보장하나 효율성 상실과 통계적 추론의 타당성에 문제 발생 가능성 O
      • 평균 대치법(Mean Imputaiton)
        • 관측 또는 실험으로 얻어진 데이터 평균으로 결측치 대체해서 사용
        • 평균에 의한 대치는 효율성 향상 측면에서 장점이 있으나 통계량의 표준오차가 과소추정되는 단점이 있음.
        • 비조건부 평균 대치법이라고도 함.
      • 회귀 대치법(Regression Imputation)
        • 회귀분석에 의한 예측치로 결측치를 대체하는 방법
        • 조건부 평균 대치법이라고도 함.
      • 단순확률 대치법(Single Stochastic Imputation)
        • 평균 대치법에서 추정량 표준오차의 과소 추정을 보완하는 대치법
        • Hot-deck 방법이라고도 함.
        • 확률추출에 의해 전체 데이터 중 무작위로 대치하는 방법
      • 최근접 대치법(Nearest-Neighbor Imputation)
        • 전체표본을 몇 개의 대체군으로 분류 → 각 층에서의 응답자료를 순서대로 정리 → 결측값 바로 이전 응답 결측치로 대체
        • 응답값이 여러 번 사용되리 가능성이 단점
    • 다중 대치법(Multiple Imputation)
      • 단순 대치법을 복수로 시행 → 통계적 효율성 및 일치성 문제 보완
      • 복수 개(n개)의 단순대치 → n개의 새로운 자료 만들어 분석 시행 → 시행결과 얻어진 통계량에 대해 통계량 및 분산 결합 통해 통합하는 방법
      • 1단계: 대치단계(Imputation Step)
        • 복수의 대치에 의한 결측을 대치한 데이터 생성
      • 2단계: 분석단계(Analysis Step)
        • 복수 개의 데이터셋에 대한 분석 시행
      • 3단계: 결합단계(Combination Step)
        • 복수 개의 분석결과에 대한 통계적 결합을 통해 결과 도출

03. 데이터 이상값 처리

 

이상치(이상값, Outlier)란 데이터 전처리 과정에 발생 가능한 문제로 정상의 범주(데이터 전체적 패턴)에서 벗어난 값 의미. 

이상치는 결측치와 마찬가지로 분석결과의 왜곡이 발생할 수 있으므로 처리 작업이 필요.

 

  • 이상치 종류 및 발생원인
    • 종류
      • 단변수 이상치(Univariate Outlier)
        • 하나의 데이터 분포에서 발생하는 이상치
      • 다변수 이상치(Multivariate Outlier)
        • 복수의 연결된 데이터 분포공간에서 발생하는 이상치
    • 발생원인
      • 비자연적 이상치 발생(Artificial/Non-Natural Outlier)
        • 입력실수(Data Entry Error)
          • 데이터 수집과정에서 발생하는 에러
          • 입력의 실수 등 
        • 측정오류(Measurement Error)
          • 데이터 측정 중 발생하는 에러
          • 측정기 고장(이상 작동)으로 발생되는 문제
        • 실험오류(Experimental Error)
          • 실험과정 중 발생하는 에러
          • 실험환경에서 야기된 모든 문제점 지칭
        • 의도적 이상치(Intentional Outlier)
          • 자기 보고 측정(Self-reported Measure)에서 발생되는 이상치 지칭
          • 의도 포함된 이상치
          • ex) 남성의 키를 조사 시 의도적으로 키를 높게 기입하는 경우 등
        • 자료처리오류(Data Processing Error)
          • 복수 개의 데이터셋에서 데이터 추출, 조합하여 분석 시, 분석 전 전처리에서 발생하는 에러
        • 표본오류(Sampling Error)
          • 모집단에서 표본을 추출하는 과정에서 편향이 발생하는 경우
  • 이상치의 문제점
    • 기초(통계적) 분석결과의 신뢰도 저하
      • 평균, 분산 등에 영향을 줌. 
      • 단, 중앙값은 영향이 적음.
    • 기초통계에 기반한 다른 고급 통계분석의 신뢰성 저하
      • 검정, 추정 등의 분석, 회귀분석 등이 이에 영향
      • 특히 이상치가 비무작위성을 가지고 나타나게 되면 데이터의 정상성 감소를 초래하며 이는 데이터 자체의 신뢰성 저하로 연결될 가능성
  • 이상치 탐지
    • 종속변수가 단변량인지 다변량인지 데이터 분포를 고려해 모수적(Parametric) 또는 비모수적(Non-Parametric)인지에 따라 다양한 방법으로 고려
    • 시각화를 통한 방법(비모수적, 단변량인 경우)
      • 상자 수염 그림(Box Plot, 상자 그림)
        • 데이터의 최솟값, 최댓값, 중앙값, 1사분위수(Q1), 3사분위수(Q3) 등을 표현
      • 줄기-잎 그림(Stem and Leaf Diagram)
      • 산점도 그림(Scatter Plot)
    • Z-score 방법(모수적 단변량 똔느 저변량의 경우)
      • Z-score는 데이터 포인트가 평균으로부터 얼마나 떨어져 있는지를 표준편차의 단위로 나타내는 통계적 지표
      • 먼저 데이터를 정규화하여 평균이 0이고 표준편차가 1인 표준정규분포로 변환. 
      • 정규화된 데이터 포인트(x)의 Z-score 계산
      • 보통 Z-score의 절댓값이 일정한 임계값(threshold)보다 큰 데이터는 이상치로 간주. 일반적으로, 임계값은 1σ 사이, 2σ 사이, 3σ 사이 등을 사용
    • 밀도기반 클러스터링 방법(DBSCAN: Density Based Spatial Clustering of Application with Noise)
      • 비모수적 다변량의 경우 군집간 밀도를 이용해 특정 거리 내 데이터 수가 지정 개수 이상이면 군집으로 정의
      • 정의된 군집 내에서 먼거리에 있는 데이터는 이상치로 간주
    • 고립 의사나무 방법(Isolation Forest)
      • 데이터가 다른 데이터들과 얼마나 분리되어있는지 측정해 이상치 담지
      • 알고리즘의 매개변수 설정과 이상치 판단 기준의 임계값 설정에 따라 결과가 달라짐.
      • 동작 과정
        • 데이터 포인트 분할
        • 분할 기준 설정
          • ex) 데이터 특성값이 특정 임계값보다 큰 경우와 작은 경우
        • 분할된 데이터 영역 계산
        • 이상치 탐지
        • 의사결정나무 생성

'빅데이터분석기사' 카테고리의 다른 글

[필기] 데이터 탐색의 기초  (0) 2026.03.14
[필기] 분석 변수 처리  (0) 2026.03.14
[필기] 데이터 적재 및 저장  (0) 2026.03.08
[필기] 데이터 수집 및 전환  (0) 2026.03.07
[필기] 분석 작업 계획  (0) 2026.03.07