AYSTORY
[필기] 데이터 정제 본문
01. 데이터에 내재된 변수의 이해
- 데이터 관련 정의
- 데이터(Data): 이론을 세우는 기초가 되는 사실 또는 자료
- 단위(Unit): 관찰되는 항목 또는 대상 지칭
- 관측값(Observation): 각 조사 단위별 기록정보 또는 특성
- 변수(Variable): 각 단위에서 측정된 특성 결과
- 원자료(Raw data): 표본에서 조사된 최초의 자료
- 데이터 종류
- 단변량자료(Univariate Data): 자료의 특성을 대표하는 특성 변수가 하나인 자료
- 다변량자료(Multivariate Data): 자료의 특성을 대표한느 특성 변수가 두 가지 이상인 자료
- 질적자료(Qualitative Data): 정석적 또는 범주형 자료, 자료를 범주의 형태로 분류
- 명목자료(Nomial Data): 측정대상이 범주나 종류에 대해 구분되어지는 것을 수치 또는 기호로 분류
- 서열자료(Ordial Data): 명목자료와 비슷하나 수치와 기호가 서열을 나타내는 자료
- 수치자료(Quantitative Data): 정량적 또는 연속형 자료, 숫자의 크기에 의미 부여할 수 있는 자료
- 구간자료(Interval Data): 명목자료, 서열자료의 의밀르 포함하면서 숫자로 표현된 변수에 대해서 변수 간 관계까 산술적 의미를 갖는 자료
- 비율자료(Ratio Data): 명목자료, 서열자료, 구간자료의 의미를 다 가지는 자료, 수치화된 변수에 비율의 개념을 도입
- 시계열자료(Time Series Data): 일정한 시간간격 동안 수집된, 시간개념이 포함된 자료
- ex) 일별 주식 가격
- 횡적자료(Cross Sectional Data): 횡단면자료, 특정 단일 시점에서 여러 대상으로부터 수집된 자료. 즉, 한 개의 시점에서 여러 대상으로부터 취합하는 자료
- 종적자료(Longitudinal Data): 시계열자료와 횡적자료의 결합으로 여러 개체를 여러 시점에서 수집한 자료
- 데이터 정제
- 필요성
- 데이터로부터 원하는 결과나 분석을 얻기 위해서
- 정제과정을 거치지 않은 데이터의 문제점
- 일관성 X → 분석 처리에 어려움
- 신뢰성 저하 발생 가능성
- 데이터 정제의 과정(Processing)
- 다양한 매체로부터 데이터 수집, 원하는 형태로 변환, 원하는 장소에 저장, 저장된 데이터 활용가능성을 타진하기 위한 품질확인, 필요한 시기와 목적에 따라 사용이 원활하도록 관리의 과정 필요
- 비정형 데이터의 경우 기본적으로 구조화된 정형 데이터로의 변환을 수행하고 변환된 데이터에서 결측치나 오류의 수정 과정을 거침.
- 데이터의 수집 / 데이터 변환 / 데이터 교정 / 데이터 통합
- 집계(Aggregation)
- 데이터 요약하거나 그룹화 → 통계적 정보를 얻는 과정
- 데이터 합계, 평균, 중앙값, 최소/최대값, 최빈값 등 → 데이터 특성 파악
- 일반화(Generalization)
- 데이터 변환 과정에서 데이터의 일반적 특성이나 패턴을 추출하는 작업
- 데이터 단순히 변환하는 것 이상으로, 데이터 복잡성을 감소시키고 중요한 특징 감소시킴.
- ex) 이미지 처리에서 일반화는 주어진 이미지에서 특징을 추출하여 일반적 패턴을 학습하는 과정 → 새로운 이미지에서도 유사한 패턴 인식
- 정규화(Nomalizatino)
- 데이터를 일정 범위로 조정하여 상대적 크기 차이를 제거하고 데이터를 표준화하는 작업
- 일반적으로 수치형 데이터에 적용하며, 데이터를 일반적인 형태로 변환하여 분석과 모델링에 적용하기 쉽게 함.
- Min-Max 정규화, Z-score 정규화 등과 같은 방법
- 데이터의 상대적 비교를 용이하게 하고, 이상치에 대한 영향을 완화하는 것이 주목적
- 평활화(Smoothing)
- 데이터 변동을 줄이고 노이즈 제거 → 데이터의 추세나 패턴을 부드럽게 만드는 기술
- 데이터 시계열 분석, 데이터 시각화, 데이터 예측 등 다양한 분야에서 사용
- 주로 이동평균법, 지수평활법, Savitzky-Golay 필터법 등
- 데이터 정제의 전처리·후처리
- 전처리(Pre Processing): 데이터 저장 전의 처리과정, 대상 데이터와 입수 방법 결정 및 저장방시 장소 선정
- 후처리(Post Processing): 저장 후 처리를 지칭, 저장 데이터의 품질 관리 등의 과정 포함
- 필요성
02. 데이터 결측값 처리
데이터 분석에서 결측치(결측값, Missing Data)는 데이터가 없음을 의미함.
- 결측치 임의 제거 시: 분석 데이터의 직접손실로 분석에 필요한 유의수준 데이터 수집에 실패할 가능성 발생
- 결측치 임의 대체 시: 데이터 편향(bias)이 발생하여 분석 결과 신뢰성 저하 가능성
- 결측 데이터의 종류
- 완전 무작위 결측(MCAR: Missing Completely At Random)
- 어떤 변수상에서 결측 데이터가 관측된 혹은 관측되지 않는 다른 변수와 아무런 연관이 없는 경우
- 변수상 발생한 결측이 다른 데이터에 영향 X
- 무작위 결측(MAR: Missing At Radom)
- 변수상 결측 데이터가 관측된 다른 변수와 연관되어 있지만 그 자체가 비관측값들과는 연관되지 않은 경우
- 결측이 특정 변수와 관련되어 발생하지만 그 결과에는 영향 X
- 비 무작위 결측(NMAR: Not Missing At Random)
- 어떤 변수의 결측 데이터가 MCAR 또는 MAR이 아닌 결측데이터로 정의하는 즉, 결측변수값이 결측여부(이유)와 관련이 있는 경우
- 결측이 다른 변수와 연관
- 완전 무작위 결측(MCAR: Missing Completely At Random)
나이대별(X), 성별(Y)과 체중(Z) 분석에 대한 모델링을 가정해 보면
1) X, Y, Z와 관계없이 Z가 없는 경우: 데이터 누락(응답없음) → MCAR
2) 여성(Y)은 체중 공개를 꺼려하는 경향: Z가 누락될 가능성이 Y에만 의존 → MAR
3) 젊은(X) 여성(Y)의 경우, 체중 공개를 꺼리는 경우가 더 높음 → MAR
4) 무거운/가벼운 사람들은 체중 공개 가능성이 적음 → Z가 누락될 가능성이 Z값 자체에 관찰되지 않는 값에 달림. (NMAR)
- 결측값 유형의 분석 및 대치
- 결측치 처리를 위해 실제 데이터셋에서 결측치가 어떤 유형으로 분류되는지 분석하고 분석 결과에 따라 결측치 처리방법의 선택이 필요
- 일반적으로 결측, 무응답 자료를 분석할 때에는 완적 무작위 결측(MCAR)으로 처리. 즉, 불완전 자료는 무시하고 완전히 관측된 자료만 표준적 분석 시행.
- 결측치 존재하는 데이터를 이용한 분석은 효율성, 자료처리의 복잡성, 편향 문제 고려해야 함.
- 단순 대치법(Simple Imputation)
- 기본적으로 결측치에 대해 MCAR 또는 MAR로 판단하고 이에 대한 처리하는 방법
- 완전 분석(Completes Analysis)
- 불완전 자료 완전하게 무시
- 분석 용이성 보장하나 효율성 상실과 통계적 추론의 타당성에 문제 발생 가능성 O
- 평균 대치법(Mean Imputaiton)
- 관측 또는 실험으로 얻어진 데이터 평균으로 결측치 대체해서 사용
- 평균에 의한 대치는 효율성 향상 측면에서 장점이 있으나 통계량의 표준오차가 과소추정되는 단점이 있음.
- 비조건부 평균 대치법이라고도 함.
- 회귀 대치법(Regression Imputation)
- 회귀분석에 의한 예측치로 결측치를 대체하는 방법
- 조건부 평균 대치법이라고도 함.
- 단순확률 대치법(Single Stochastic Imputation)
- 평균 대치법에서 추정량 표준오차의 과소 추정을 보완하는 대치법
- Hot-deck 방법이라고도 함.
- 확률추출에 의해 전체 데이터 중 무작위로 대치하는 방법
- 최근접 대치법(Nearest-Neighbor Imputation)
- 전체표본을 몇 개의 대체군으로 분류 → 각 층에서의 응답자료를 순서대로 정리 → 결측값 바로 이전 응답 결측치로 대체
- 응답값이 여러 번 사용되리 가능성이 단점
- 다중 대치법(Multiple Imputation)
- 단순 대치법을 복수로 시행 → 통계적 효율성 및 일치성 문제 보완
- 복수 개(n개)의 단순대치 → n개의 새로운 자료 만들어 분석 시행 → 시행결과 얻어진 통계량에 대해 통계량 및 분산 결합 통해 통합하는 방법
- 1단계: 대치단계(Imputation Step)
- 복수의 대치에 의한 결측을 대치한 데이터 생성
- 2단계: 분석단계(Analysis Step)
- 복수 개의 데이터셋에 대한 분석 시행
- 3단계: 결합단계(Combination Step)
- 복수 개의 분석결과에 대한 통계적 결합을 통해 결과 도출
03. 데이터 이상값 처리
이상치(이상값, Outlier)란 데이터 전처리 과정에 발생 가능한 문제로 정상의 범주(데이터 전체적 패턴)에서 벗어난 값 의미.
이상치는 결측치와 마찬가지로 분석결과의 왜곡이 발생할 수 있으므로 처리 작업이 필요.
- 이상치 종류 및 발생원인
- 종류
- 단변수 이상치(Univariate Outlier)
- 하나의 데이터 분포에서 발생하는 이상치
- 다변수 이상치(Multivariate Outlier)
- 복수의 연결된 데이터 분포공간에서 발생하는 이상치
- 단변수 이상치(Univariate Outlier)
- 발생원인
- 비자연적 이상치 발생(Artificial/Non-Natural Outlier)
- 입력실수(Data Entry Error)
- 데이터 수집과정에서 발생하는 에러
- 입력의 실수 등
- 측정오류(Measurement Error)
- 데이터 측정 중 발생하는 에러
- 측정기 고장(이상 작동)으로 발생되는 문제
- 실험오류(Experimental Error)
- 실험과정 중 발생하는 에러
- 실험환경에서 야기된 모든 문제점 지칭
- 의도적 이상치(Intentional Outlier)
- 자기 보고 측정(Self-reported Measure)에서 발생되는 이상치 지칭
- 의도 포함된 이상치
- ex) 남성의 키를 조사 시 의도적으로 키를 높게 기입하는 경우 등
- 자료처리오류(Data Processing Error)
- 복수 개의 데이터셋에서 데이터 추출, 조합하여 분석 시, 분석 전 전처리에서 발생하는 에러
- 표본오류(Sampling Error)
- 모집단에서 표본을 추출하는 과정에서 편향이 발생하는 경우
- 입력실수(Data Entry Error)
- 비자연적 이상치 발생(Artificial/Non-Natural Outlier)
- 종류
- 이상치의 문제점
- 기초(통계적) 분석결과의 신뢰도 저하
- 평균, 분산 등에 영향을 줌.
- 단, 중앙값은 영향이 적음.
- 기초통계에 기반한 다른 고급 통계분석의 신뢰성 저하
- 검정, 추정 등의 분석, 회귀분석 등이 이에 영향
- 특히 이상치가 비무작위성을 가지고 나타나게 되면 데이터의 정상성 감소를 초래하며 이는 데이터 자체의 신뢰성 저하로 연결될 가능성
- 기초(통계적) 분석결과의 신뢰도 저하
- 이상치 탐지
- 종속변수가 단변량인지 다변량인지 데이터 분포를 고려해 모수적(Parametric) 또는 비모수적(Non-Parametric)인지에 따라 다양한 방법으로 고려
- 시각화를 통한 방법(비모수적, 단변량인 경우)
- 상자 수염 그림(Box Plot, 상자 그림)
- 데이터의 최솟값, 최댓값, 중앙값, 1사분위수(Q1), 3사분위수(Q3) 등을 표현
- 줄기-잎 그림(Stem and Leaf Diagram)
- 산점도 그림(Scatter Plot)
- 상자 수염 그림(Box Plot, 상자 그림)
- Z-score 방법(모수적 단변량 똔느 저변량의 경우)
- Z-score는 데이터 포인트가 평균으로부터 얼마나 떨어져 있는지를 표준편차의 단위로 나타내는 통계적 지표
- 먼저 데이터를 정규화하여 평균이 0이고 표준편차가 1인 표준정규분포로 변환.
- 정규화된 데이터 포인트(x)의 Z-score 계산
- 보통 Z-score의 절댓값이 일정한 임계값(threshold)보다 큰 데이터는 이상치로 간주. 일반적으로, 임계값은 1σ 사이, 2σ 사이, 3σ 사이 등을 사용
- 밀도기반 클러스터링 방법(DBSCAN: Density Based Spatial Clustering of Application with Noise)
- 비모수적 다변량의 경우 군집간 밀도를 이용해 특정 거리 내 데이터 수가 지정 개수 이상이면 군집으로 정의
- 정의된 군집 내에서 먼거리에 있는 데이터는 이상치로 간주
- 고립 의사나무 방법(Isolation Forest)
- 데이터가 다른 데이터들과 얼마나 분리되어있는지 측정해 이상치 담지
- 알고리즘의 매개변수 설정과 이상치 판단 기준의 임계값 설정에 따라 결과가 달라짐.
- 동작 과정
- 데이터 포인트 분할
- 분할 기준 설정
- ex) 데이터 특성값이 특정 임계값보다 큰 경우와 작은 경우
- 분할된 데이터 영역 계산
- 이상치 탐지
- 의사결정나무 생성
'빅데이터분석기사' 카테고리의 다른 글
| [필기] 데이터 탐색의 기초 (0) | 2026.03.14 |
|---|---|
| [필기] 분석 변수 처리 (0) | 2026.03.14 |
| [필기] 데이터 적재 및 저장 (0) | 2026.03.08 |
| [필기] 데이터 수집 및 전환 (0) | 2026.03.07 |
| [필기] 분석 작업 계획 (0) | 2026.03.07 |
