AYSTORY
[필기] 데이터 탐색의 기초 본문
01. 데이터 탐색의 개요
- 탐색적 데이터 분석 (EDA: Exploratory Data Analysis)
- 본격적인 데이터 분석 전에 자료를 직관적인 방법으로 통찰하는 과정
- 탐색적 데이터 분석의 필요성
- 내재된 잠재적 문제에 대해 인식하고 해결안 도출 가능
- 분석과정 및 절차
- 분석 목적과 변수가 무엇인지, 개별변수의 이름이나 설명을 갖는지 확인
- 데이터의 문제성 확인. 즉, 데이터 결측치의 유무, 이상치의 유무 등을 확인하고 추가적으로 분포상의 이상 형태와 Head 또는 Tail 부분을 확인.
- 데이터의 개별 속성값이 예상한 범위 분포를 갖는지 확인
- 관계속성 확인절차를 가짐. 즉, 개별 데이터 간 속성 관찰에서 보지 못한 데이터 간 속성을 확인
- 이상치 검출
- 개별 데이터 관찰
- 데이터 값을 눈으로 살펴보면서 전체적 추세와 특이사항 관찰
- 데이터가 많다고 앞부분만 보면 안되고, 패턴이 뒤에서 나타날 수도 있으므로 뒤 or 무작위 표본 추출로 관찰
- (이상치는 표본의 크기가 작으면 나타나지 않을 수도)
- 통계값 활용
- 적절한 요약 통계지표 사용
- 통계 지표를 사용할 때는 데이터 특성에 주의해야 함. 예를 들어, 평균에는 집합 내 모든 데이터 값이 반영되기 때문에, 이상값이 있으면 값이 영향을 받지만, 중앙값에는 가운데 위치한 값 하나가 사용되기 때문에 이상값의 존재에도 대표성이 있는 결과를 얻을 수 있음.
- 데이터 중심 알려면 평균, 중앙값, 최빈값(mode) 사용
- 데이터 분산도 알려면 범위, 분산(variance) 사용
- 적절한 요약 통계지표 사용
- 시각화 활용
- 확률밀도 함수, 히스토그램, dot plot(점 플롯), 워드 클라우드, 시계열 차트, 지도 등
- 머신러닝 기법 활용
- K-means를 통해 이상치 확인
- 정상 데이터 패턴을 학습하여 이상치를 검출하는 방법이 주로 사용됨.
- 개별 데이터 관찰
02. 상관관계분석
- 변수 간 상관성 분석
- 단순상관분석(Simple Correlation Analysis)
- 단순히 두 개의 변수가 어느 정도 강한 관계에 있는가 측정
- 다중상관분석(Multiple Correlation Analysis)
- 3개 이상의 변수 간 관계강도 측정
- 편상관관계분석(Partial Correlation Analysis)
- 다중상관분석에서 다른 변수와의 관계를 고정하고 두 변수의 관계강도를 측정하는 것
- 단순상관분석(Simple Correlation Analysis)
- 상관분석의 기본가정
- 선형성
- 두 변인 X와 Y의 관계가 직선적인지를 알아보는 것으로 이 가정은 분포를 나타내는 산점도를 통해 확인 가능
- 동변량성(등분산성, Homoscedasticity)
- X의 값에 관계없이 Y의 흩어진 정도가 같은 것 의미
- 반의어: 이분산성
- 산포도가 특정 구간에 상관 없이 퍼진 정도가 일정할 때 자료가 동변량성을 띤다고 말함.
- 두 변인의 정규분포성
- 두 변인의 측정치 분포가 모집단에서 모두 정규분포를 이루는 것
- 무선독립표본
- 모집단에서 표본을 뽑을 때 표본대상이 확률적으로 선정된다는 것
- 선형성
- 상관분석 방법
- 피어슨 상관계수
- 두 변수 X와 Y 간 상관관계를 계량화한 수치
- +1과 -1 사이의 값을 가지며, +1은 완벽한 양의 선형 상관관계, 0은 선형 상관관계 없음, -1은 완벽한 음의 선형 상관관계를 의미
- 스피어만 상관계수(Spearman Correlation Coefficient)
- 데이터가 서열자료인 경우, 즉 자료의 값 대신 순위를 이용하는 경우의 상관계수로서, 데이터를 작은 것부터 차례로 순위를 매겨 서열 순서로 바꾼 뒤 순위를 이용해 상관계수 구함.
- 두 변수 간 연관 관계가 있는지 없는지 밝혀주며 자료에 이상점이 있거나 표본의 크기가 작을 때 유용
- 크기 순으로 정한 두 변수 차이가 클수록 스피어만 상관계수의 값이 커짐. 즉 스피어만 상관계수는 한 변수의 값이 커지면 다른 변수의 값도 단조적으로 커지는지 알아볼 수 있음.
- 스피어만 상관계수가 1에 가까울수록 두 변수는 단조적 상관성(커지면 같이 증가)을 갖고, 0에 가까우면 상관성이 없는 것으로 판단
- 피어슨 상관계수

03. 기초통계량의 추출 및 이해
자료를 수집하여 요약, 정리하는 기초통계는 자료의 특성을 정량적인 수치에 의해 나타내는 방법.
자료의 특성을 중심화 경향, 퍼짐 정도(산포도, 분산도), 자료의 분포형태 등의 수치적 결과로 나타낼 수 있음.
- 중심화 경향 기초통계량
- 산술평균
- 기하평균
- N개의 자료에 대해 관측치를 곱한 후 n 제곱근으로 표현
- 다기간의 수익률에 대한 평균 수익률, 평균물가상승률 등을 구할 때 사용
- 조화평균
- 각 요소의 역수의 산술평균을 구한 후 다시 역수를 취하는 형태로 표현
- 변화율 등의 평균을 구할 때 사용
- 각 자료가 동일한 경우 자료에 대한 조화평균, 산술평균값과 기하평균의 값은 같음. 다만 자료가 서로 다를 경우 조화평균≤기하평균≤산술평균의 부등식 관계를 가짐.
- 중앙값
- 최빈값
- 분위수(Quantile)
- 자료의 위치를 표현하는 수치
- 자료를 크기 순서대로 배열을 한 후 그 자료를 분할하는 역할을 하는 위치의 수치를 계산한 것
- 자료를 몇 등분하느냐에 따라 사분위수(quartile), 오분위수(quintile), 십분위수(decile), 백분위수(percentile) 등
- 산포도(분산도, Degree Dispersion)
- 분산(Variance), 표준편차(Standard Deviation)
- 분산은 평균을 중심으로 밀집되거나 퍼짐 정도를 나타내는 척도
- 분산으로 얻은 수치를 해석하기가 곤란하다는 단점을 보완하기 위해 제곱근을 취한 척도가 표준편차
- 분산의 특성
- 개개의 자료값에 대한 정보 반영
- 수리적으로 다루기 쉬움.
- 특이점에 매우 큰 영향
- 분산이 클수록 각 자료값이 평균으로부터 넓게 흩어진 형태를 가짐.
- 미지의 모분산을 추론할 때 많이 사용
- 범위(Range)
- 데이터 간의 최댓값, 최솟값 차이를 나타내는 것
- 동일한 범위를 같더라도 자료의 분포모양은 다를 수 있음.
- 평균 절대 편차(평균 편차, 절대 편차, MAD: Mean Absolute Deviation)
- 각 자료값과 표본평균과의 편차의 절댓값에 대한 산술평균
- 개개의 자료값에 대한 정보 반영
- 이상치에 대한 영향을 범위(Range)보다 적게 받음.
- 절댓값을 사용하므로 수리적으로 다루기 부적절
- 절대 편차의 최소값을 갖는 자료값은 평균이 아닌 중앙값
- 절대 편차는 미분 불가능점 존재
- 평균 절대 편차가 클수록 자료는 폭넓게 분포함.
- 평균 절대 편차보다는 중앙값 절대 편차 사용할 때, 유용
- 사분위범위(Inter Quartile Range)
- 자료를 크기 순으로 배열 후 자료의 1/4에 해당하는 1사분위수(Q1)를 구하고 3/4에 해당하는 3사분위수(Q3)를 구함.
- 사분위 범위는 Q3-Q1으로 정의되며 자료의 50% 범위 내에 위치하게 됨 의미
- 사분위범위는 주로 이상치 판단 시에 사용되는 것으로
- 최대값 = Q3 + 1.5 x IQR
- 최소값 = Q1 - 1.5 x IQR
- 변동계수(CV: Coefficient of Variance)
- 평균을 중심으로 한 상대적 산포의 척도를 나타내는 수치
- 측정 단위가 동일하지만 평균이 큰 차이를 보이는 두 자료집단 또는 측정단위가 서로 다른 두 자료집단에 대한 산포의 척도를 비교할 때 많이 사용
- CV = σ / μ x 100(%) (모집단의 변동계수)
- 변동계수가 클수록 상대적으로 넓게 분포 이룸.
- 분산(Variance), 표준편차(Standard Deviation)
- 자료의 분포형태(Shape of Distribution)
- 왜도(Skewness)
- 분포의 비대칭 정도를 나타내는 통계적 측도
- 데이터 분포의 대칭성과 비대칭성을 정량화하여 평가하는 데 사용
- 분포가 대칭이면 왜도는 0. 왼쪽으로 치우친 경우 왜도는 양수, 오른쪽으로 치우친 경우 왜도는 음수
- 분포의 모양 뿐 아니라 이상치 존재 여부 파악하는 데도 도움.
- 이상치는 분포의 비대칭성을 높이고, 왜도의 크기를 변화시킴.
- 일반적으로 -3과 +3 사이의 범위에 있으며, 보통 왜도의 절대값이 1.96보다 크면 비대칭성이 있다고 판단.
- 왜도(Skewness)


1) 왜도 < 0 : 평균 < 중앙값 < 최빈값
2) 왜도 = 0 : 평균 = 중앙값 = 최빈값
3) 왜도 > 0 : 평균 > 중앙값 > 최빈값
피어슨 비대칭 계수
(평균 - 최빈값) / 표준편차
3 * (평균 - 최빈값) / 표준편차
3 * (평균 - 중앙값) / 표준편차
일반적으로 3 * (평균 - 중앙값) / 표준편차로 구할 수 있음.
- 중앙값, 최빈값, 평균이 일치하면 정규분포
- 계수 값이 0보다 크면 왼쪽으로 치우치고 오른쪽으로 긴 꼬리를 가지는 분포 (정적편포)
- 계수 값이 0보다 작으면 오른쪽으로 치우치고 왼쪽으로 긴 꼬리를 갖는 분포 (부적편포)
- (이어서)
- 첨도(Kurtosis)
- 분포의 뾰족한(peakedness) 정도를 나타내는 통계적 척도
- 첨도 값이 3 미만인 경우 평평한 분포이고 3이면 정규분포를 나타내며 3이 넘는 경우는 뾰족한 분포의 형태를 갖는 것으로 판단 가능
- 첨도(Kurtosis)

04. 시각적 데이터 탐색
- 통계적 시각화 도구
- 도수분포표(Frequency Table)
- 수집된 자료를 적절한 계급에 의해 분류하여 정리한 표로 질적 자료의 경우는 각 자료값(범주)에 대하여 도수나 상대도수로 표현
- 도수(Frequency)
- 질적 자료의 경우 각 범주별 빈도
- 상대도수(Relative Frequency)
- 도수 / 전체 자료 수
- 양적 자료의 경우, 전체 자료를 그룹화(계급구간)하고 각 그룹별 속하는 자료의 수를 계산하여 도수 및 상대도수로 표현
- 히스토그램
- 도수분포표를 이용해 자료분포 나타낸 그래프
- 가로축에 반드시 수량을 표시 (막대그래프는 그렇지 않음.)
- 막대그래프
- 각 자료값에 대한 도수 또는 상대도수를 그림으로 표현한 것
- 파이차트(Pie Chart)
- 각 자료값의 상대도수로 기입하여 원의 면적에 각 상대크기별로 나타낸 그래프
- 산점도(Scatter Plot)
- 직교 좌표계를 이용해 두 개 변수 간 관계를 나타내는 방법
- 줄기 잎 그림(Stem-and-Leaf Diagram)
- 통계적 자료를 표 형태와 그래프 형태의 혼합된 방법으로 나타내는 것
- 자료의 정리가 가능할 뿐 아니라 자료의 구조에 대한 정보도 파악이 가능한 도구
- 작성 절차
- 원 자료를 크기 순으로 정리
- 원 자료의 숫자를 두 부분으로 나누어 앞부분은 줄기, 뒷부분은 잎으로
- 줄기에 해당하는 숫자를 크기 순으로 나열
- 원 자료의 수치를 해당 줄기 우측 뒷부분에 기록
- 한 줄기에 기록된 잎의 수가 너무 많은 경우 두 줄로 나누어 잎 기록 가능
- 상자 수염 그림(Box Plot)
- 수치적 자료를 표현하는 그래프
- 자료로부터 얻어낸 통계량인 5가지 요약 수치(Five-number theory를 갖고 그림.
- 최솟값
- Q1
- Q2
- Q3
- 최댓값
- 작성 방법
- 주어진 데이터에서 각 사분위수 계산
- 그래프에서 제1사분위와 제3사분위를 밑변으로 하는 직사각형을 그리고, 제2사분위에 해당하는 위치에 선분 긋기
- IQR 계산
- Q3과 차이가 1.5IQR 이내인 값 중 최대값을 Q3와 직선으로 연결하고, 마찬가지로 Q1과 차이가 1.5IQR 이내인 값 중 최솟값을 Q1과 연결
- Q3보다 1.5IQR 이상 초과하는 값과 Q1보다 1.5IQR 이상 미달하는 값은 점이나 원, 별표 등으로 따로 표시함. (이상치 점)
- 도수분포표(Frequency Table)
'빅데이터분석기사' 카테고리의 다른 글
| [필기] 기술통계 (0) | 2026.03.15 |
|---|---|
| [필기] 고급 데이터 탐색 (0) | 2026.03.15 |
| [필기] 분석 변수 처리 (0) | 2026.03.14 |
| [필기] 데이터 정제 (0) | 2026.03.11 |
| [필기] 데이터 적재 및 저장 (0) | 2026.03.08 |
