AYSTORY

[필기] 데이터 탐색의 기초 본문

빅데이터분석기사

[필기] 데이터 탐색의 기초

bye0nzn 2026. 3. 14. 22:52

01. 데이터 탐색의 개요

  • 탐색적 데이터 분석 (EDA: Exploratory Data Analysis)
    • 본격적인 데이터 분석 전에 자료를 직관적인 방법으로 통찰하는 과정
  • 탐색적 데이터 분석의 필요성
    • 내재된 잠재적 문제에 대해 인식하고 해결안 도출 가능
  • 분석과정 및 절차
    • 분석 목적과 변수가 무엇인지, 개별변수의 이름이나 설명을 갖는지 확인
    • 데이터의 문제성 확인. 즉, 데이터 결측치의 유무, 이상치의 유무 등을 확인하고 추가적으로 분포상의 이상 형태와 Head 또는 Tail 부분을 확인.
    • 데이터의 개별 속성값이 예상한 범위 분포를 갖는지 확인
    • 관계속성 확인절차를 가짐. 즉, 개별 데이터 간 속성 관찰에서 보지 못한 데이터 간 속성을 확인
  • 이상치 검출
    • 개별 데이터 관찰
      • 데이터 값을 눈으로 살펴보면서 전체적 추세와 특이사항 관찰
      • 데이터가 많다고 앞부분만 보면 안되고, 패턴이 뒤에서 나타날 수도 있으므로 뒤 or 무작위 표본 추출로 관찰
      • (이상치는 표본의 크기가 작으면 나타나지 않을 수도)
    • 통계값 활용
      • 적절한 요약 통계지표 사용
        • 통계 지표를 사용할 때는 데이터 특성에 주의해야 함. 예를 들어, 평균에는 집합 내 모든 데이터 값이 반영되기 때문에, 이상값이 있으면 값이 영향을 받지만, 중앙값에는 가운데 위치한 값 하나가 사용되기 때문에 이상값의 존재에도 대표성이 있는 결과를 얻을 수 있음.
      • 데이터 중심 알려면 평균, 중앙값, 최빈값(mode) 사용
      • 데이터 분산도 알려면 범위, 분산(variance) 사용
    • 시각화 활용
      • 확률밀도 함수, 히스토그램, dot plot(점 플롯), 워드 클라우드, 시계열 차트, 지도 등
    • 머신러닝 기법 활용
      • K-means를 통해 이상치 확인
      • 정상 데이터 패턴을 학습하여 이상치를 검출하는 방법이 주로 사용됨.

02. 상관관계분석

  • 변수 간 상관성 분석
    • 단순상관분석(Simple Correlation Analysis)
      • 단순히 두 개의 변수가 어느 정도 강한 관계에 있는가 측정
    • 다중상관분석(Multiple Correlation Analysis)
      • 3개 이상의 변수 간 관계강도 측정
      • 편상관관계분석(Partial Correlation Analysis)
        • 다중상관분석에서 다른 변수와의 관계를 고정하고 두 변수의 관계강도를 측정하는 것
  • 상관분석의 기본가정
    • 선형성
      • 두 변인 X와 Y의 관계가 직선적인지를 알아보는 것으로 이 가정은 분포를 나타내는 산점도를 통해 확인 가능
    • 동변량성(등분산성, Homoscedasticity)
      • X의 값에 관계없이 Y의 흩어진 정도가 같은 것 의미
      • 반의어: 이분산성
      • 산포도가 특정 구간에 상관 없이 퍼진 정도가 일정할 때 자료가 동변량성을 띤다고 말함. 
    • 두 변인의 정규분포성
      • 두 변인의 측정치 분포가 모집단에서 모두 정규분포를 이루는 것
    • 무선독립표본
      • 모집단에서 표본을 뽑을 때 표본대상이 확률적으로 선정된다는 것
  • 상관분석 방법
    • 피어슨 상관계수
      • 두 변수 X와 Y 간 상관관계를 계량화한 수치
      • +1과 -1 사이의 값을 가지며, +1은 완벽한 양의 선형 상관관계, 0은 선형 상관관계 없음, -1은 완벽한 음의 선형 상관관계를 의미
    • 스피어만 상관계수(Spearman Correlation Coefficient)
      • 데이터가 서열자료인 경우, 즉 자료의 값 대신 순위를 이용하는 경우의 상관계수로서, 데이터를 작은 것부터 차례로 순위를 매겨 서열 순서로 바꾼 뒤 순위를 이용해 상관계수 구함.
      • 두 변수 간 연관 관계가 있는지 없는지 밝혀주며 자료에 이상점이 있거나 표본의 크기가 작을 때 유용
      • 크기 순으로 정한 두 변수 차이가 클수록 스피어만 상관계수의 값이 커짐. 즉 스피어만 상관계수는 한 변수의 값이 커지면 다른 변수의 값도 단조적으로 커지는지 알아볼 수 있음.
      • 스피어만 상관계수가 1에 가까울수록 두 변수는 단조적 상관성(커지면 같이 증가)을 갖고, 0에 가까우면 상관성이 없는 것으로 판단 

di² : xi의 순위와 yi의 순위 차이. (n은 표본의 개수)

03. 기초통계량의 추출 및 이해

자료를 수집하여 요약, 정리하는 기초통계는 자료의 특성을 정량적인 수치에 의해 나타내는 방법.

자료의 특성을 중심화 경향, 퍼짐 정도(산포도, 분산도), 자료의 분포형태 등의 수치적 결과로 나타낼 수 있음.

  • 중심화 경향 기초통계량
    • 산술평균
    • 기하평균
      • N개의 자료에 대해 관측치를 곱한 후 n 제곱근으로 표현
      • 다기간의 수익률에 대한 평균 수익률, 평균물가상승률 등을 구할 때 사용
    • 조화평균
      • 각 요소의 역수의 산술평균을 구한 후 다시 역수를 취하는 형태로 표현
      • 변화율 등의 평균을 구할 때 사용
      • 각 자료가 동일한 경우 자료에 대한 조화평균, 산술평균값과 기하평균의 값은 같음. 다만 자료가 서로 다를 경우 조화평균≤기하평균≤산술평균의 부등식 관계를 가짐.
    • 중앙값
    • 최빈값
    • 분위수(Quantile)
      • 자료의 위치를 표현하는 수치
      • 자료를 크기 순서대로 배열을 한 후 그 자료를 분할하는 역할을 하는 위치의 수치를 계산한 것
      • 자료를 몇 등분하느냐에 따라 사분위수(quartile), 오분위수(quintile), 십분위수(decile), 백분위수(percentile) 등
  • 산포도(분산도, Degree Dispersion)
    • 분산(Variance), 표준편차(Standard Deviation)
      • 분산은 평균을 중심으로 밀집되거나 퍼짐 정도를 나타내는 척도
      • 분산으로 얻은 수치를 해석하기가 곤란하다는 단점을 보완하기 위해 제곱근을 취한 척도가 표준편차
    • 분산의 특성
      • 개개의 자료값에 대한 정보 반영
      • 수리적으로 다루기 쉬움.
      • 특이점에 매우 큰 영향
      • 분산이 클수록 각 자료값이 평균으로부터 넓게 흩어진 형태를 가짐.
      • 미지의 모분산을 추론할 때 많이 사용
    • 범위(Range)
      • 데이터 간의 최댓값, 최솟값 차이를 나타내는 것
      • 동일한 범위를 같더라도 자료의 분포모양은 다를 수 있음.
    • 평균 절대 편차(평균 편차, 절대 편차, MAD: Mean Absolute Deviation)
      • 각 자료값과 표본평균과의 편차의 절댓값에 대한 산술평균
      • 개개의 자료값에 대한 정보 반영
      • 이상치에 대한 영향을 범위(Range)보다 적게 받음.
      • 절댓값을 사용하므로 수리적으로 다루기 부적절
        • 절대 편차의 최소값을 갖는 자료값은 평균이 아닌 중앙값
        • 절대 편차는 미분 불가능점 존재
      • 평균 절대 편차가 클수록 자료는 폭넓게 분포함.
        • 평균 절대 편차보다는 중앙값 절대 편차 사용할 때, 유용
    • 사분위범위(Inter Quartile Range)
      • 자료를 크기 순으로 배열 후 자료의 1/4에 해당하는 1사분위수(Q1)를 구하고 3/4에 해당하는 3사분위수(Q3)를 구함.
      • 사분위 범위는 Q3-Q1으로 정의되며 자료의 50% 범위 내에 위치하게 됨 의미
      • 사분위범위는 주로 이상치 판단 시에 사용되는 것으로
        • 최대값 = Q3 + 1.5 x IQR
        • 최소값 = Q1 - 1.5 x IQR
    • 변동계수(CV: Coefficient of Variance)
      • 평균을 중심으로 한 상대적 산포의 척도를 나타내는 수치
      • 측정 단위가 동일하지만 평균이 큰 차이를 보이는 두 자료집단 또는 측정단위가 서로 다른 두 자료집단에 대한 산포의 척도를 비교할 때 많이 사용
        • CV = σ / μ x 100(%) (모집단의 변동계수)
      • 변동계수가 클수록 상대적으로 넓게 분포 이룸.
  • 자료의 분포형태(Shape of Distribution)
    • 왜도(Skewness)
      • 분포의 비대칭 정도를 나타내는 통계적 측도
      • 데이터 분포의 대칭성과 비대칭성을 정량화하여 평가하는 데 사용
      • 분포가 대칭이면 왜도는 0. 왼쪽으로 치우친 경우 왜도는 양수, 오른쪽으로 치우친 경우 왜도는 음수
      • 분포의 모양 뿐 아니라 이상치 존재 여부 파악하는 데도 도움.
      • 이상치는 분포의 비대칭성을 높이고, 왜도의 크기를 변화시킴.
      • 일반적으로 -3과 +3 사이의 범위에 있으며, 보통 왜도의 절대값이 1.96보다 크면 비대칭성이 있다고 판단.

왜도 공식
출처: https://share.google/wxGqu64z4rS2xWxxi

1) 왜도 < 0 : 평균 < 중앙값 < 최빈값

2) 왜도 = 0 : 평균 = 중앙값 = 최빈값

3) 왜도 > 0 : 평균 > 중앙값 > 최빈값

피어슨 비대칭 계수

(평균 - 최빈값) / 표준편차
3 * (평균 - 최빈값) / 표준편차
3 * (평균 - 중앙값) / 표준편차

일반적으로 3 * (평균 - 중앙값) / 표준편차로 구할 수 있음.
- 중앙값, 최빈값, 평균이 일치하면 정규분포
- 계수 값이 0보다 크면 왼쪽으로 치우치고 오른쪽으로 긴 꼬리를 가지는 분포 (정적편포)
- 계수 값이 0보다 작으면 오른쪽으로 치우치고 왼쪽으로 긴 꼬리를 갖는 분포 (부적편포)
  •  (이어서)
    • 첨도(Kurtosis)
      • 분포의 뾰족한(peakedness) 정도를 나타내는 통계적 척도
      • 첨도 값이 3 미만인 경우 평평한 분포이고 3이면 정규분포를 나타내며 3이 넘는 경우는 뾰족한 분포의 형태를 갖는 것으로 판단 가능

04. 시각적 데이터 탐색

  • 통계적 시각화 도구
    • 도수분포표(Frequency Table)
      • 수집된 자료를 적절한 계급에 의해 분류하여 정리한 표로 질적 자료의 경우는 각 자료값(범주)에 대하여 도수나 상대도수로 표현
      • 도수(Frequency)
        • 질적 자료의 경우 각 범주별 빈도
      • 상대도수(Relative Frequency)
        • 도수 / 전체 자료 수
        • 양적 자료의 경우, 전체 자료를 그룹화(계급구간)하고 각 그룹별 속하는 자료의 수를 계산하여 도수 및 상대도수로 표현
      • 히스토그램
        • 도수분포표를 이용해 자료분포 나타낸 그래프
        • 가로축에 반드시 수량을 표시 (막대그래프는 그렇지 않음.)
      • 막대그래프
        • 각 자료값에 대한 도수 또는 상대도수를 그림으로 표현한 것
      • 파이차트(Pie Chart)
        • 각 자료값의 상대도수로 기입하여 원의 면적에 각 상대크기별로 나타낸 그래프
      • 산점도(Scatter Plot)
        • 직교 좌표계를 이용해 두 개 변수 간 관계를 나타내는 방법
      • 줄기 잎 그림(Stem-and-Leaf Diagram)
        • 통계적 자료를 표 형태와 그래프 형태의 혼합된 방법으로 나타내는 것
        • 자료의 정리가 가능할 뿐 아니라 자료의 구조에 대한 정보도 파악이 가능한 도구
        • 작성 절차
          1. 원 자료를 크기 순으로 정리
          2. 원 자료의 숫자를 두 부분으로 나누어 앞부분은 줄기, 뒷부분은 잎으로
          3. 줄기에 해당하는 숫자를 크기 순으로 나열
          4. 원 자료의 수치를 해당 줄기 우측 뒷부분에 기록
          5. 한 줄기에 기록된 잎의 수가 너무 많은 경우 두 줄로 나누어 잎 기록 가능
      • 상자 수염 그림(Box Plot)
        • 수치적 자료를 표현하는 그래프
        • 자료로부터 얻어낸 통계량인 5가지 요약 수치(Five-number theory를 갖고 그림.
          • 최솟값
          • Q1
          • Q2
          • Q3
          • 최댓값
        • 작성 방법
          1. 주어진 데이터에서 각 사분위수 계산
          2. 그래프에서 제1사분위와 제3사분위를 밑변으로 하는 직사각형을 그리고, 제2사분위에 해당하는 위치에 선분 긋기
          3. IQR 계산
          4. Q3과 차이가 1.5IQR 이내인 값 중 최대값을 Q3와 직선으로 연결하고, 마찬가지로 Q1과 차이가 1.5IQR 이내인 값 중 최솟값을 Q1과 연결
          5. Q3보다 1.5IQR 이상 초과하는 값과 Q1보다 1.5IQR 이상 미달하는 값은 점이나 원, 별표 등으로 따로 표시함. (이상치 점)

'빅데이터분석기사' 카테고리의 다른 글

[필기] 기술통계  (0) 2026.03.15
[필기] 고급 데이터 탐색  (0) 2026.03.15
[필기] 분석 변수 처리  (0) 2026.03.14
[필기] 데이터 정제  (0) 2026.03.11
[필기] 데이터 적재 및 저장  (0) 2026.03.08