AYSTORY

[필기] 고급 데이터 탐색 본문

빅데이터분석기사

[필기] 고급 데이터 탐색

bye0nzn 2026. 3. 15. 01:53

01. 시공간 데이터 탐색

  • 시공간 데이터 개념
    • 기본적으로 공간적 정보(데이터)에 시간의 흐름(이력정보 등)이 결합된 다차원 데이터를 다루는 것을 지칭
    • 시간 데이터
      • 기준 데이터는 어느 한 시점에 대한 스냅샷 정보
      • 데이터에 유효 시간, 거래 시간, 사용자 정의 시간과 같은 연관된 시간 표현 정의
      • 유효 시간: 데이터가 발생하거나 소멸된 시간
      • 거래 시간: 관리 시스템을 통해 처리된 시간
      • 사용자 정의 시간
      • 스냅샷 데이터: 시간 개념이 필요하지 않아 거래, 유효시간 미지원
      • 거래 시간 데이터, 유효 시간 데이터: 각각 거래, 유효시간만 지원
      • 이원 시간 데이터: 둘 다 지원
    • 공간 데이터
      • 기존 데이터베이스보다 복잡하고 다양한 유형의 값을 가지므로 효율적으로 관리, 저장, 이용하는 데 초점
      • 비공간 타입: 기본적 데이터 유형 가진 속성
      • 래스터 공간 타입: 실세계에 존재하는 객체 이미지
      • 벡터 공간 타입: 점, 선, 면 등의 요소로 구성
      • 기하학적 타입: 벡터 타입의 요소로부터 거리, 면적, 길이 등과 같은 유클리드 기하학 계산 값으로 표현
      • 위상적 타입: 공간 객체 간 관계를 표현하며, 방위, 공간 객체 간 중첩, 포함, 교차, 분리 등과 같은 위치적 관계로 대량의 공간을 필요로 해서 일반적으로 저장되지 않고 보통 공간객체로부터 동적으로 계산
    • 공간 데이터 모델
      • 관계형 모델: 데이터 표현이 유연하지 못하며 실세계 공간의 객체의 특징을 적절히 표현하지 못하는 문제점이 있음.
      • 객체지향 모델
        • 비구조적이고 복잡한 데이터를 자연스럽게 표현
        • 데이터 계층 구조를 이용한 연산이 쉬움.
        • 새로운 함수의 확장이 쉬움.
        • 데이터 무결성 검사가 쉬움.
        • 설계 단계 모델-구현 단계 모델 사이의 불일치 문제 줄임.
    • 시공간 데이터
      • 시간과 공간 데이터의 결합 형태 지칭
  • 시공간 데이터 분석
    • 시공간 데이터에 대한 질의어
      • 시공간자료 정의언어: 시공간 테이블 인덱스 및 뷰의 정의문, 변경문 등이 포함. 
      • 시공간자료 조작언어: 객체의 삽입, 삭제, 변경 등의 검색문. 
    • 시공간 데이터의 연산
      • 시공간위상 관계연산: 공간위상 연산자는 두 객체 간 공간영역 상의 관계에 대해서 참, 거짓을 반환하는 연산으로 대표적으로 교차 연산자는 선과 선의 교차, 선과 면의 교차 여부를 반환함. 시간관계의 경우, 두 객체의 유효시간 정보를 기반으로 선후관계를 평가하여 참, 거짓을 반환하는 연산자
      • 시공간기하 연산: 공간기하 연산자와 시간구성 연산자의 결합.
        • 공간기하 연산자: 두 객체 간 거리 연산을 지칭
        • 시간 구성 연산자: 주어진 객체의 유효시간값에 대하여 지정된 시간 혹은 다른 객체의 유효시간값과의 계산을 통해 객체의 유효시간값을 변경하는 연산
  • 적용 및 응용분야
    • 지리정보 시스템, 위치기반 서비스, 차량 위치추적 서비스 등

02. 다변량 데이터 탐색

기본적으로 변수들 간 인과관계의 규명과 분석을 하는 것.

변수들 간 상관관계를 이용하여 변수를 축약하거나 개체들을 분류하고 관련된 분석방법 등을 동원하여 데이터 분석을 하는 것.

  • 종속변수와 독립변수 사이의 인과 관계
    • 다중회귀(Multiple Regression)
      • 독립변수가 2개 이상인 회귀모형을 지칭
      • 각 독립변수는 종속변수와 선형관계에 있음을 가정
      • 장점
        • 종속변수를 설명하는 독립변수가 두 개일 때 단순회귀모형을 설정한다면 모형설정(specification)이 부정확할 뿐 아니라 종속변수에 대한 중요한 독립 변수를 누락함으로써 계수 추정량에 대해 편이(bias)를 야기시킬 수 있음. 이 때 다중회귀분석을 통해 편이 제거 가능
      • 일반형식
        • 종속변수 Y에 대하여 X₁, ... , Xₚ의 독립변수 p개가 존재하여 종속변수를 설명
        • Y = β₀ + β₁X₁ + β₂X₂ + ··· + βₚXₚ + ε
      • 기본가정
        • 회귀모형은 모수에 대해 선형인 모형
        • 오차항 평균 0
        • 오차항의 분산은 모든 관찰치에 대해 σ²의 일정한 분산을 가짐.
        • 서로 다른 관찰치 간 오차항은 상관이 없음. (오차항은 서로 독립이며 공분산은 0)
        • 오차항의 각 독립변수 역시 독립인 관계
        • 오차항은 정규분포를 따르며 N(0,σ²)
      • 분석 방법
        • 최소자승법을 이용하여 결과 도출 가능
    • 로지스틱 회귀(Logistic Regression)
      • 독립변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측하는 데 사용되는 통계 기법
      • 선형모델과의 차이
        1. 이항형인 데이터에 적용하였을 때 종속변수 y의 결과가 범위 [0,1]로 제한됨.
        2. 종속변수가 이진적이기 때문에 조건부 확률 P(y|x)의 분포가 정규분포 대신 이항 분포를 따른다는 점.
      • 독립변수는 실제 값, 이진 값, 카테고리 등 어떤 형태든 가능. 종속변수의형태는 연속 변수(수입, 나이, 혈압) 똔느 이산 변수(성별, 인종)로 구분
      • 만약, 특정 이산 변수값의 후보가 2개 이상 존재한다면 일반적으로 해당 후보들을 임시 변수로 변환하여 로지스틱 회귀 수행
      • 로지스틱 모형 함수 (sigmoid 함수) : σ(x) = 1 / (1 + e^(-x))
    • 분산분석(ANOVA: Analysis of Variance)
      • 3개 이상의 표본들의 차이를 표본평균 간의 분산과 표본 내의 관측치 간 분산 비교해 가설을 검정하는 것
      • 일원분산분석(One-Way ANOVA)
        • 단 하나의 인자에 근거하여 여러 수준으로 나누어지는 분석
        • 특징
          • 단일용인변수(독립변수)에 의해 종속변수에 대한 평균치의 차이 검정하는 데 이용
          • 종속변수(등간 척도)와 정수값을 갖는 요인변수가 각 하나여야 하고 요인변수가 정의되어야 함.
    • 다변량 분산분석(Multi Variate ANOVA)
      • 측정형 변수, 종속변수가 2개 이상인 분산분석
      • 이원분산분석(Two-Way ANOVA)
        • 두 개 이상의 인자에 근거해 여러 수준으로 나누어지는 분석
        • 특징
          • 일원분산분석과 달리 독립변인의 수가 둘
          • 만약 연구자의 관심이 한 변수에 따른 종속변수의 영향이 아니라 두 개 이상의 변수, 예를 들어 성별변수와 연령변수에 따라 직무만족도가 어떻게 차이나는가를 알아보고자 한다면 이원분산분석을 해야함.
  • 공분산과 독립성 관계
    • 서로 독립적인 변수는 통계적으로 독립적인 사건으로 볼 수 있으며, 한 변수의 변화가 다른 변수에 영향을 미치지 않는 관계를 가짐. 이러한 경우 공분산은 0이 되며, 공분산 행렬의 비대각 성분은 모두 0이 됨. 
    • 그러나 공분산이 0이라고 해서 항상 독립인 것은 아님. 예를 들어, 두 변수가 비선형적인 관계를 가지고 있을 수 있으며, 이러한 경우에도 공분산은 0이 될 수 있음. 또한, 다른 종류의 관계(이차항 관계, 상호작용 효과 등)가 존재할 수도 있음. 이 경우 공분산이 0이 되지 않을 수도. 
    • 변수간 독립성 여부를 판단하기 위해서는 공분산 이외의 다른 통계쩍 검정이나 분석 사용해야 함.
두 확률변수가 상호 독립이면 Cov(A,B) = 0
그러나 Cov(A,B) = 0이라고 해서 두 확률변수 A, B가 상호 독립이라고 할 순 없음.
  • 두 확률분포 간의 독립성 확인
    1. 분포의 독립성 확인
      • 두 확률변수의 결합 확률분포를 확인해 독립성 판단 가능
      • 두 변수가 상호 독립이면, 결합 확률분포는 두 개별 변수의 확률분포의 곱과 동일해야 함.
      • 즉, P(X,Y) = P(X)*P(Y)의 관계 만족해야 함.
    2. 공분산 및 상관 계수 확인
      • 두 확률변수의 공분산과 상관계수를 계산하여 판단 가능
      • 두 변수가 상호독립이라면 공분산은 0이 되며, 상관계수도 0이 됨. 
      • 따라서, 공분산이 0이고 상관계수가 0인 경우 두 변수가 독립적이라고 할 수 있음.
    3. 독립성 검정
      • 독립성을 확인하기 위해 독립성 검정 수행
      • 대표적으로, 카이제곱 독립성 검정
        • 주어진 데이터에서 두 변수 간 독립성을 검정하는 방법으로, 유의수준을 설정하여 검정 결과 해석
  • 변수 축약
    • 변수들 간 상관관계 이용해 변수를 줄이는 방법으로 변수유도기법이라고 함.
    • 주성분 분석(PCA)
      • 다변량 자료에서 존재하는 abnormality(비정규성)이나 이상치를 발견하기 위해 변수들의 상관관계(또는 공분산)가 존재하지 않는 새로운 변수(주성분)를 구하는 것을 지칭
      • 주성분 분석은 N개의 변수로부터 서로 독립적인 K(<N)개의 주성분을 구해 원 변수의 차원을 줄이는 방법
    • 요인 분석(Factor Analysis)
      • 다수의 변수들이 상관관계를 분석하여 공통차원들을 통해 축약해 나가는 방법
      • 다수의 변수들 간 정보손실을 최소화하며 소수의 요인으로 축약하는 것
      • 특징
        • 독립변수와 종속변수의 개념이 없음.
        • 추론통계가 아닌 기술통계기법에 의해 수행
      • 목적
        • 변수 축소
        • 변수 제거
        • 변수 특성 파악
        • 측정항목의 타당성 평가
        • 요인점수를 통한 변수 생성
    • 정준상관분석(Canonical Analysis)
      • 두 변수집단 간 연관성을 각 변수집단에 속한 변수들의 선형결합의 상관계수를 이용해 분석하는 방법
        • 정준변수(Canonical Variable): 새로 만들어진 선형결합
        • 정준상관계수(Canonical Correlation Coefficient): 정준변수들 사이의 상관계수
      • 두 집단에 속하는 변수들의 개수 중에서 변수의 개수가 적은 집단에 속하는 변수의 개수만큼 정준변수가 만들어질 수 있음.
      • 회귀분석과의 차이점
        • 회귀분석의 경우 하나의 반응변수를 여러 개의 설명변수로 설명하고자 할 때, 가장 설명력이 높은 변수들의 선형결합을 찾아 이들 사이의 인과관계를 생각하는 반면, 정준분석에선느 이와 같은 인과성이 없음.
  • 개체유도
    • 개체들의 특성을 측정한 변수들의 상관관계를 이용해 유사한 개체 분류하는 방법
    • 군집 분석 (Cluster Analysis)
      • 변수 또는 개체들이 속한 모집단 또는 범주에 대한 사전정보가 없는 경우에 관측값들 사이의 거리(또는 유사성)을 이용하여 변수 또는 개체들을 자연스럽게 몇 개의 그룹 또는 군집으로 나누는 분석기법
      • 군집 간 거리에 대한 정의가 가장 중요한 부분으로 거리 정의에 따라 유사성에 대한 척도가 형성
      • 계층적(hierarchical) 방법
        • 가까운 개체끼리 차례로 묶거나 멀리 떨어진 개체를 차례로 분리해 가는 군집방법으로 한 번 병합된 개체는 다시 분리되지 않는 것이 특징
      • 비계층적(nonhierarchical) 방법 또는 최적분화(partitioning) 방법
        • 다변량 자료와 산포를 나타내는 여러가지 측도를 이용해 이들 판정기준을 최적화시키는 방법으로 군집을 나누는 방법
        • 한 번 분리된 개체도 반복적으로 시행하는 과정에서 재분류될 수 있는 것이 특징
      • 조밀도에 의한 방법
        • 데이터가 분포한 특성에 따라 군집을 나누는 방법
      • 그래프를 이용하는 방법
        • 다차원 자료들을 2차원 or 3차원으로 축소할 수 있다면 시각적 차원에서 자연스러운 군집 형성
    • 다차원 척도법(MDS: Multi-Dimensional Scaling)
      • 다차원 관측값 또는 개체들 간 거리 똔느 비유사성을 이용해 개체들을 원래의 차원보다 낮은 차원(보통 2차원)의 공간상에 위치시켜(spatial configuration) 개체들 사이의 구조 또는 관계를 쉽게 파악하고자 하는 데 목적이 있음.
        • 차원의 축소와 개체들의 상대적 위치 등을 통해 개체들 사이의 관계를 쉽게 파악하고, 공간적 배열에 대한 주관적 해석에 중점을 두고 있음.
    • 판별 분석(Discriminant Analysis)
      • 2개 이상의 그룹으로 나눠진 개체에 대해 분류에 영향을 미칠 것 같은 특성(변수)을 측정하고 이를 이용하여 새로운 개체를 분류
      • 로지스틱 판별분석(Logistic Discriminant Analysis)
        • 분류를 하는 도구(판별식)를 로지스틱 회귀분석을 이용햅 분류

03. 비정형 데이터 탐색

  • 비정형 데이터(Unstructured Data)
    • 미리 정의된 데이터 모델이 없거나 미리 정의된 방식으로 정리되지 않은 정보
    • 특징
      • 일반적으로 텍스트 중심
      • 변칙과 모호함이 발생하므로 데이터베이스의 칸 형식의 폼에 저장되거나 문서에 주석화된 데이터에 비해 전통적인 프로그램을 사용해 이해하는 것을 불가능하게 만듦.
    • 관리 및 분석 의미 도출
      • 정형 데이터는 데이터 저장의 효율성 측면에서 사전에 정의된 규칙에 따라 저장, 관리되었으나 비정형의 경우는 규격화의 어려움이 있어 저장, 관리의 어려움이 있음.
      • 정형 데이터에 비해 차지하는 저장 공간이 넓음.
      • 정형화되지 않은 데이터로 분석이 용이하지 않은 부분이 있음.
  • 비정형 데이터의 분석
    • 데이터 마이닝(Data Mining)
      • 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 분석하여 가치 있는 정보를 추출하는 과정
      • 데이터베이스 쪽에서 발전한 OLAP(온라인 분석 처리, On-Lin Analytic Processing), 인공지능 진영에서 발전한 SOM, 신경망, 전문가 시스템 등의 기술적 방법론이 쓰임.
      • 적용 분야
        • 분류(Classification): 일정 집단에 대한 특정 정의를 통해 분류 및 구분을 추론
          • ex) 경쟁자로 이탈한 고객
        • 군집화(Clustering): 구체적 특성을 공유하는 군집을 찾음. 미리 정의된 특성에 대한 정보를 갖지 않는다는 점에서 분류와 다름.
          • ex) 유사 행동 집단의 구분
        • 연관성(Association): 동시에 발생한 사건 간 관계를 정의
          • ex) 장바구니에 동시에 들어가는 상품들의 관계 규명
        • 연속성(Sequencing): 특정 기간에 걸쳐 발생하는 관계 규명. 기간의 특성을 제외하면 연관성 분석과 유사
          • ex) 슈퍼마켓과 금융상품 사용에 대한 반복 방문
        • 예측(Forecasting): 대용량 데이터집합 내 패턴을 기반으로 미래를 예측
          • ex) 각종 수요예측
      • 단점
        • 자료에 의존해 현상을 해석하고 개선하려고 하기 때문에 자료가 현실을 충분히 반영하지 못한 상태에서 정보를 추출한 모형을 개발할 경우 잘못된 모형을 구축하는 오류를 범할 수 있음.
    • 텍스트 마이닝(Text Mining)
      • 전통적인 데이터 마이닝의 한계를 벗어난 방법
      • 인간의 언어로 이루어진 비정형 텍스트 데이터들을 자연어 처리방식을 이용해 대규모 문서에서 정보 추출, 연계성 파악, 분류 및 군집화, 요약 등을 통해 데이터의 숨겨진 의미를 발견하는 기법
      • 자연어 처리(NLP: Natural Language Process)
        • 인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 모사할 수 있도록 연구하고 이를 구현하는 인공지능의 주요 분야 중 하나
        • 자연 언어 처리는 연구 대상이 언어이기 때문에 당연하게도 언어 자체를 연구하는 언어학과 언어 현상의 내적 기재를 탐구하는 언어 인지 과학과 연관이 깊음.
        • 구현을 위해 수학적, 통계적 도구를 많이 활용하며 특히 기계학습 도구를 많이 사용하는 대표적인 분야임. 정보검색, QA 시스템, 문서 자동분류, 신문기사 클러스터링, 대화형 Agent 등 다양한 응용이 이루어지고 있음.
    • 오피니언 마이닝(Opinion Mining)
      • 텍스트 마이닝의 한 분류로서, 특정 주제에 대한 사람들의 주관적 의견을 통계, 수치화해 객관적 정보로 바꾸는 빅데이터 분석기술
      • 텍스트마이닝과 같이 문장을 분석하기 때문에 NLP를 사용하지만, 텍스트 마이닝은 문장 내 주제를 파악하고 오피니언 마이닝은 감정, 뉘앙스, 태도 등을 판별한다는 차이가 있음.
      • 감정 분석(Sentiment Analysis)라고도 불림.
    • 웹 마이닝(Web mining)
      • 일반적으로 웹 자원으로부터 의미있는 패턴, 추세 등을 도출해내는 것 지칭
      • 기기 내 쌓이는 로그, 사용자 행동 및 작성 콘텐츠 등 모든 것 포함
      • 특징
        • 웹 환경에서 얻어지는 고객 정보, 특정 행위, 패턴 등의 정보를 이용하여 다양한 활동(마케팅 등)에 활용 가능
        • 문서들과 서비스로부터 정보 추출 가능
        • 대량의 로그기록을 기반으로 정보를 수집하고 자료를 정제
        • 웹상의 고객의 행동기록과 CRM 등을 연결하는 등 다양한 서비스에 접목이 가능
      • 유형
        • 웹구조 마이닝(Web Structure Mining)
          • 웹 사이트로부터 구조적 요약정보 추출
        • 웹내용 마이닝(Web Contents Mining)
          • 웹사이트 또는 페이지로부터 의미 있는 내용을 추출
        • 웹사용 마이닝(Web Usage Mining)
          • 웹상의 사용자의 행동 등 패턴으로부터 통찰을 이끌어 내는 방법

'빅데이터분석기사' 카테고리의 다른 글

[필기] 추론통계  (0) 2026.03.16
[필기] 기술통계  (0) 2026.03.15
[필기] 데이터 탐색의 기초  (0) 2026.03.14
[필기] 분석 변수 처리  (0) 2026.03.14
[필기] 데이터 정제  (0) 2026.03.11