AYSTORY
[필기] 고급 데이터 탐색 본문
01. 시공간 데이터 탐색
- 시공간 데이터 개념
- 기본적으로 공간적 정보(데이터)에 시간의 흐름(이력정보 등)이 결합된 다차원 데이터를 다루는 것을 지칭
- 시간 데이터
- 기준 데이터는 어느 한 시점에 대한 스냅샷 정보
- 데이터에 유효 시간, 거래 시간, 사용자 정의 시간과 같은 연관된 시간 표현 정의
- 유효 시간: 데이터가 발생하거나 소멸된 시간
- 거래 시간: 관리 시스템을 통해 처리된 시간
- 사용자 정의 시간
- 스냅샷 데이터: 시간 개념이 필요하지 않아 거래, 유효시간 미지원
- 거래 시간 데이터, 유효 시간 데이터: 각각 거래, 유효시간만 지원
- 이원 시간 데이터: 둘 다 지원
- 공간 데이터
- 기존 데이터베이스보다 복잡하고 다양한 유형의 값을 가지므로 효율적으로 관리, 저장, 이용하는 데 초점
- 비공간 타입: 기본적 데이터 유형 가진 속성
- 래스터 공간 타입: 실세계에 존재하는 객체 이미지
- 벡터 공간 타입: 점, 선, 면 등의 요소로 구성
- 기하학적 타입: 벡터 타입의 요소로부터 거리, 면적, 길이 등과 같은 유클리드 기하학 계산 값으로 표현
- 위상적 타입: 공간 객체 간 관계를 표현하며, 방위, 공간 객체 간 중첩, 포함, 교차, 분리 등과 같은 위치적 관계로 대량의 공간을 필요로 해서 일반적으로 저장되지 않고 보통 공간객체로부터 동적으로 계산
- 공간 데이터 모델
- 관계형 모델: 데이터 표현이 유연하지 못하며 실세계 공간의 객체의 특징을 적절히 표현하지 못하는 문제점이 있음.
- 객체지향 모델
- 비구조적이고 복잡한 데이터를 자연스럽게 표현
- 데이터 계층 구조를 이용한 연산이 쉬움.
- 새로운 함수의 확장이 쉬움.
- 데이터 무결성 검사가 쉬움.
- 설계 단계 모델-구현 단계 모델 사이의 불일치 문제 줄임.
- 시공간 데이터
- 시간과 공간 데이터의 결합 형태 지칭
- 시공간 데이터 분석
- 시공간 데이터에 대한 질의어
- 시공간자료 정의언어: 시공간 테이블 인덱스 및 뷰의 정의문, 변경문 등이 포함.
- 시공간자료 조작언어: 객체의 삽입, 삭제, 변경 등의 검색문.
- 시공간 데이터의 연산
- 시공간위상 관계연산: 공간위상 연산자는 두 객체 간 공간영역 상의 관계에 대해서 참, 거짓을 반환하는 연산으로 대표적으로 교차 연산자는 선과 선의 교차, 선과 면의 교차 여부를 반환함. 시간관계의 경우, 두 객체의 유효시간 정보를 기반으로 선후관계를 평가하여 참, 거짓을 반환하는 연산자
- 시공간기하 연산: 공간기하 연산자와 시간구성 연산자의 결합.
- 공간기하 연산자: 두 객체 간 거리 연산을 지칭
- 시간 구성 연산자: 주어진 객체의 유효시간값에 대하여 지정된 시간 혹은 다른 객체의 유효시간값과의 계산을 통해 객체의 유효시간값을 변경하는 연산
- 시공간 데이터에 대한 질의어
- 적용 및 응용분야
- 지리정보 시스템, 위치기반 서비스, 차량 위치추적 서비스 등
02. 다변량 데이터 탐색
기본적으로 변수들 간 인과관계의 규명과 분석을 하는 것.
변수들 간 상관관계를 이용하여 변수를 축약하거나 개체들을 분류하고 관련된 분석방법 등을 동원하여 데이터 분석을 하는 것.
- 종속변수와 독립변수 사이의 인과 관계
- 다중회귀(Multiple Regression)
- 독립변수가 2개 이상인 회귀모형을 지칭
- 각 독립변수는 종속변수와 선형관계에 있음을 가정
- 장점
- 종속변수를 설명하는 독립변수가 두 개일 때 단순회귀모형을 설정한다면 모형설정(specification)이 부정확할 뿐 아니라 종속변수에 대한 중요한 독립 변수를 누락함으로써 계수 추정량에 대해 편이(bias)를 야기시킬 수 있음. 이 때 다중회귀분석을 통해 편이 제거 가능
- 일반형식
- 종속변수 Y에 대하여 X₁, ... , Xₚ의 독립변수 p개가 존재하여 종속변수를 설명
- Y = β₀ + β₁X₁ + β₂X₂ + ··· + βₚXₚ + ε
- 기본가정
- 회귀모형은 모수에 대해 선형인 모형
- 오차항 평균 0
- 오차항의 분산은 모든 관찰치에 대해 σ²의 일정한 분산을 가짐.
- 서로 다른 관찰치 간 오차항은 상관이 없음. (오차항은 서로 독립이며 공분산은 0)
- 오차항의 각 독립변수 역시 독립인 관계
- 오차항은 정규분포를 따르며 N(0,σ²)
- 분석 방법
- 최소자승법을 이용하여 결과 도출 가능
- 로지스틱 회귀(Logistic Regression)
- 독립변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측하는 데 사용되는 통계 기법
- 선형모델과의 차이
- 이항형인 데이터에 적용하였을 때 종속변수 y의 결과가 범위 [0,1]로 제한됨.
- 종속변수가 이진적이기 때문에 조건부 확률 P(y|x)의 분포가 정규분포 대신 이항 분포를 따른다는 점.
- 독립변수는 실제 값, 이진 값, 카테고리 등 어떤 형태든 가능. 종속변수의형태는 연속 변수(수입, 나이, 혈압) 똔느 이산 변수(성별, 인종)로 구분
- 만약, 특정 이산 변수값의 후보가 2개 이상 존재한다면 일반적으로 해당 후보들을 임시 변수로 변환하여 로지스틱 회귀 수행
- 로지스틱 모형 함수 (sigmoid 함수) : σ(x) = 1 / (1 + e^(-x))
- 분산분석(ANOVA: Analysis of Variance)
- 3개 이상의 표본들의 차이를 표본평균 간의 분산과 표본 내의 관측치 간 분산 비교해 가설을 검정하는 것
- 일원분산분석(One-Way ANOVA)
- 단 하나의 인자에 근거하여 여러 수준으로 나누어지는 분석
- 특징
- 단일용인변수(독립변수)에 의해 종속변수에 대한 평균치의 차이 검정하는 데 이용
- 종속변수(등간 척도)와 정수값을 갖는 요인변수가 각 하나여야 하고 요인변수가 정의되어야 함.
- 다변량 분산분석(Multi Variate ANOVA)
- 측정형 변수, 종속변수가 2개 이상인 분산분석
- 이원분산분석(Two-Way ANOVA)
- 두 개 이상의 인자에 근거해 여러 수준으로 나누어지는 분석
- 특징
- 일원분산분석과 달리 독립변인의 수가 둘
- 만약 연구자의 관심이 한 변수에 따른 종속변수의 영향이 아니라 두 개 이상의 변수, 예를 들어 성별변수와 연령변수에 따라 직무만족도가 어떻게 차이나는가를 알아보고자 한다면 이원분산분석을 해야함.
- 다중회귀(Multiple Regression)
- 공분산과 독립성 관계
- 서로 독립적인 변수는 통계적으로 독립적인 사건으로 볼 수 있으며, 한 변수의 변화가 다른 변수에 영향을 미치지 않는 관계를 가짐. 이러한 경우 공분산은 0이 되며, 공분산 행렬의 비대각 성분은 모두 0이 됨.
- 그러나 공분산이 0이라고 해서 항상 독립인 것은 아님. 예를 들어, 두 변수가 비선형적인 관계를 가지고 있을 수 있으며, 이러한 경우에도 공분산은 0이 될 수 있음. 또한, 다른 종류의 관계(이차항 관계, 상호작용 효과 등)가 존재할 수도 있음. 이 경우 공분산이 0이 되지 않을 수도.
- 변수간 독립성 여부를 판단하기 위해서는 공분산 이외의 다른 통계쩍 검정이나 분석 사용해야 함.
두 확률변수가 상호 독립이면 Cov(A,B) = 0
그러나 Cov(A,B) = 0이라고 해서 두 확률변수 A, B가 상호 독립이라고 할 순 없음.
- 두 확률분포 간의 독립성 확인
- 분포의 독립성 확인
- 두 확률변수의 결합 확률분포를 확인해 독립성 판단 가능
- 두 변수가 상호 독립이면, 결합 확률분포는 두 개별 변수의 확률분포의 곱과 동일해야 함.
- 즉, P(X,Y) = P(X)*P(Y)의 관계 만족해야 함.
- 공분산 및 상관 계수 확인
- 두 확률변수의 공분산과 상관계수를 계산하여 판단 가능
- 두 변수가 상호독립이라면 공분산은 0이 되며, 상관계수도 0이 됨.
- 따라서, 공분산이 0이고 상관계수가 0인 경우 두 변수가 독립적이라고 할 수 있음.
- 독립성 검정
- 독립성을 확인하기 위해 독립성 검정 수행
- 대표적으로, 카이제곱 독립성 검정
- 주어진 데이터에서 두 변수 간 독립성을 검정하는 방법으로, 유의수준을 설정하여 검정 결과 해석
- 분포의 독립성 확인
- 변수 축약
- 변수들 간 상관관계 이용해 변수를 줄이는 방법으로 변수유도기법이라고 함.
- 주성분 분석(PCA)
- 다변량 자료에서 존재하는 abnormality(비정규성)이나 이상치를 발견하기 위해 변수들의 상관관계(또는 공분산)가 존재하지 않는 새로운 변수(주성분)를 구하는 것을 지칭
- 주성분 분석은 N개의 변수로부터 서로 독립적인 K(<N)개의 주성분을 구해 원 변수의 차원을 줄이는 방법
- 요인 분석(Factor Analysis)
- 다수의 변수들이 상관관계를 분석하여 공통차원들을 통해 축약해 나가는 방법
- 다수의 변수들 간 정보손실을 최소화하며 소수의 요인으로 축약하는 것
- 특징
- 독립변수와 종속변수의 개념이 없음.
- 추론통계가 아닌 기술통계기법에 의해 수행
- 목적
- 변수 축소
- 변수 제거
- 변수 특성 파악
- 측정항목의 타당성 평가
- 요인점수를 통한 변수 생성
- 정준상관분석(Canonical Analysis)
- 두 변수집단 간 연관성을 각 변수집단에 속한 변수들의 선형결합의 상관계수를 이용해 분석하는 방법
- 정준변수(Canonical Variable): 새로 만들어진 선형결합
- 정준상관계수(Canonical Correlation Coefficient): 정준변수들 사이의 상관계수
- 두 집단에 속하는 변수들의 개수 중에서 변수의 개수가 적은 집단에 속하는 변수의 개수만큼 정준변수가 만들어질 수 있음.
- 회귀분석과의 차이점
- 회귀분석의 경우 하나의 반응변수를 여러 개의 설명변수로 설명하고자 할 때, 가장 설명력이 높은 변수들의 선형결합을 찾아 이들 사이의 인과관계를 생각하는 반면, 정준분석에선느 이와 같은 인과성이 없음.
- 두 변수집단 간 연관성을 각 변수집단에 속한 변수들의 선형결합의 상관계수를 이용해 분석하는 방법
- 개체유도
- 개체들의 특성을 측정한 변수들의 상관관계를 이용해 유사한 개체 분류하는 방법
- 군집 분석 (Cluster Analysis)
- 변수 또는 개체들이 속한 모집단 또는 범주에 대한 사전정보가 없는 경우에 관측값들 사이의 거리(또는 유사성)을 이용하여 변수 또는 개체들을 자연스럽게 몇 개의 그룹 또는 군집으로 나누는 분석기법
- 군집 간 거리에 대한 정의가 가장 중요한 부분으로 거리 정의에 따라 유사성에 대한 척도가 형성
- 계층적(hierarchical) 방법
- 가까운 개체끼리 차례로 묶거나 멀리 떨어진 개체를 차례로 분리해 가는 군집방법으로 한 번 병합된 개체는 다시 분리되지 않는 것이 특징
- 비계층적(nonhierarchical) 방법 또는 최적분화(partitioning) 방법
- 다변량 자료와 산포를 나타내는 여러가지 측도를 이용해 이들 판정기준을 최적화시키는 방법으로 군집을 나누는 방법
- 한 번 분리된 개체도 반복적으로 시행하는 과정에서 재분류될 수 있는 것이 특징
- 조밀도에 의한 방법
- 데이터가 분포한 특성에 따라 군집을 나누는 방법
- 그래프를 이용하는 방법
- 다차원 자료들을 2차원 or 3차원으로 축소할 수 있다면 시각적 차원에서 자연스러운 군집 형성
- 다차원 척도법(MDS: Multi-Dimensional Scaling)
- 다차원 관측값 또는 개체들 간 거리 똔느 비유사성을 이용해 개체들을 원래의 차원보다 낮은 차원(보통 2차원)의 공간상에 위치시켜(spatial configuration) 개체들 사이의 구조 또는 관계를 쉽게 파악하고자 하는 데 목적이 있음.
- 차원의 축소와 개체들의 상대적 위치 등을 통해 개체들 사이의 관계를 쉽게 파악하고, 공간적 배열에 대한 주관적 해석에 중점을 두고 있음.
- 다차원 관측값 또는 개체들 간 거리 똔느 비유사성을 이용해 개체들을 원래의 차원보다 낮은 차원(보통 2차원)의 공간상에 위치시켜(spatial configuration) 개체들 사이의 구조 또는 관계를 쉽게 파악하고자 하는 데 목적이 있음.
- 판별 분석(Discriminant Analysis)
- 2개 이상의 그룹으로 나눠진 개체에 대해 분류에 영향을 미칠 것 같은 특성(변수)을 측정하고 이를 이용하여 새로운 개체를 분류
- 로지스틱 판별분석(Logistic Discriminant Analysis)
- 분류를 하는 도구(판별식)를 로지스틱 회귀분석을 이용햅 분류
03. 비정형 데이터 탐색
- 비정형 데이터(Unstructured Data)
- 미리 정의된 데이터 모델이 없거나 미리 정의된 방식으로 정리되지 않은 정보
- 특징
- 일반적으로 텍스트 중심
- 변칙과 모호함이 발생하므로 데이터베이스의 칸 형식의 폼에 저장되거나 문서에 주석화된 데이터에 비해 전통적인 프로그램을 사용해 이해하는 것을 불가능하게 만듦.
- 관리 및 분석 의미 도출
- 정형 데이터는 데이터 저장의 효율성 측면에서 사전에 정의된 규칙에 따라 저장, 관리되었으나 비정형의 경우는 규격화의 어려움이 있어 저장, 관리의 어려움이 있음.
- 정형 데이터에 비해 차지하는 저장 공간이 넓음.
- 정형화되지 않은 데이터로 분석이 용이하지 않은 부분이 있음.
- 비정형 데이터의 분석
- 데이터 마이닝(Data Mining)
- 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 분석하여 가치 있는 정보를 추출하는 과정
- 데이터베이스 쪽에서 발전한 OLAP(온라인 분석 처리, On-Lin Analytic Processing), 인공지능 진영에서 발전한 SOM, 신경망, 전문가 시스템 등의 기술적 방법론이 쓰임.
- 적용 분야
- 분류(Classification): 일정 집단에 대한 특정 정의를 통해 분류 및 구분을 추론
- ex) 경쟁자로 이탈한 고객
- 군집화(Clustering): 구체적 특성을 공유하는 군집을 찾음. 미리 정의된 특성에 대한 정보를 갖지 않는다는 점에서 분류와 다름.
- ex) 유사 행동 집단의 구분
- 연관성(Association): 동시에 발생한 사건 간 관계를 정의
- ex) 장바구니에 동시에 들어가는 상품들의 관계 규명
- 연속성(Sequencing): 특정 기간에 걸쳐 발생하는 관계 규명. 기간의 특성을 제외하면 연관성 분석과 유사
- ex) 슈퍼마켓과 금융상품 사용에 대한 반복 방문
- 예측(Forecasting): 대용량 데이터집합 내 패턴을 기반으로 미래를 예측
- ex) 각종 수요예측
- 분류(Classification): 일정 집단에 대한 특정 정의를 통해 분류 및 구분을 추론
- 단점
- 자료에 의존해 현상을 해석하고 개선하려고 하기 때문에 자료가 현실을 충분히 반영하지 못한 상태에서 정보를 추출한 모형을 개발할 경우 잘못된 모형을 구축하는 오류를 범할 수 있음.
- 텍스트 마이닝(Text Mining)
- 전통적인 데이터 마이닝의 한계를 벗어난 방법
- 인간의 언어로 이루어진 비정형 텍스트 데이터들을 자연어 처리방식을 이용해 대규모 문서에서 정보 추출, 연계성 파악, 분류 및 군집화, 요약 등을 통해 데이터의 숨겨진 의미를 발견하는 기법
- 자연어 처리(NLP: Natural Language Process)
- 인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 모사할 수 있도록 연구하고 이를 구현하는 인공지능의 주요 분야 중 하나
- 자연 언어 처리는 연구 대상이 언어이기 때문에 당연하게도 언어 자체를 연구하는 언어학과 언어 현상의 내적 기재를 탐구하는 언어 인지 과학과 연관이 깊음.
- 구현을 위해 수학적, 통계적 도구를 많이 활용하며 특히 기계학습 도구를 많이 사용하는 대표적인 분야임. 정보검색, QA 시스템, 문서 자동분류, 신문기사 클러스터링, 대화형 Agent 등 다양한 응용이 이루어지고 있음.
- 오피니언 마이닝(Opinion Mining)
- 텍스트 마이닝의 한 분류로서, 특정 주제에 대한 사람들의 주관적 의견을 통계, 수치화해 객관적 정보로 바꾸는 빅데이터 분석기술
- 텍스트마이닝과 같이 문장을 분석하기 때문에 NLP를 사용하지만, 텍스트 마이닝은 문장 내 주제를 파악하고 오피니언 마이닝은 감정, 뉘앙스, 태도 등을 판별한다는 차이가 있음.
- 감정 분석(Sentiment Analysis)라고도 불림.
- 웹 마이닝(Web mining)
- 일반적으로 웹 자원으로부터 의미있는 패턴, 추세 등을 도출해내는 것 지칭
- 기기 내 쌓이는 로그, 사용자 행동 및 작성 콘텐츠 등 모든 것 포함
- 특징
- 웹 환경에서 얻어지는 고객 정보, 특정 행위, 패턴 등의 정보를 이용하여 다양한 활동(마케팅 등)에 활용 가능
- 문서들과 서비스로부터 정보 추출 가능
- 대량의 로그기록을 기반으로 정보를 수집하고 자료를 정제
- 웹상의 고객의 행동기록과 CRM 등을 연결하는 등 다양한 서비스에 접목이 가능
- 유형
- 웹구조 마이닝(Web Structure Mining)
- 웹 사이트로부터 구조적 요약정보 추출
- 웹내용 마이닝(Web Contents Mining)
- 웹사이트 또는 페이지로부터 의미 있는 내용을 추출
- 웹사용 마이닝(Web Usage Mining)
- 웹상의 사용자의 행동 등 패턴으로부터 통찰을 이끌어 내는 방법
- 웹구조 마이닝(Web Structure Mining)
- 데이터 마이닝(Data Mining)
'빅데이터분석기사' 카테고리의 다른 글
| [필기] 추론통계 (0) | 2026.03.16 |
|---|---|
| [필기] 기술통계 (0) | 2026.03.15 |
| [필기] 데이터 탐색의 기초 (0) | 2026.03.14 |
| [필기] 분석 변수 처리 (0) | 2026.03.14 |
| [필기] 데이터 정제 (0) | 2026.03.11 |
