AYSTORY

[필기] 빅데이터의 개요 및 활용 본문

빅데이터분석기사

[필기] 빅데이터의 개요 및 활용

bye0nzn 2026. 2. 12. 00:41

01. 빅데이터 분석 기획

Ch1. 빅데이터의 이해


01. 데이터와 정보

1) 데이터 정의

  • 데이터는 추론과 추정의 근거를 이루는 사실
  • 현실 세계에서 관찰/측정 → 수집한 사실

2) 데이터 특징

  • 단순한 객체로도 가치가 있으며 다른 객체와의 상호관계 속에서 더 큰 가치를 가짐.
  • 객관적 사실이라는 존재적 특성

3) 데이터 구분

  • 정량적 데이터: 주로 숫자
  • 정성적 데이터: 문자와 같은 텍스트 / 함축적 의미
    • ex) 철수가 시험에 합격하였다.
  정량적 데이터 정성적 데이터
유형 정형, 반정형 데이터 비정형 데이터
특징 여러 요소의 결합으로 의미 부여 객체 하나가 함축된 의미 내포
관점 주로 객관적 주로 주관적
구성 수치나 기호 등 문자나 언어 등
형태 DB, 스프레드시트 등 웹 로그, 텍스트 파일 등
위치 DBMS, 로컬 시스템 등 내부 웹사이트, 모바일 플랫폼 등 외부
분석 통계 분석 시 용이 통계 분석시 어려움

 

4) 데이터 유형

  • 정형 데이터: 정해진 형식과 구조 / 연산이 가능
    • 관계형 데이터베이스의 테이블에 저장되는 데이터 등
  • 반정형 데이터: 스키마 정보를 데이터와 함께 제공하는 파일 형식의 데이터 / 연산 불가능
    • JSON, XML, RDF, HTML 등
  • 비정형 데이터: 구조가 정해지지 않은 대부분의 데이터
    • 동영상, 이미지, 음성, 문서, 메일 등

5) 데이터 근원에 따른 분류

  가역 데이터 불가역 데이터
환원성(추적성) 가능 (비가공 데이터) 불가능 (가공데이터)
의존성 원본 데이터 그 자체 원본 데이터와 독립된 새 객체
원본과의 관계 1:1 1:N, N:1, M:N
처리과정 탐색 결합
활용분야 데이터 마트, 데이터 웨어하우스  데이터 전처리, 프로파일 구성

 

6) 데이터 기능

  • 암묵지: 어떤 시행착오나 다양하고 오랜 경험 → 개인에게 체계화 / 외부에 표출되지 않은 무형의 지식으로 전달과 공유 어려움.
  • 형식지: 형상화된 유형의 지식 → 전달과 공유 쉬움.

7) 지식창조 메커니즘

  • 공통화: 서로 경험이나 인식 공유 → 한 차원 높은 암묵지로 발전
  • 표출화: 암묵지 구체화 → 외부(형식지)로 표현
  • 연결화: 형식지 재분류 → 체계화
  • 내면화: 전달받은 형식지 → 개인의 것으로 만듦.

8) 데이터, 정보, 지식, 지혜

지혜 ▶ 지식 ▶ 정보 ▶ 데이터

02. 데이터베이스

1) 데이터베이스 정의

  • 소재를 체계적으로 배열 또는 구성한 편집물로서 개별적으로 그 소재에 접근하거나 그 소재를 검색할 수 있도록 한 것

2) 데이터베이스 관리 시스템 DBMS(DataBase Management System)

  • 종류
    • 관계형 DBMS: 데이터를 열과 행을 이루는 테이블로 표현
    • 객체지향 DBMS: 정보를 객체 형태로 표현
    • 네트워크 DBMS: 그래프 구조를 기반으로 하는 모델
    • 계층형 DBMS: 트리 구조 기반
  •  SQL (Structured Query Language)
    • 단순한 질의 기능뿐만 아니라 데이터 정의와 조작 기능 O

3) 데이터베이스 특징

  • 통합된 데이터 (Integrated)
    • 중복 X
  • 저장된 데이터 (Stored)
  • 공용 데이터 (Shared)
  • 변화되는 데이터 (Changed)

4) 데이터베이스 활용

  • OTLP (OnLine Transaction Processing)
    • 호스트 컴퓨터와 온라인으로 접속된 여러 단말 간 처리 형태의 하나로 데이터베이스의 데이터를 수시로 갱신하는 프로세싱
    • 여러 단말에서 보내온 메시지에 따라 호스트 컴퓨터가 데이터베이스를 액세스하고, 바로 처리 결과를 돌려보내는 형태
    • 현재 시점의 데이터만을 데이터베이스가 관리한다는 개념
    • 데이터 갱신 위주
  • OLAP (OnLine Analytical Processing)
    • 정보 위주의 분석 처리를 하는 것
    • OLTP에서 처리된 트랜잭션 데이터를 분석해 제품의 판매 추이, 구매 성향 파악, 재무 회계 분석 등을 프로세싱
    • 다양한 비즈니스 관점에서 쉽고 빠르게 다차원적 데이터에 접근 → 의사결정에 활용할 수 있는 정보 얻을 수 있게 하는 기술
    • 데이터 조회 위주
구분 OTLP OLAP
데이터 구조 복잡 단순
데이터 갱신 동적으로 순간적 정적으로 주기적
응답 시간 수 초 이내 수 초 ~ 몇분 
데이터 범위 수 십일 전후 오랜 기간 저장
데이터 성격 정규적 핵심 데이터 비정규적 읽기 전용 데이터
데이터 크기 수 기가바이트 수 테라바이트
데이터 내용 현재 데이터 요약 데이터
데이터 특성 트랜잭션 중심 주제 중심
데이터 액세스 빈도 높음 보통
질의 결과 예측 주기적이며 예측 가능 예측 어려움

 

5) 데이터 웨어하우스 (DW: Data Warehouse)

  • 사용자 의사결정에 도움을 주기 위해 기간 시스템의 데이터베이스에 축적된 데이터를 공통된 형식으로 변환해서 관리하는 데이터베이스
  • 일정한 시간 동안의 데이터를 축적하고 의사결정을 위한 다양한 분석 작업 수행

 

  • 특징
    • 주제지향성
    • 통합성: 데이터가 데이터 웨어하우스에 입력될 때는 일관된 형태로 변환 + 전사적 관점에서 통합
    • 시계열성: 일정기간동안 시점별로 이어짐.
    • 비휘발성: 일단 데이터가 적재되면 일괄 처리 작업에 의한 갱신 이외에는 변경 수행 X
  • 구성
    • 데이터 모델: 주제 중심적으로 구성된 다차원의 개체-관계형 모델로 설계
    • ETL: 기업의 내부 또는 외부로부터 데이터 추출, 정제 및 가공하여 데이터 웨어하우스에 적재
    • ODS: 다양한 DBMS 시스템에서 추출한 데이터를 통합적으로 관리
    • DW 메타데이터: 데이터 모델에 대한 스키마 정보와 비즈니스 측면에서 활용되는 정보 제공
    • OLAP: 사용자가 직접 다차원의 데이터 확인할 수 있는 솔루션
    • 데이터마이닝: 대용량 데이터 → 인사이트 도출 방법론
    • 분석 도구
    • 경영기반 솔루션: KMS, DSS, BI와 같은 경영의사결정 지원하기 위한 솔루션

03. 빅데이터 개요

1) 빅데이터의 등장과 변화

  • 데이터 처리 시점이 사전 처리(pre-processing) → 사후 처리(post-processing)로 이동
    • 기존에 필요한 정보만 수집하는 시스템 → 가능한 많은 데이터 모으고 다양한 방식으로 조합하여 숨은 정보를 얻는 방식으로 변화
  • 데이터 처리 범주가 표본조사 → 전수조사로 확대
    • 기술 발전으로 인한 데이터 처리비용 감소로 표본조사가 아닌 전수조사 → 샘플링이 주지 못하는 패턴이나 정보를 발견하는 방식으로 변화
  • 데이터의 가치 판단 기준이 질보다 양으로 중요도가 달라짐.
    • 데이터의 지속적 추가는 양질의 정보가 오류 정보보다 많아 전체적으로 좋은 결과를 산출하는 데 긍정적인 영향을 미친다는 추론을 바탕으로 변화
  • 데이터를 분석하는 방향이 이론적 인과관계 중심 → 단순한 상관관계로 변화
    • 데이터 기반의 상관관계 분석으로 특정 현상의 발생 가능성을 포착하여 대응하는 방식으로 변화

2) 빅데이터의 특징

  • 5V
    • 3V (Volume, Variety, Velocity) 
      • 가트너 그룹은 3V로 빅데이터 특징 설명
    • 2V (Veracity-품질, Value)
  • 전통적 데이터
    • 기가바이트 이하
    • 시간 또는 일 단위 처리
    • 정형 데이터
    • 중앙집중식 처리
    • Relational DBMS
  • 빅데이터
    • 테라바이트 이상
    • 실시간 처리
    • 정형+반정형, 비정형 데이터
    • 분산 처리
    • Hadoop, HDFS, Hbase, NoSQL 등

3) 빅데이터 활용

  • 빅데이터 활용을 위한 3요소
    • 자원
      • 빅데이터
    • 기술
      • 빅데이터플랫폼
    • 인력
      • 데이터사이언티스트
  • 기본 테크닉
    • 연관규칙학습
    • 유형분석
    • 유전 알고리즘: 최적화가 필요한 문제를 생물 진화의 과정을 모방하여 점진적으로 해결책을 찾는 방법
      • ex) 시청률을 최고치로 하기 위해 어떤 프로그램을 어떤 시간에 방송해야 하는가?
    • 기계학습
    • 회귀분석
    • 감정분석
    • 소셜네트워크(사회관계망) 분석

04. 빅데이터 가치

  • 빅데이터 기능과 효과
    • 고객 세분화와 맞춤형 개인화 서비스를 제공할 수 있음.
    • 알고리즘 기반으로 의사결정 지원하거나 이를 대신함.
  • 빅데이터 가치 측정의 어려움
    • 데이터 활용 방식
    • 가치 창출 방식: 데이터는 어떠한 목적을 갖고서 어떻게 가공하는가에 따라 기존에 없던 가치를 창출할 수도 있어 사전에 그 가치를 측정하기 어려움.
    • 분석 기술 발전
    • 데이터 수집 원가

05. 데이터 산업의 이해

1) 데이터 산업의 진화

 

데이터 산업은 데이터 처리 - 통합 - 분석 - 연결 - 권리 시대로 진화
  • 데이터 처리 시대
    • 업무 처리의 대상으로 새로운 가치 제공하지는 않음.
  • 데이터 통합 시대
    • 데이터 모델링과 데이터베이스 관리 시스템이 등장
  • 데이터 분석 시대
    • 대규모 데이터를 보관하고 관리할 수 있는 하둡, 스파크 등의 빅데이터 기술이 등장
  • 데이터 연결 시대
    • 연결 → 네트워크 → 새로운 비즈니스 모델 탄생
  • 데이터 권리 시대
    • 자신의 데이터에 대한 권리를 보유하고 있으며 스스로 행사할 수 있어야한다는 마이데이터(My Data) 등장
    • 데이터 권리를 개인이 갖게된다는 것 → 산업이 데이터를 중심으로 재편될 수 있다는 뜻
    • 개인이 자신의 데이터를 자신을 위해서 사용

2) 데이터 산업 구조

  • 인프라 영역
    • 데이터 수집, 저장, 분석, 관리 등의 기능 담당
    • 컴퓨터나 네트워크 장비 및 스토리지 같은 HW 영역
    • 데이터 관리 + 분석 → SW 영역
  • 서비스 영역
    • 데이터 그 자체를 제공하거나 이를 가공한 정보 제공
    • 데이터 처리하는 역할 담당하기도

06. 빅데이터 조직 및 인력

1) 필요성

  • 빅데이터와 관련된 기술적 문제들 → 기술 발전으로 어느정도 해소
  • 데이터 분석 및 활용을 위한 조직체계나 분석 전문가 확보에 어려움
  • 데이터 분석 관점의 컨트롤 타워에 대한 필요성 제기

2) 조직 역할

  • 전사 및 부서의 분석 업무 발굴
  • 전문적 분석 기법과 도구 활용 → 빅데이터 속에서 인사이트 찾아냄.
  • 발견한 인사이트 전파하고 이를 실행

3) 조직 구성

  • 데이터 분석 업무 수행 주체에 따른 조직구조
    • 집중형
      • 전사 분석 업무를 별도의 전담조직에서 수행
      • 내부에서 전사 분석과제의 전략적 중요도에 따라 우선순위 정함.
      • 현업 부서와 분석 업무가 중복/이원화 가능성
    • 기능형
      • 분석 수행의 일반적 구조
      • 각 현업 부서에서 분석 업무를 직접 수행
      • 전사적 관점 → 전략적 핵심 분석이 어려우며, 특정 현업 부서에 국한된 협소한 분석을 수행할 가능성
    • 분산형 
      • 분석 전문 인력을 현업 부서에 배치하여 분석 업무 수행
      • 전사 차원에서 분석과제의 우선순위를 선정하고 수행
      • 분석결과를 현업에 빠르게 적용 가능

분석전담조직(DSCoE)은 집중형, 분산형 조직에서는 필요하지만, 기능형 조직에서는 필요 X

 

4) 데이터 사이언스 역량

  • 데이터 사이언스 기능
    • 비즈니스 성과를 좌우하는 핵심이슈에 답할 수 있음.
    • 사업의 성과 견인 O
  • 데이터 사이언스 실현을 위한 인문학적 요소
    • 스토리텔링 능력
    • 커뮤니케이션 능력
    • 창의력과 직관력
    • 비판적 시각과 열정
  • 데이터 사이언스 한계
    • 분석 과정 → 인간의 해석이 개입되는 단계 불가피
    • 분석 결과 바라보는 시점에 따라 다른 해석 + 결론
    • 모든 분석은 가정에 근거

5) 데이터 사이언티스트

  • Hard Skill
    • 빅데이터에 대한 이론적 지식
    • 분석 기술에 대한 숙련
  • Soft Skill
    • 통찰력 있는 분석
    • 설득력 있는 전달
    • 다분야 간 협력