AYSTORY
[필기] 빅데이터의 개요 및 활용 본문
01. 빅데이터 분석 기획
Ch1. 빅데이터의 이해
01. 데이터와 정보
1) 데이터 정의
- 데이터는 추론과 추정의 근거를 이루는 사실
- 현실 세계에서 관찰/측정 → 수집한 사실
2) 데이터 특징
- 단순한 객체로도 가치가 있으며 다른 객체와의 상호관계 속에서 더 큰 가치를 가짐.
- 객관적 사실이라는 존재적 특성
3) 데이터 구분
- 정량적 데이터: 주로 숫자
- 정성적 데이터: 문자와 같은 텍스트 / 함축적 의미
- ex) 철수가 시험에 합격하였다.
| 정량적 데이터 | 정성적 데이터 | |
| 유형 | 정형, 반정형 데이터 | 비정형 데이터 |
| 특징 | 여러 요소의 결합으로 의미 부여 | 객체 하나가 함축된 의미 내포 |
| 관점 | 주로 객관적 | 주로 주관적 |
| 구성 | 수치나 기호 등 | 문자나 언어 등 |
| 형태 | DB, 스프레드시트 등 | 웹 로그, 텍스트 파일 등 |
| 위치 | DBMS, 로컬 시스템 등 내부 | 웹사이트, 모바일 플랫폼 등 외부 |
| 분석 | 통계 분석 시 용이 | 통계 분석시 어려움 |
4) 데이터 유형
- 정형 데이터: 정해진 형식과 구조 / 연산이 가능
- 관계형 데이터베이스의 테이블에 저장되는 데이터 등
- 반정형 데이터: 스키마 정보를 데이터와 함께 제공하는 파일 형식의 데이터 / 연산 불가능
- JSON, XML, RDF, HTML 등
- 비정형 데이터: 구조가 정해지지 않은 대부분의 데이터
- 동영상, 이미지, 음성, 문서, 메일 등
5) 데이터 근원에 따른 분류
| 가역 데이터 | 불가역 데이터 | |
| 환원성(추적성) | 가능 (비가공 데이터) | 불가능 (가공데이터) |
| 의존성 | 원본 데이터 그 자체 | 원본 데이터와 독립된 새 객체 |
| 원본과의 관계 | 1:1 | 1:N, N:1, M:N |
| 처리과정 | 탐색 | 결합 |
| 활용분야 | 데이터 마트, 데이터 웨어하우스 | 데이터 전처리, 프로파일 구성 |
6) 데이터 기능
- 암묵지: 어떤 시행착오나 다양하고 오랜 경험 → 개인에게 체계화 / 외부에 표출되지 않은 무형의 지식으로 전달과 공유 어려움.
- 형식지: 형상화된 유형의 지식 → 전달과 공유 쉬움.
7) 지식창조 메커니즘
- 공통화: 서로 경험이나 인식 공유 → 한 차원 높은 암묵지로 발전
- 표출화: 암묵지 구체화 → 외부(형식지)로 표현
- 연결화: 형식지 재분류 → 체계화
- 내면화: 전달받은 형식지 → 개인의 것으로 만듦.
8) 데이터, 정보, 지식, 지혜
지혜 ▶ 지식 ▶ 정보 ▶ 데이터
02. 데이터베이스
1) 데이터베이스 정의
- 소재를 체계적으로 배열 또는 구성한 편집물로서 개별적으로 그 소재에 접근하거나 그 소재를 검색할 수 있도록 한 것
2) 데이터베이스 관리 시스템 DBMS(DataBase Management System)
- 종류
- 관계형 DBMS: 데이터를 열과 행을 이루는 테이블로 표현
- 객체지향 DBMS: 정보를 객체 형태로 표현
- 네트워크 DBMS: 그래프 구조를 기반으로 하는 모델
- 계층형 DBMS: 트리 구조 기반
- SQL (Structured Query Language)
- 단순한 질의 기능뿐만 아니라 데이터 정의와 조작 기능 O
3) 데이터베이스 특징
- 통합된 데이터 (Integrated)
- 중복 X
- 저장된 데이터 (Stored)
- 공용 데이터 (Shared)
- 변화되는 데이터 (Changed)
4) 데이터베이스 활용
- OTLP (OnLine Transaction Processing)
- 호스트 컴퓨터와 온라인으로 접속된 여러 단말 간 처리 형태의 하나로 데이터베이스의 데이터를 수시로 갱신하는 프로세싱
- 여러 단말에서 보내온 메시지에 따라 호스트 컴퓨터가 데이터베이스를 액세스하고, 바로 처리 결과를 돌려보내는 형태
- 현재 시점의 데이터만을 데이터베이스가 관리한다는 개념
- 데이터 갱신 위주
- OLAP (OnLine Analytical Processing)
- 정보 위주의 분석 처리를 하는 것
- OLTP에서 처리된 트랜잭션 데이터를 분석해 제품의 판매 추이, 구매 성향 파악, 재무 회계 분석 등을 프로세싱
- 다양한 비즈니스 관점에서 쉽고 빠르게 다차원적 데이터에 접근 → 의사결정에 활용할 수 있는 정보 얻을 수 있게 하는 기술
- 데이터 조회 위주
| 구분 | OTLP | OLAP |
| 데이터 구조 | 복잡 | 단순 |
| 데이터 갱신 | 동적으로 순간적 | 정적으로 주기적 |
| 응답 시간 | 수 초 이내 | 수 초 ~ 몇분 |
| 데이터 범위 | 수 십일 전후 | 오랜 기간 저장 |
| 데이터 성격 | 정규적 핵심 데이터 | 비정규적 읽기 전용 데이터 |
| 데이터 크기 | 수 기가바이트 | 수 테라바이트 |
| 데이터 내용 | 현재 데이터 | 요약 데이터 |
| 데이터 특성 | 트랜잭션 중심 | 주제 중심 |
| 데이터 액세스 빈도 | 높음 | 보통 |
| 질의 결과 예측 | 주기적이며 예측 가능 | 예측 어려움 |
5) 데이터 웨어하우스 (DW: Data Warehouse)
- 사용자 의사결정에 도움을 주기 위해 기간 시스템의 데이터베이스에 축적된 데이터를 공통된 형식으로 변환해서 관리하는 데이터베이스
- 일정한 시간 동안의 데이터를 축적하고 의사결정을 위한 다양한 분석 작업 수행
- 특징
- 주제지향성
- 통합성: 데이터가 데이터 웨어하우스에 입력될 때는 일관된 형태로 변환 + 전사적 관점에서 통합
- 시계열성: 일정기간동안 시점별로 이어짐.
- 비휘발성: 일단 데이터가 적재되면 일괄 처리 작업에 의한 갱신 이외에는 변경 수행 X
- 구성
- 데이터 모델: 주제 중심적으로 구성된 다차원의 개체-관계형 모델로 설계
- ETL: 기업의 내부 또는 외부로부터 데이터 추출, 정제 및 가공하여 데이터 웨어하우스에 적재
- ODS: 다양한 DBMS 시스템에서 추출한 데이터를 통합적으로 관리
- DW 메타데이터: 데이터 모델에 대한 스키마 정보와 비즈니스 측면에서 활용되는 정보 제공
- OLAP: 사용자가 직접 다차원의 데이터 확인할 수 있는 솔루션
- 데이터마이닝: 대용량 데이터 → 인사이트 도출 방법론
- 분석 도구
- 경영기반 솔루션: KMS, DSS, BI와 같은 경영의사결정 지원하기 위한 솔루션
03. 빅데이터 개요
1) 빅데이터의 등장과 변화
- 데이터 처리 시점이 사전 처리(pre-processing) → 사후 처리(post-processing)로 이동
- 기존에 필요한 정보만 수집하는 시스템 → 가능한 많은 데이터 모으고 다양한 방식으로 조합하여 숨은 정보를 얻는 방식으로 변화
- 데이터 처리 범주가 표본조사 → 전수조사로 확대
- 기술 발전으로 인한 데이터 처리비용 감소로 표본조사가 아닌 전수조사 → 샘플링이 주지 못하는 패턴이나 정보를 발견하는 방식으로 변화
- 데이터의 가치 판단 기준이 질보다 양으로 중요도가 달라짐.
- 데이터의 지속적 추가는 양질의 정보가 오류 정보보다 많아 전체적으로 좋은 결과를 산출하는 데 긍정적인 영향을 미친다는 추론을 바탕으로 변화
- 데이터를 분석하는 방향이 이론적 인과관계 중심 → 단순한 상관관계로 변화
- 데이터 기반의 상관관계 분석으로 특정 현상의 발생 가능성을 포착하여 대응하는 방식으로 변화
2) 빅데이터의 특징
- 5V
- 3V (Volume, Variety, Velocity)
- 가트너 그룹은 3V로 빅데이터 특징 설명
- 2V (Veracity-품질, Value)
- 3V (Volume, Variety, Velocity)
- 전통적 데이터
- 기가바이트 이하
- 시간 또는 일 단위 처리
- 정형 데이터
- 중앙집중식 처리
- Relational DBMS
- 빅데이터
- 테라바이트 이상
- 실시간 처리
- 정형+반정형, 비정형 데이터
- 분산 처리
- Hadoop, HDFS, Hbase, NoSQL 등
3) 빅데이터 활용
- 빅데이터 활용을 위한 3요소
- 자원
- 빅데이터
- 기술
- 빅데이터플랫폼
- 인력
- 데이터사이언티스트
- 자원
- 기본 테크닉
- 연관규칙학습
- 유형분석
- 유전 알고리즘: 최적화가 필요한 문제를 생물 진화의 과정을 모방하여 점진적으로 해결책을 찾는 방법
- ex) 시청률을 최고치로 하기 위해 어떤 프로그램을 어떤 시간에 방송해야 하는가?
- 기계학습
- 회귀분석
- 감정분석
- 소셜네트워크(사회관계망) 분석
04. 빅데이터 가치
- 빅데이터 기능과 효과
- 고객 세분화와 맞춤형 개인화 서비스를 제공할 수 있음.
- 알고리즘 기반으로 의사결정 지원하거나 이를 대신함.
- 빅데이터 가치 측정의 어려움
- 데이터 활용 방식
- 가치 창출 방식: 데이터는 어떠한 목적을 갖고서 어떻게 가공하는가에 따라 기존에 없던 가치를 창출할 수도 있어 사전에 그 가치를 측정하기 어려움.
- 분석 기술 발전
- 데이터 수집 원가
05. 데이터 산업의 이해
1) 데이터 산업의 진화
데이터 산업은 데이터 처리 - 통합 - 분석 - 연결 - 권리 시대로 진화
- 데이터 처리 시대
- 업무 처리의 대상으로 새로운 가치 제공하지는 않음.
- 데이터 통합 시대
- 데이터 모델링과 데이터베이스 관리 시스템이 등장
- 데이터 분석 시대
- 대규모 데이터를 보관하고 관리할 수 있는 하둡, 스파크 등의 빅데이터 기술이 등장
- 데이터 연결 시대
- 연결 → 네트워크 → 새로운 비즈니스 모델 탄생
- 데이터 권리 시대
- 자신의 데이터에 대한 권리를 보유하고 있으며 스스로 행사할 수 있어야한다는 마이데이터(My Data) 등장
- 데이터 권리를 개인이 갖게된다는 것 → 산업이 데이터를 중심으로 재편될 수 있다는 뜻
- 개인이 자신의 데이터를 자신을 위해서 사용
2) 데이터 산업 구조
- 인프라 영역
- 데이터 수집, 저장, 분석, 관리 등의 기능 담당
- 컴퓨터나 네트워크 장비 및 스토리지 같은 HW 영역
- 데이터 관리 + 분석 → SW 영역
- 서비스 영역
- 데이터 그 자체를 제공하거나 이를 가공한 정보 제공
- 데이터 처리하는 역할 담당하기도
06. 빅데이터 조직 및 인력
1) 필요성
- 빅데이터와 관련된 기술적 문제들 → 기술 발전으로 어느정도 해소
- 데이터 분석 및 활용을 위한 조직체계나 분석 전문가 확보에 어려움
- 데이터 분석 관점의 컨트롤 타워에 대한 필요성 제기
2) 조직 역할
- 전사 및 부서의 분석 업무 발굴
- 전문적 분석 기법과 도구 활용 → 빅데이터 속에서 인사이트 찾아냄.
- 발견한 인사이트 전파하고 이를 실행
3) 조직 구성
- 데이터 분석 업무 수행 주체에 따른 조직구조
- 집중형
- 전사 분석 업무를 별도의 전담조직에서 수행
- 내부에서 전사 분석과제의 전략적 중요도에 따라 우선순위 정함.
- 현업 부서와 분석 업무가 중복/이원화 가능성
- 기능형
- 분석 수행의 일반적 구조
- 각 현업 부서에서 분석 업무를 직접 수행
- 전사적 관점 → 전략적 핵심 분석이 어려우며, 특정 현업 부서에 국한된 협소한 분석을 수행할 가능성
- 분산형
- 분석 전문 인력을 현업 부서에 배치하여 분석 업무 수행
- 전사 차원에서 분석과제의 우선순위를 선정하고 수행
- 분석결과를 현업에 빠르게 적용 가능
- 집중형

4) 데이터 사이언스 역량
- 데이터 사이언스 기능
- 비즈니스 성과를 좌우하는 핵심이슈에 답할 수 있음.
- 사업의 성과 견인 O
- 데이터 사이언스 실현을 위한 인문학적 요소
- 스토리텔링 능력
- 커뮤니케이션 능력
- 창의력과 직관력
- 비판적 시각과 열정
- 데이터 사이언스 한계
- 분석 과정 → 인간의 해석이 개입되는 단계 불가피
- 분석 결과 바라보는 시점에 따라 다른 해석 + 결론
- 모든 분석은 가정에 근거
5) 데이터 사이언티스트
- Hard Skill
- 빅데이터에 대한 이론적 지식
- 분석 기술에 대한 숙련
- Soft Skill
- 통찰력 있는 분석
- 설득력 있는 전달
- 다분야 간 협력
'빅데이터분석기사' 카테고리의 다른 글
| [필기] 데이터 적재 및 저장 (0) | 2026.03.08 |
|---|---|
| [필기] 데이터 수집 및 전환 (0) | 2026.03.07 |
| [필기] 분석 작업 계획 (0) | 2026.03.07 |
| [필기] 분석 방안 수립 (0) | 2026.03.04 |
| [필기] 빅데이터 기술 및 제도 (0) | 2026.02.12 |
