AYSTORY

[필기] 분석 작업 계획 본문

빅데이터분석기사

[필기] 분석 작업 계획

bye0nzn 2026. 3. 7. 14:08

01. 분석 작업 개요

분석 작업 계획을 수립하기 위해 데이터 처리 프로세스 전체에 대한 이해가 필요하며, 데이터 처리 영역과 데이터 분석 영역으로 나누어 살펴볼 수 있다.

  • 데이터 처리 영역: 데이터 분석을 위한 기초 데이터를 정의하고 수집 및 저장, 분석하기 수월하도록 물리적 환경을 제공하는 영역
    • 데이터 소스: 기업 내 각 부서나 서비스별 적재되고 있는 내부 데이터와 다른 기업이나 공공 데이터 등 외부 데이터
    • 데이터 수집: 사용자로부터 데이터를 직접 입력받거나 로그수집기, 크롤링, 센서네트워크 등을 통해 데이터 수집
    • 데이터 저장: 데이터를 유형별로 나눠서 최적 설계를 하여 데이터 스토리지에 저장
    • 데이터 처리: 저장된 대용량의 데이터를 신속하고 정확하게 처리하기 위하여 실시간 처리 및 분산 처리 등을 시도
  • 데이터 분석 영역: 저장되어 있는 데이터를 추출하여 분석 목적과 방법에 맞게 가공한 후, 데이터 분석을 직접 수행하고 그 결화 표현
    • 데이터 분석
      • 도메인 이슈 도출
      • 분석목표 수립
      • 프로젝트 계획 수립
      • 보유 데이터 자산 확인
    • 데이터 표현
      • 빅데이터 분석 결과 시각화

02. 데이터 확보 계획

  • 데이터 확보를 위한 사전 검토사항
    • 필요 데이터 정의
    • 보유 데이터 현황파악
    • 분석 데이터 유형
    • 편향되지 않고 충분한 양의 데이터 규모
    • 내부 데이터의 사용
      • 개인정보일 경우 비식별 조치방안 함께 고려
    • 외부 데이터 수집
    • 데이터 수집 방법
      • 설문조사
      • 관찰
      • 실험
      • 웹 크롤링
      • 소셜 미디어 분석
      • 데이터베이스 및 기존 데이터 활용
      • FGI(Focused Group Interview, 집단면접)
      • 스크래퍼: 웹 스크래핑을 수행하는 프로그램이나 도구
  • 분석에 필요한 변수 정의
    • 데이터 수집 계획
    • 분석 변수 정의
  • 분석 변수 생성 프로세스 정의
    • 객관적 사실(Fact) 기반의 문제 접근
    • 데이터 상관 분석
    • 프로토타입을 통한 분석 변수 접근
      • 문제 인식 수준 확인
      • 필요 데이터 존재 여부
      • 사용 목적에 따른 가변성 검증
  • 생성된 분석 변수의 정제를 위한 점검항목 정의
    • 분석 기획 단계에서 도출된 문제 인식, 해결을 위한 개념적 대안 설계를 통해 도출된 데이터에 대해 가용성을 평가하고 점검항목 정의
    • 분석 변수 점검의 필요성
    • 분석 변수 점검항목 정의
      • 데이터 수집: 데이터 적정성 / 가용성 / 대체 분석 데이터 유무
      • 데이터 적합성: 데이터 중복 / 분석 변수별 범위 / 분석 변수별 연관성 / 데이터 내구성
      • 특징 변수: 특징 변수 사용 / 변수 간 결합 가능 여부
      • 타당성: 편익/비용 검증 / 기술적 타당성
  • 생성된 분석 변수의 전처리 방법 수립
    • 데이터 전처리 수행
      • 데이터 정제
      • 데이터 통합
      • 데이터 축소
      • 데이터 변환
    • 빅데이터 분석 프로세스 수행
    • 데이터 전처리 방안 수립
      • 정제(Cleaning): 모순점 포착 / 메타데이터 확인
      • 통합/축소(Integration): 데이터 통합
      • 변환(Transformation): 데이터 변환
  • 생성 병수의 검증 방안 수립
    • 분석 변수의 데이터 검증 방안 수립
      • 품질 검증 정의: 대량 데이터 / 정밀 데이터 / 데이터 출처 불명확
      • 정확성 / 완전성 / 적시성(소명성이 강한 데이터에 대한 품질 기준 판단) / 일관성
    • 데이터 검증 체계 수립
Q. 데이터 확보를 위한 사전 검토사항으로 틀린 것은?
1) 분석 목적에 맞는 데이터를 정의하고, 필요한 데이터를 확보할 수 있는지 확인하여야 하며, 확보할 수 없다면 대안을 함께 고려
2) 사전에 정의한 데이터 존재 여부와 분석 품질을 보장할 만큼 데이터 품질이 우수한지, 충분한 양이 존재하는지 확인
3) 분석 대상에 대해 객관적으로 인식하고 논리적 인과관계 분석 및 데이터 간 상관관계 분석을 위한 분석 변수 생성 프로세스 정의 → 데이터 확보를 위한 사전 검토 대상 아님.
4) 어떤 데이터를 어떤 기법을 이용하여 분석할 것인지 수립된 계획에 따라 데이터 유형을 선택하고 변수를 정의

 

03. 분석 절차와 작업 계획

  • 분석 절차
    • 특징
      • 분석 방법론을 구성하는 최소 요건
      • 상황에 따라 단계를 추가할 수도, 생략할 수도.
    • 절차 비교
      • 일반적 데이터 분석 절차: 문제 인식, 연구 조사 - 모형화, 데이터 수집, 데이터 분석 - 분석 결과 제시
      • NCS 데이터 분석 절차: 도메인 이슈 도출, 분석목표 수립 - 프로젝트 계획 수립, 보유 데이터 자산 확인 - 데이터 분석결과 시각화
      • 단계별 산출물: 데이터 요건 정의서, 분석목표 정의서 - 작업분할구조도, 데이터 품질 보고서 - 분석 보고서
    • 일반적 분석 절차
      • 문제 인식
      • 연구조사
      • 모형화
      • 데이터 수집
      • 데이터 분석
      • 분석 결과 제시
    • 분석 절차 적용 시 고려사항
  • 작업 계획
    • 분석 작업 계획 수립
      • 프로젝트 소요비용 배분
      • 프로젝트 작업분할구조 수립
      • 프로젝트 업무 분량 계획 및 배분
    • 분석 작업 계획 수립을 위한 작업분할구조(WBS; Work Breakdown Structure) 작성
      • 데이터 분석과제 정의
      • 데이터 준비 및 탐색
      • 데이터 분석 모델링 및 검증
      • 산출물 정리
  • 분석목표정의서
    • 원천 데이터 조사
      • 데이터 정보
      • 데이터 수집 난이도
    • 분석 방안 및 적용 가능성 판단
      • 성과평가 기준
        • 정성적
        • 정량적

04. 분석 프로젝트 관리

  • 분석 프로젝트
    • 과제 형태로 도출된 분석 기회를 프로젝트화하여 그 가치를 증명하기 위한 수단
    • 추가적 속성
      • 데이터 크기
      • 데이터 복잡도
      • 속도
      • 분석 모형의 복잡도: 분석 모형의 정확도와 복잡도는 Trade off 관계 (분석 모형이 복잡할수록 정확도 상승)
      • 정확도와 정밀도

1. A (낮은 정확도, 낮은 정밀도)
- 예측값들이 실제값들과 멀리 떨어져 있고 예측값끼리도 멀리 떨어져 있음.
- bias(편향)도 높고 variance(분산)도 높음.

2. B (낮은 정확도, 높은 정밀도)
- 예측값들이 실제값들과 멀리 떨어져 있지만 예측값끼리는 모여 있음.
- bias는 높고 variance는 낮음.

3. C (높은 정확도, 낮은 정밀도)
- 예측값은 실제값에 가까우나, 예측값끼리는 떨어져 있음.
- bias는 낮고 variance는 높음.

4. D (높은 정확도, 높은 정밀도)
- 예측값들과 실제값이 거의 같으며 모여 있음.
- bias와 variance 모두 낮음.

  • 분석 프로젝트 관리
  • 분석 프로젝트의 영역별 주요 관리 항목
    1. 범위 관리
    2. 일정 관리
    3. 원가 관리
    4. 품질 관리
    5. 통합 관리
    6. 조달 관리: 상황에 따라 적합한 범위 내에서 외부에 아웃소싱 수행
    7. 인적자원 관리
    8. 위험 관리
    9. 의사소통 관리
    10. 이해관계자 관리