분석 작업 계획을 수립하기 위해 데이터 처리 프로세스 전체에 대한 이해가 필요하며, 데이터 처리 영역과 데이터 분석 영역으로 나누어 살펴볼 수 있다.
데이터 처리 영역: 데이터 분석을 위한 기초 데이터를 정의하고 수집 및 저장, 분석하기 수월하도록 물리적 환경을 제공하는 영역
데이터 소스: 기업 내 각 부서나 서비스별 적재되고 있는 내부 데이터와 다른 기업이나 공공 데이터 등 외부 데이터
데이터 수집: 사용자로부터 데이터를 직접 입력받거나 로그수집기, 크롤링, 센서네트워크 등을 통해 데이터 수집
데이터 저장: 데이터를 유형별로 나눠서 최적 설계를 하여 데이터 스토리지에 저장
데이터 처리: 저장된 대용량의 데이터를 신속하고 정확하게 처리하기 위하여 실시간 처리 및 분산 처리 등을 시도
데이터 분석 영역: 저장되어 있는 데이터를 추출하여 분석 목적과 방법에 맞게 가공한 후, 데이터 분석을 직접 수행하고 그 결화 표현
데이터 분석
도메인 이슈 도출
분석목표 수립
프로젝트 계획 수립
보유 데이터 자산 확인
데이터 표현
빅데이터 분석 결과 시각화
02. 데이터 확보 계획
데이터 확보를 위한 사전 검토사항
필요 데이터 정의
보유 데이터 현황파악
분석 데이터 유형
편향되지 않고 충분한 양의 데이터 규모
내부 데이터의 사용
개인정보일 경우 비식별 조치방안 함께 고려
외부 데이터 수집
데이터 수집 방법
설문조사
관찰
실험
웹 크롤링
소셜 미디어 분석
데이터베이스 및 기존 데이터 활용
FGI(Focused Group Interview, 집단면접)
스크래퍼: 웹 스크래핑을 수행하는 프로그램이나 도구
분석에 필요한 변수 정의
데이터 수집 계획
분석 변수 정의
분석 변수 생성 프로세스 정의
객관적 사실(Fact) 기반의 문제 접근
데이터 상관 분석
프로토타입을 통한 분석 변수 접근
문제 인식 수준 확인
필요 데이터 존재 여부
사용 목적에 따른 가변성 검증
생성된 분석 변수의 정제를 위한 점검항목 정의
분석 기획 단계에서 도출된 문제 인식, 해결을 위한 개념적 대안 설계를 통해 도출된 데이터에 대해 가용성을 평가하고 점검항목 정의
분석 변수 점검의 필요성
분석 변수 점검항목 정의
데이터 수집: 데이터 적정성 / 가용성 / 대체 분석 데이터 유무
데이터 적합성: 데이터 중복 / 분석 변수별 범위 / 분석 변수별 연관성 / 데이터 내구성
특징 변수: 특징 변수 사용 / 변수 간 결합 가능 여부
타당성: 편익/비용 검증 / 기술적 타당성
생성된 분석 변수의 전처리 방법 수립
데이터 전처리 수행
데이터 정제
데이터 통합
데이터 축소
데이터 변환
빅데이터 분석 프로세스 수행
데이터 전처리 방안 수립
정제(Cleaning): 모순점 포착 / 메타데이터 확인
통합/축소(Integration): 데이터 통합
변환(Transformation): 데이터 변환
생성 병수의 검증 방안 수립
분석 변수의 데이터 검증 방안 수립
품질 검증 정의: 대량 데이터 / 정밀 데이터 / 데이터 출처 불명확
정확성 / 완전성 / 적시성(소명성이 강한 데이터에 대한 품질 기준 판단) / 일관성
데이터 검증 체계 수립
Q. 데이터 확보를 위한 사전 검토사항으로 틀린 것은? 1) 분석 목적에 맞는 데이터를 정의하고, 필요한 데이터를 확보할 수 있는지 확인하여야 하며, 확보할 수 없다면 대안을 함께 고려 2) 사전에 정의한 데이터 존재 여부와 분석 품질을 보장할 만큼 데이터 품질이 우수한지, 충분한 양이 존재하는지 확인 3) 분석 대상에 대해 객관적으로 인식하고 논리적 인과관계 분석 및 데이터 간 상관관계 분석을 위한 분석 변수 생성 프로세스 정의→ 데이터 확보를 위한 사전 검토 대상 아님. 4) 어떤 데이터를 어떤 기법을 이용하여 분석할 것인지 수립된 계획에 따라 데이터 유형을 선택하고 변수를 정의
03. 분석 절차와 작업 계획
분석 절차
특징
분석 방법론을 구성하는 최소 요건
상황에 따라 단계를 추가할 수도, 생략할 수도.
절차 비교
일반적 데이터 분석 절차: 문제 인식, 연구 조사 - 모형화, 데이터 수집, 데이터 분석 - 분석 결과 제시
NCS 데이터 분석 절차: 도메인 이슈 도출, 분석목표 수립 - 프로젝트 계획 수립, 보유 데이터 자산 확인 - 데이터 분석결과 시각화
단계별 산출물: 데이터 요건 정의서, 분석목표 정의서 - 작업분할구조도, 데이터 품질 보고서 - 분석 보고서
일반적 분석 절차
문제 인식
연구조사
모형화
데이터 수집
데이터 분석
분석 결과 제시
분석 절차 적용 시 고려사항
작업 계획
분석 작업 계획 수립
프로젝트 소요비용 배분
프로젝트 작업분할구조 수립
프로젝트 업무 분량 계획 및 배분
분석 작업 계획 수립을 위한 작업분할구조(WBS; Work Breakdown Structure) 작성
데이터 분석과제 정의
데이터 준비 및 탐색
데이터 분석 모델링 및 검증
산출물 정리
분석목표정의서
원천 데이터 조사
데이터 정보
데이터 수집 난이도
분석 방안 및 적용 가능성 판단
성과평가 기준
정성적
정량적
04. 분석 프로젝트 관리
분석 프로젝트
과제 형태로 도출된 분석 기회를 프로젝트화하여 그 가치를 증명하기 위한 수단
추가적 속성
데이터 크기
데이터 복잡도
속도
분석 모형의 복잡도: 분석 모형의 정확도와 복잡도는 Trade off 관계 (분석 모형이 복잡할수록 정확도 상승)
정확도와 정밀도
1. A (낮은 정확도, 낮은 정밀도) - 예측값들이 실제값들과 멀리 떨어져 있고 예측값끼리도 멀리 떨어져 있음. - bias(편향)도 높고 variance(분산)도 높음.
2. B (낮은 정확도, 높은 정밀도) - 예측값들이 실제값들과 멀리 떨어져 있지만 예측값끼리는 모여 있음. - bias는 높고 variance는 낮음.
3. C (높은 정확도, 낮은 정밀도) - 예측값은 실제값에 가까우나, 예측값끼리는 떨어져 있음. - bias는 낮고 variance는 높음.
4. D (높은 정확도, 높은 정밀도) - 예측값들과 실제값이 거의 같으며 모여 있음. - bias와 variance 모두 낮음.