분석이 필요한 데이터 속성을 세부적으로 파악, 처리한 뒤 분석 모형을 선정, 적합한 분석 기법 선택
분석 목적 설정
의사 결정
불확실성 해소
요약
인과관계 파악
예측
분석 모형 선정 프로세스
문제요건 정의 또는 비즈니스 이해에 따른 대상 데이터 선정과 분석 목표/조건 정의
데이터 수집, 정리 및 도식화
데이터 전처리(데이터 정제, 종속/독립변수 선정, 데이터 변환, 데이터 통합, 데이터 축소 등)
최적의 분석 모형 선정
Q. 주요 데이터 분석 목적으로 적합하지 않은 항목? 1) 사업 추진에서 여러 대안들 중 하나 선택 2) 논문 쓰기 위해 실험했는데 정리 3) 미세먼지 예측하기 위해 센서 설치 4) 과거에 따랐던 지침이 유효하다는 판단에 따라 행동 (X) → 데이터 분석의 주요 목적은 현황을 분석하여 현재 상황을 정리 및 개선 또는 미래의 의사결정, 예측을 하기 위함임.
02. 분석 모형 정의
분석 모형 정의와 종류
예측 분석 모형: "어떤 일들이 발생할 것인가?"
현황 진단 모형: "과거에 어떠한 상황이 왜 어떻게 일어났는가? 그리고 현재 어떠한 상태인가?"
최적화 분석 모형: "어떻게 하면 원하는 결과가 일어날 수 있을까?"
분석 모형 정의를 위한 고려사항
분석 진행 전 상황에 맞는 평가 기준표, 테이블을 작성하여 항목별로 점수를 부여하고 총점 매긴 후 분석 모형 정의의 가능성 판별 가능
추진시급성과 구현가능성만으로 분석 모형 정의를 위한 사전 판별 기준 활용이 가능
관련 과거 분석 사례 또는 솔루션을 최대한 활용할 수 있는지 검토
상향식(Bottom-up) 접근
문제 정의가 어려울 경우, 많은 양의 데이터 분석을 통해 인사이트 도출
특정 영역 지정하여 의사결정 지점으로 진행하는 과정에서 분석 과제를 발굴하는 방식
하향식(Top-down) 접근
문제 정의가 가능할 시 문제 탐색과 연관되어 비즈니스 모델, 외부 참조 모델, 분석 유스케이스 기반 모델로 발굴하는 방식 적용
비즈니스 모델은 어떻게 수익을 창출할 것인가에 대한 검증으로 문제해결 위한 분석 과제를 발굴하며 외부 참조 모델은 벤치마킹으로 분석 테마 후보 Pool 구축, 선택
분석 유스케으스는 문제에 대한 상세 설명과 해결 시 효과에 대해 명시함으로써 구체적인 분석 과제들 도출
Q. 현황 분석을 통해 인식된 문제를 해결하기 위해 과거 유사한 분석 테마 후보에서 분석 과제를 도출하는 접근법? A. 외부 참조 모델 기반 접근
03. 분석 모형 구축 절차
분석 시나리오 작성
분석 과정과 결과가 어떻게 활용되는지 명확하게 이해 가능
분석 모형 설계
분석 모형 설계 시 사전 확인 사항
필요한 데이터 항목이 정해졌는가?
데이터 단위 고려, 항목에 따른 표준화 방법 정했는가?
데이터 수집 항목에 따라, 단계별로 모델이 설계되었는가?
분석 검증 통계 기법을 선정하였는가?
분석 모델링 설계와 검정
분석 목적 기반 가설검정 방법 수립
추정방법에 대한 기술 검토
분석 모델링 설계와 검정 방법 수립
분석 모델링에 적합한 알고리즘 설계
비지도학습: 군집분석, 연관성분석, 오토인코더 등
지도학습: 의사결정트리, 랜덤 포레스트, 서포트벡터머신, 회귀분석 등
준지도학습: 셀프 트레이닝, 적대적 생성 모델 등
강화학습: Q-Learning, 정책경사(PG: Policy Gradient) 등
분석 모형 개발 및 테스트
모듈 기능 정의
모듈 설계
모듈 개발 결과물과 모델 설계 일치 확인
모듈의 정상 동작 여부 검증
분석 모델링 설계와 검정 - 분석 목적에 기반한 가설검정 방법
유의수준 결정, 귀무가설과 대립가설 설정
검정통계량 설정
기각역 설정
검정통계량 계산
통계적 의사결정(가설검정)
대립가설이 ~가 아니다(크거나 작다)라면 양측검정 사용
대립가설이 ~보다 작다 혹은 크다인 경우 단측검정 사용
분석 모델링 설계와 검정 - 추정 방법에 대한 기술 검토
전체적으로 데이터에 대한 전처리 과정을 마치게 되면 모형에 활용될 수보 변수와 후보 분석 모형에 사용할 알고리즘 파악하게 됨.
분석 모형은 크게 분류예측 추천 등의 예측 분석, 과거 데이터를 기반해 현재를 진단하는 현황 진단, 시뮬레이션과 제한된 환경 최적화를 모색하는 예측 최적화로 나누어짐.
종속 변수의 유무에 따라 사용할 알고리즘이 제한 받음.
예를 들어 종속 변수가 없으면 사용 가능한 알고리즘이 군집과 원인 분석, 이상치, 연관 법칙 등으로 제한됨.
또한, 변수의 속성에 따라 알고리즘의 선택이 달라짐.
Q. 분석 모형 선정 시 ( )가 없는 경우 지도학습 알고리즘을 적용하기 어렵기 때문에 비지도학습으로만 분석을 수행할 수 있다. A. 종속 변수