종류; 군집분석(Clustering), 연관성분석(Association Analysis), 인공신경망(Neural Networks), 오토인코더(Auto-encoder) 등
준지도학습
정답이 있는 데이터와 정답이 없는 데이터를 동시에 학습에 사용
레이블이 된 소수의 데이터만으로 부분학습모델을 만들고, 이 모델을 사용해서 나머지 레이블이 없는 데이터에 레이블을 생성한 후 지도학습 수행함.
종류; 셀프 트레이닝, GAN 등
셀프 트레이닝: 정답이 있는 데이터로 모델을 학습한 뒤 정답이 없는 데이터를 예측하여 이 중에서 가장 확률값이 높은 데이터들만 정답 데이터로 다시 가져가는 방식을 반복하는 것으로 높은 확률값이 나오는 데에 가중치를 주는 간단한 기법
GAN(Generative Adversarial Networks): 생성모델(generative model)과 판별모델(distriminative model)이 존재하여 생성모델에서 데이터 분포 법칙에 따라 데이터를 생성하면 판별 모델에서는 이를 판별하는 방식으로 학습 진행
비유: 위조지폐범(진짜 같은 화폐를 만들어 경찰 속이려 함) vs. 경찰(진짜와 가짜 화폐 판별함으로써 위조지폐범 검거하고자 함) → 이러한 경쟁적 학습이 지속되면 위조지폐범이 진짜와 거의 흡사한 수준의 위조지폐 만들게 됨.
강화학습
주어진 상황에서 보상을 최대화하도록 에이전트를 학습하는 기법
종류; Q-Learning, 정책경사(PG; Policy Gradient)
데이터분석 알고리즘과 분야
업리프트 모델링 - 단계적 추정, 예측 분석
A/B테스트와 같이 환경이나 조건을 달리한 후에 적당한 그룹을 선택 → 마케팅이나 신용 관리, 채널, 가격 선택, 고객 이탈 관리 등 다양한 분야에 사용
생존분석 - 의료 통계, 설비 분야 사건 예측
회귀분석 - 예측, 추정 분석
로지스틱 회귀분석 → 이진분류에 자주 활용
시각화 - 원인과 관계 분석
기초통계 - 기초 통계현황 파악
부스팅, 배깅 - 분류 분석
시계열분석 - 시간상의 예측(이자율)
요인분석 - 차원축소
텍스트 마이닝 - 감성 분석
의사결정 나무, 랜덤포레스트 - 분류
신경 회로망 - 예측 분석
군집분석 - 독립변수들만의 분류, 그룹화
추천-협업 필터링 - 아이템과 이용자 간 상호 분석 통한 추천
앙상블 기법 - 추정, 예측, 규범 등의 결합 분석
소셜네트워크 분석 - 관계망 분석
서포트벡터머신(SVM) - 분류 분석
주성분분석 - 원인분석, 차원축소
02. 회귀분석
특정 변수가 다른 변수에 어떤 영향을 미치는지 수학적 모형으로 설명, 예측하는 기법
독립변수로 종속변수를 예측하는 기법
독립변수: 입력값 / 원인 설명 변수
종속변수: 결과값 / 효과 설명 변수
회귀선(회귀계수): 독립변수가 주어질 때 종속변수의 기댓값 → 일반적으로 최소제곱법 이용
최소제곱법(최소자승법): 잔차(residual, 관측값 y와 예측값 y 간의 차이) 제곱의 합이 최소가 되도록하는 직선 찾기
회귀 분석 모형 진단
적합도 검정: 추정된 회귀식이 표본의 실제값을 얼마나 잘 설명하는지에 대해 확인하는 방법(R²가 대표적)
변수 영향력 분석: 종속변수에 독립변수들이 얼마큼 영향력 미치는지 회귀변수의 통계적 유의성 검정, 회귀 계수 추정치에 대한 표준오차와 신뢰구간 검증 등으로 확인
선형회귀분석
종속변수 y와 한 개 이상의 독립변수 x와의 선형 상관성을 파악하는 회귀분석 기법으로 종속변수와 독립변수 모두 연속형 변수여야 함.
단순 선형회귀분석: 가장 단순한 분석, 한개의 종속변수 y와 한 개의 독립변수 x로, 두 개의 변수 사이의 관계 분석
다중 선형회귀분석: 독립변수가 두 개 이상이고 종속변수가 y 하나인 선형회귀분석
기본가정
선형성
잔차 정규성: 잔차의 기댓값은 0이며 정규분포 이룸.
잔차 독립성
잔차 등분산성
다중 공산성: 다중 회귀분석 수행 시 3개 이상의 독립변수 간 상관관계로 인한 문제가 없어야 함.
일반화 선형모형(GLM: Generalized Linear Model)
선형회귀모형의 확장형태, 종속변수가 정규분포를 따르지 않는 경우도 적용 가능한 통계 모형
선형예측변수와 링크하수 사용 → 종속변수와의 관계 설명
선형회귀, 로지스틱회귀, 포아송회귀 등 다양한 특수한 경우의 모델이 포함됨.
구성요소
선형예측변수(Linear Predictor): 독립변수와 모수를 결합한 선형 식
연결함수(Link Function): 선형예측변수와 종속변수 간 관계 나타내는 함수
확률분포: GLM은 종속 변수가 특정 확률분포 따른다고 가정함. (일반적으로, GLM은 이산확률분포인 이항/포아송 분포, 이항 분포와 같은 확률 분포 가정)
로지스틱 회귀분석(Logistic Regression)
단순 로지스틱 회귀분석: 종속변수가 이항형 문제(범주의 개수가 두 개인 경우)인 회귀분석
다중 로지스틱 회귀분석: 종속변수가 이항형 문제가 아닌 두 개 이상의 범주를 가지게 될 경우의 회귀분석
승산(odds): 임의의 사건 A가 발생하지 않을 확률 대비 일어날 확률의 비율
회귀분석 장단점
장점: 크기 관계 없이 계수들에 대한 명료한 해석과 손쉬운 통계적 유의성 검증 가능
단점: 선형적 관계로 데이터가 구성 → 적용 가능
03. 의사결정나무(Decision Tree)
나무 모양으로 나타내어 전체 자료를 몇 개의 소집단으로 분류(classification)하거나 예측(prediction) 수행 기법
상위노드로부터 하위노드로 트리구조 형성 → 매 단계마다 분류 변수와 분류 기준값 선택 중요
의사결정나무 구성
Root Node(뿌리 마디, 뿌리 노드)
Internal Node(중간 마디)
Terminal Node(끝 마디, 잎 노드)
Child Node(자식 마디)
Parent Node(부모 마디)
Branch(가지): 하나의 마디로부터 끝 마디까지 연결된 마디
Depth(깊이)
의사결정나무 종류
목표변수가 이산형인 경우의 분류나무 / 연속형인 경우의 회귀나무로 구분
분류나무 - 이산형 목표변수: 목표변수 범주에 속하는 빈도 기반 입력 데이터 분류 클래스
회귀나무 - 연속형 목표변수: 목표변수 평균/표준편차 기반 예측된 결과 → 특정 의미 지니는 실수값 출력
분류나무: 이산형(범주형) 목표변수에 따른 빈도 기반 분리
상위 노드에서 가지 분할을 진행할 때 카이제곱 통계량(불순도 함수)의 p-value, 지니 지수(Gini Index, 불순도 함수), 엔트로피 지수(Entropy Index, 불순도 함수) 등이 분리 기준으로 활용
회귀나무: 연속형(수치형) 목표변수에 따른 평균/표준편차 기반 분리
상위 노드에서 가지분할을 진행 → F-통계량의 p-value, 분산의 감소량 등이 분리 기준으로 활용
분산의 감소량이 최대화가 될수록 낮은 이질성, 순수도가 높아지는 방향으로 가지분할 진행됨.
의사결정나무 분석 과정
변수 선택: 목표변수와 관련된 설명(독립) 변수들 선택
의사결정나무 형성: 분석목적 → 적절한 분리기준, 정지규칙, 평가기준 등으로
최대 깊이: 트리 깊이가 지정된 최대값에 도달하면 분할 정지
최소 샘플 수: 가지 끝 노드에 속한 샘플 수가 정해진 값보다 작다면 분할 정지
불순도 감소: 불순도를 감소시키는 최소량 지정 → 이 값보다 작은 불군도 감소가 있으면 분할 정지
가지치기: 부적절한 나뭇가지 제거 → 오버피팅 막고 일반화 성능 높임.
모형 평가 및 예측
정보 획득(Information Gain)
정보이론에서 순도가 증가하고 불확실성이 감소하는 것
현재 노드의 불순도와 자식노드의 불순도 차이 의미
재귀적 분기(Recursive Partitioning) 학습
분기 전보다 분기 후 각 영역의 정보 획득량이 높아지도록 입력 변수 영역 구분 → 사전에 설정한 기준을 만족할 때까지 분기 반복
가지치기: 평가용 데이터 활용
에러감소 가지치기: 분할/결합 전.후 오류 비교→ 오류 줄지 않을 때까지 반복
룰 포스트 가지치기: 나무구조를 뿌리 노드부터 잎 노드까지 경로의 형태로 변환→ 정확도 낮은 순 제거
타당성 평가
해석 및 예측
의사결정나무 대표적 알고리즘
CART(Classfication and Regression Trees)
일반적으로 활용
불순도 측도로 범주형 / 이산형 → 지니 지수를, 연속형 → 분산 감소량을 이용한 binary split(이진 분류) 활용