본문 바로가기

Machine Learning/머신러닝 완벽가이드 for Python

ch.4.09 분류 실습 2 : 신용카드 사기 예측 실습

Credit Card Fraud Detection 데이터 세트 소개

 

  • 데이터 셋은 2013 년 European Card 사용 트랜잭션을 가공하여 생성
  • 불균형 (imbalanced) 되어 있는 데이터 셋. 284,807 건의 데이터 중 492 건이 Fraud 임. 전제의 0.172%

 

Credit Card Fault Detection ML 모델 구축

 

다양한 Feature Engineering 방식을 자례로 Logistic Regression 과 LightGBM 을 이용하여 적용 후 비교

 

 

Log 변환

 

Log 변환은 왜곡된 분포도를 가진 데이터 세트를 비교적 정규분포에 가깝게 변환해주는 홀륭한 Feature Engineering 방식

 

 

IQR(Inter Quantile Range) 를 이용한 Outlier Removal

 

 

언더 샘플링 (Under sampling) 과 오버 샘플링 (Oversampling)

 

  • 레이블이 불균형한 분포를 가진 데이터 세트를 학습 시, 이상 레이블을 가지는 데이터 건수가 매우 적어 제대로 된 유형의 학습이 어려음 
  • 반면에 정상 레이블을 가지는 데이터 건수는 매우 많아 일방적으로 정상 레이블로 치우진 학습을 수행하여, 제대로 된 이상 데이터 검즐이 어려움
  • 대표적으로 오버 샘플링 (Oversampling)과 언더 샘플링 (Undersampling) 방법을 통해 적절한 학습 데이터룰 확보함.

 

SMOTE (Synthetic Minority Over-Sampling Technique) 개요

 

-> 타겟값 분포에 맞춰서 피처 데이터를 오버샘플링 해준다.