Credit Card Fraud Detection 데이터 세트 소개
- 데이터 셋은 2013 년 European Card 사용 트랜잭션을 가공하여 생성
- 불균형 (imbalanced) 되어 있는 데이터 셋. 284,807 건의 데이터 중 492 건이 Fraud 임. 전제의 0.172%
Credit Card Fault Detection ML 모델 구축
다양한 Feature Engineering 방식을 자례로 Logistic Regression 과 LightGBM 을 이용하여 적용 후 비교
Log 변환
Log 변환은 왜곡된 분포도를 가진 데이터 세트를 비교적 정규분포에 가깝게 변환해주는 홀륭한 Feature Engineering 방식
IQR(Inter Quantile Range) 를 이용한 Outlier Removal
언더 샘플링 (Under sampling) 과 오버 샘플링 (Oversampling)
- 레이블이 불균형한 분포를 가진 데이터 세트를 학습 시, 이상 레이블을 가지는 데이터 건수가 매우 적어 제대로 된 유형의 학습이 어려음
- 반면에 정상 레이블을 가지는 데이터 건수는 매우 많아 일방적으로 정상 레이블로 치우진 학습을 수행하여, 제대로 된 이상 데이터 검즐이 어려움
- 대표적으로 오버 샘플링 (Oversampling)과 언더 샘플링 (Undersampling) 방법을 통해 적절한 학습 데이터룰 확보함.
SMOTE (Synthetic Minority Over-Sampling Technique) 개요
-> 타겟값 분포에 맞춰서 피처 데이터를 오버샘플링 해준다.
'Machine Learning > 머신러닝 완벽가이드 for Python' 카테고리의 다른 글
스마트폰 구매 요인 분석(Decision Tree) (실습) (0) | 2022.10.12 |
---|---|
ch4.09 분류 실습-신용카드_사기검출 (0) | 2022.10.11 |
ch4.08 분류실습 _ 산탄데르 고객 만족 예측 (1) | 2022.10.11 |
ch 4.07_01 LightGBM(실습) (0) | 2022.10.11 |
ch. 4.7 LightGBM (0) | 2022.10.11 |