본문 바로가기

Machine Learning/머신러닝 완벽가이드 for Python

ch.4.09 분류 실습 2 : 신용카드 사기 예측 실습

송파새싹 2022. 10. 11. 15:59

Credit Card Fraud Detection 데이터 세트 소개

데이터 셋은 2013 년 European Card 사용 트랜잭션을 가공하여 생성
불균형 (imbalanced) 되어 있는 데이터 셋. 284,807 건의 데이터 중 492 건이 Fraud 임. 전제의 0.172%

Credit Card Fault Detection ML 모델 구축

다양한 Feature Engineering 방식을 자례로 Logistic Regression 과 LightGBM 을 이용하여 적용 후 비교

Log 변환

Log 변환은 왜곡된 분포도를 가진 데이터 세트를 비교적 정규분포에 가깝게 변환해주는 홀륭한 Feature Engineering 방식

IQR(Inter Quantile Range) 를 이용한 Outlier Removal

언더 샘플링 (Under sampling) 과 오버 샘플링 (Oversampling)

레이블이 불균형한 분포를 가진 데이터 세트를 학습 시, 이상 레이블을 가지는 데이터 건수가 매우 적어 제대로 된 유형의 학습이 어려음
반면에 정상 레이블을 가지는 데이터 건수는 매우 많아 일방적으로 정상 레이블로 치우진 학습을 수행하여, 제대로 된 이상 데이터 검즐이 어려움
대표적으로 오버 샘플링 (Oversampling)과 언더 샘플링 (Undersampling) 방법을 통해 적절한 학습 데이터룰 확보함.

SMOTE (Synthetic Minority Over-Sampling Technique) 개요

-> 타겟값 분포에 맞춰서 피처 데이터를 오버샘플링 해준다.

저작자표시 비영리 변경금지

'Machine Learning > 머신러닝 완벽가이드 for Python' 카테고리의 다른 글

스마트폰 구매 요인 분석(Decision Tree) (실습) (0)	2022.10.12
ch4.09 분류 실습-신용카드_사기검출 (0)	2022.10.11
ch4.08 분류실습 _ 산탄데르 고객 만족 예측 (1)	2022.10.11
ch 4.07_01 LightGBM(실습) (0)	2022.10.11
ch. 4.7 LightGBM (0)	2022.10.11

티스토리툴바