Machine Learning (95) 썸네일형 리스트형 ch4.2 결정 트리(실습) from sklearn.tree import DecisionTreeClassifier from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split # 워닝 무시 import warnings warnings.filterwarnings('ignore') 1 1. iris 데이터 로드 및 분리 # 붓꽃 데이터를 로딩 iris_data = load_iris() # 학습과 테스트 데이터 셋으로 분리 X_train , X_test , y_train , y_test = train_test_split(iris_data.data, iris_data.target, test_size=0.2, random_state=11).. ch.4.1~2. 분류의 종류, 결정 트리 ch.4.1 분류의 종류 분류 알고리즘 분류 (Classification) 는 학습 데이터로 주어진 데이터의 피처와 레이블값(결정 값, 클래스 값)을 머신러닝 알고리즘으로 학습해 모델을 생성하고, 이렇게 생성된 모델에 새로운 데이터 값이 주어 졌을 때 미지의 레이블 값을 예측하는 것입니다. 대표적인 분류 알고리즘들 베이즈 (Bayes) 틍계와 생성 모델에 기반한 나이브 베이즈(Naiive Bayes) 독립 변수와 종속변수의 선형 관계성에 기반한 로지스틱 회귀 (Logistic Regression) 데이터 균일도에 따른규직 기반의 결정 트리 (DecisionTree) 개별 클래스 간의 죄대 분류 마진을 효과적으로 잦아주는 서포트 벡터 머신 (SupportVector Machine) 근접 거리를 기준으로 하.. ch03 요약 이진 분류에서 정밀도,재현율, F1 스코어, AUC 스코어가 주로 성능 평가지표로 활용됩니다. 오차행렬은 실제 클래스 값과 예측 클래스 값의 True, False 에 따라 TN,FP,FN,TP로 매핑되는 4분면 행렬을 제공합니다. 정밀도와 재현율은 Positive 데이터 세트의 예측 성능에 좀 더 초점을 맞준 지표이며, 분류 결정 임계값을 조정해 정밀도 또는 재현율은 수친를 높이거나 낮출 수 있습니다. F1 스코어는 정밀도와 재현율이 어느한쪽으로 치우지지 않을때 좋은 값을 가집니다. AUC 스코어는 ROC 곡선 밑의 면적을 구한것으로 1 에 가까울수록 좋은 수치입니다. ch.3.6 실습 파마 인디언 당뇨병 예측(실습) 피마 인디언 당뇨병 (Pima Indian Diabetes) 데이터 세트등 이용해 당뇨병 여부를 판단하는 머신러닝 예측 모델을 수립하고, 지금까지 설명한 평가 지표를 적용해보겠습니다. import numpy as np import pandas as pd import matplotlib.pyplot as plt %matplotlib inline from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score, precision_score, recall_score, roc_auc_score from sklearn.metrics import f1_score, confusion_matrix, precisi.. ch 3.1~3-5_정확도 _ ROC_AUC 예제 (실습) 1 3. 평가(Evaluation) 학습 데이터로 분류 모델을 만들고, 이를 테스트 데이터에 넣어서 좋은 모델인지 성능을 평가하고자 한다. 이 때 사용되는 분류 성능평가 지표들과 함수들에 대해 알아보자 - 오차행렬 - 정확도 - 정밀도,재현율 - 정밀도와 재현율의 (trade-off) 관계 - F1 Score - ROC AUC import pandas as pd import numpy as np # 경고 메시지 무시 import warnings warnings.filterwarnings(action='ignore') 2 3.1 정확도(Accuracy) 이진 분류 시 정확도는 그닥 좋은 평가 지표는 아니다. 예시를 들어서 살펴보면, 2.0.1 (1) 타이타닉 데이터 - 성별로만 생존, 사망 예측하는 Dum.. ch.3.5 ROC Curve와 AUC ROC 곡선과 AUC ROC 곡선 (Receiver Operation Characteristic Curve)과 이에 기반한 AUC 스코어는 이진 분류의 예측 성능 측정에서 중요하게 사용되는 지표입니다 일반적으로 의학 분야에서 많이 사용되지만, 머신러닝의 이진 분류 모델의 예측 성능을 판단하는 중요한 평가 지표이기도 합니다. ROC 곡선은 FPR(False Positive Rate) 이 변할 때 TPR(True Positive Rate) 이 어떻게 변하는지를 나타내는 곡선입니다. FPR을 X 죽으로, TPR을 Y 죽으로 잡으면 FPR의 변화에 따른 TPR의 변화가 곡선 형태로 나타납니다. 분류의 성능 지표로 사용되는 것은 ROC 곡선 면적에 기반한 AUC 값으로 결정합니다. AUC(Area Under Cu.. ch.3.4 F1 Score Fl Score F1 스코어 (Score)는 정밀도와 재현율을 결합한 지표입니다. F1 스코어는 정밀도와 재현율이 어느 한쪽으로 지우치지 않는 수치를 나타낼 때 상대적으로 높은 값을 가집니다. F1 스코어의 공식은 다음과 같습니다. ch.3.3 정밀도와 재현율의 관계 업무에 따른 재현율과 정밀도의 상대적 중요도 재현율이 상대적으로 더 중요한 지표인 경우는 실제 Positive 양성인 데이터 예즉을 Negative로 잘못 판단하게 되면 업무 상 큰 영향이 발생하는 경우 : 암 진단, 금융사기 판별 -> 가급적 양성이라 하고 확인하는 것이 나은 경우 정밀도가 상대적으로 더 중요한 지표인 경우는 실제 Negative 음성인 데이터 예즉을 Positive 양성으 로 잘못 판단하게 되면 업무상 큰 영향이 발생하는 경우 : 스팸 메일 -> 가급적 음성이라 하고 확인하는 것이 나은 경우 불균형한 레이블 클래스를 가지는 이진 분류 모델에서는 많은 데이터 증에서 중점적으로 잦아야 하는 매우 적은 수의 결과값에 Positive 를 설정해 1값을 부여하고, 그렇지 않은 경우는 Negat.. 이전 1 ··· 6 7 8 9 10 11 12 다음