업무에 따른 재현율과 정밀도의 상대적 중요도
- 재현율이 상대적으로 더 중요한 지표인 경우는 실제 Positive 양성인 데이터 예즉을 Negative로 잘못
판단하게 되면 업무 상 큰 영향이 발생하는 경우 : 암 진단, 금융사기 판별
-> 가급적 양성이라 하고 확인하는 것이 나은 경우 - 정밀도가 상대적으로 더 중요한 지표인 경우는 실제 Negative 음성인 데이터 예즉을 Positive 양성으
로 잘못 판단하게 되면 업무상 큰 영향이 발생하는 경우 : 스팸 메일
-> 가급적 음성이라 하고 확인하는 것이 나은 경우
불균형한 레이블 클래스를 가지는 이진 분류 모델에서는 많은 데이터 증에서 중점적으로 잦아야 하는 매우 적은 수의 결과값에 Positive 를 설정해 1값을 부여하고, 그렇지 않은 경우는 Negative로 0값을 일반적으로 부여합니다.
정밀도/재현율 트레이드오프
- 분류하려는 업무의 특성상 정밀도 또는 재현율이 특별히 강조돼야 할 경우 분류의 결정 임곗값(Threshold) 을 조정해 정밀도 또는 재현율의 수치를 높일 수 있습니다.
- 하지만 정밀도와 재현율은 상호보완적인 평가지표이기 때문에 어느 한쪽을 강제로 높이면 다른 하나의 수치는 떨어지기 쉽습니다. 이를 정밀도/재현율의 트레이드오프 (Trade-Off)라고 부릅 니 다
분류 결정 임곗값에 따른 Positive 예측 확률 변화
분류결정 임겟값에 따른 정밀도,재현율 곡선
• 사이킷런은 precision_recall_curve( ) 함수를 통해 임곗값에 따른 정밀도,재현율의 변화 값을 제공합니다.
'Machine Learning > 머신러닝 완벽가이드 for Python' 카테고리의 다른 글
ch.3.5 ROC Curve와 AUC (0) | 2022.10.06 |
---|---|
ch.3.4 F1 Score (0) | 2022.10.06 |
ch.3.2 오차행렬과 정밀도, 재현율 소개 (0) | 2022.10.06 |
ch.3.1 평가(Evaluation) - 정확도(accuracy) (0) | 2022.10.06 |
2.5 데이터_전처리(데이터 인코딩, 피처스케일링과 정규화) (실습) (0) | 2022.10.06 |