본문 바로가기

Machine Learning/머신러닝 완벽가이드 for Python

ch.3.3 정밀도와 재현율의 관계

업무에 따른 재현율과 정밀도의 상대적 중요도

 

  • 재현율이 상대적으로 더 중요한 지표인 경우는 실제 Positive 양성인 데이터 예즉을 Negative로 잘못
    판단하게 되면 업무 상 큰 영향이 발생하는 경우 : 암 진단, 금융사기 판별
    -> 가급적 양성이라 하고 확인하는 것이 나은 경우

  • 정밀도가 상대적으로 더 중요한 지표인 경우는 실제 Negative 음성인 데이터 예즉을 Positive 양성으
    로 잘못 판단하게 되면 업무상 큰 영향이 발생하는 경우 : 스팸 메일
    -> 가급적 음성이라 하고 확인하는 것이 나은 경우

 

불균형한 레이블 클래스를 가지는 이진 분류 모델에서는 많은 데이터 증에서 중점적으로 잦아야 하는 매우 적은 수의 결과값에 Positive 를 설정해 1값을 부여하고, 그렇지 않은 경우는 Negative로 0값을 일반적으로 부여합니다.

 

 

 

정밀도/재현율 트레이드오프

 

  • 분류하려는 업무의 특성상 정밀도 또는 재현율이 특별히 강조돼야 할 경우 분류의 결정 임곗값(Threshold) 을 조정해 정밀도 또는 재현율의 수치를 높일 수 있습니다.
  • 하지만 정밀도와 재현율은 상호보완적인 평가지표이기 때문에 어느 한쪽을 강제로 높이면 다른 하나의 수치는 떨어지기 쉽습니다. 이를 정밀도/재현율의 트레이드오프 (Trade-Off)라고 부릅 니 다

 

 

 

분류 결정 임곗값에 따른 Positive 예측 확률 변화

 

 

 

분류결정 임겟값에 따른 정밀도,재현율 곡선

 

• 사이킷런은 precision_recall_curve( ) 함수를 통해 임곗값에 따른 정밀도,재현율의 변화 값을 제공합니다.